10:00
Linguagem R e Aplicação da CRISP-DM
IFMG - Campus Formiga
11 de abril de 2025
O que vimos até hoje?
Aula 1 ✅
Aula 2 ✅
Metodologia CRISP-DM ✅
Tipos de Análise ✅
Configurações: Git/GitHub ✅
Aula 3 ✅
Introdução ao RStudio ✅
Aula 4 ✅
Introdução ao Git e GitHub ✅
Aula 5 ✅
Breve Revisão do IDE RStudio ✅
Introdução ao Sistema de Publicação Quarto ✅
Sessão Prática Guiada com Relatório 1 ✅
Tópicos
Parte I (\(\approx\) 60-80 min.)
Parte II (\(\approx\) 40-60 min.)
Diretrizes para Aulas Mais Produtivas
🔊 Mantenha conversas em volume baixo
⌨️ Código com método:
95% dos erros são evitáveis com:
🤝 Inteligência colaborativa:
💪 Capacidade de Resolver Problemas
Cada erro resolvido é uma evolução da sua habilidade analítica
O que é este relatório?
Um exemplo prático e dirigido da aplicação de Ciência de Dados
Sua primeira oportunidade de ver a integração de:
Demonstração do tipo de trabalho que vocês serão capazes de produzir
Diferentes Níveis de Aprendizado
Nível Metodológico: Aplicação estruturada do CRISP-DM
Nível Técnico: Primeiros contatos com a linguagem R
Nível Analítico: Desenvolver olhar crítico sobre dados
Nível de Comunicação: Estruturação de relatórios técnicos profissionais
10:00
Atividade
Renderizem o arquivo 01-relatorio-html.qmd
e leiam todo o relatório na versão html.
Os que não tiverem um projeto funcional da disciplina, leiam o relatório de um colega.
As Fases Aplicadas no Estudo de Caso
No relatório, aplicamos as três primeiras fases do CRISP-DM:
Entendimento do Negócio:
Entendimento dos Dados:
Preparação dos Dados:
O que viria depois no fluxo completo
Embora o relatório foque nas três primeiras fases, o CRISP-DM completo incluiria:
Modelagem:
Avaliação:
Implantação:
Descobrindo Padrões e Relações
No relatório, realizamos análises que revelaram:
Relação entre fornecedor e qualidade: Identificamos que a matéria-prima da “Burns Best Ltd.” tende a gerar produtos de qualidade inferior
Relação entre cor e qualidade: Descobrimos que whisky com cor próxima de 0.3 tende a ter melhor qualidade
Outras possíveis relações: Análises iniciais sobre impacto do mestre responsável e turno de produção
Insights Acionáveis
O relatório apresenta conclusões diretas e orientadas para ação:
Fornecedor como fator crítico: Reavaliar parcerias ou implementar controles de qualidade mais rigorosos
Cor como indicador antecipado: Utilizar este parâmetro no controle de qualidade durante a produção
Próximos passos: Coletar mais dados, investigar interações entre fatores, desenvolver modelos preditivos
Uma linguagem para análise estatística e visualização
Vantagens para Administradores
O que podemos aprender através do relatório
glimpse()
, summary()
, select()
, rename()
, etc.ggplot2
here
, tidyverse
, dplyr
, ggplot2
%>%
): Encadeamento de operações%>%
) do TidyverseEncadeando operações de forma legível
Atalho para inserir %>%
: Ctrl+Alt+I (Windows/Linux)
Permite ler o código de forma mais intuitiva (da esquerda para a direita)
Cada linha representa uma operação sequencial sobre os dados
Facilita a compreensão do fluxo de transformação
Construção em camadas
O que vem pela frente
Nas próximas aulas, aprofundaremos:
Passos para renderização
01-relatorio-html.qmd
no RStudio.Duas Abordagen
Para Alunos com Projeto Estruturado:
Para Alunos com Dificuldades Técnicas
Instruções passo a passo
Modifique o cabeçalho YAML:
Altere o campo “author” com seu nome
Mude o tema para outro (ex: “flatly”, “darkly”, “journal”, “litera”, “pulse”, “quartz”, “slate”, “solar”, “spacelab”)
Adicione code-tools: true
abaixo de code-fold = true
Renderize novamente e analise as diferenças
Execute cada célula de código individualmente
Consulte os tutoriais sobre Quarto e Markdown conforme necessário
Antes de finalizar: Atualize seu repositório com os comandos Git:
O que esperamos alcançar
Prof. Washington Silva - Introdução à Ciência de Dados