Introdução à Ciência de Dados

Linguagem R e Aplicação da CRISP-DM

Prof. Washington Santos da Silva

IFMG - Campus Formiga

11 de abril de 2025

Diário de Bordo

O que vimos até hoje?

  • Aula 1 ✅

    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Papéis Profissionais na Área de Dados ✅
    • Áreas de Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅
  • Aula 2 ✅

    • Metodologia CRISP-DM ✅

    • Tipos de Análise ✅

      • Descritiva ✅
      • Diagnóstica ✅
      • Preditiva ✅
      • Prescritiva ✅
    • Configurações: Git/GitHub ✅

  • Aula 3 ✅

    • Introdução ao RStudio ✅

      • Criação do seu Projeto RStudio da Disciplina ✅
  • Aula 4 ✅

    • Introdução ao Git e GitHub ✅

      • Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
  • Aula 5 ✅

    • Breve Revisão do IDE RStudio ✅

    • Introdução ao Sistema de Publicação Quarto ✅

    • Sessão Prática Guiada com Relatório 1 ✅

      • Execução dos comandos git essenciais ✅

Nesta Aula

Tópicos

  • Parte I (\(\approx\) 60-80 min.)

    • O Relatório Junglivet e a Metodologia CRISP-DM
    • Primeiro contato com a linguagem R por meio dos códigos do relatório
  • Parte II (\(\approx\) 40-60 min.)

    • Para alunos com projetos estruturados:
      • Atividade práticl
    • Para alunos com dificuldades técnicas:
      • Atendimento individualizado para estruturação de projetos

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Atenção na digitação
  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

O Relatório Junglivet e a Metodologia CRISP-DM

Relatório Junglivet: O Início da Jornada

O que é este relatório?

  • Um exemplo prático e dirigido da aplicação de Ciência de Dados

  • Sua primeira oportunidade de ver a integração de:

    • Metodologia CRISP-DM
    • Código R
    • Sistema Quarto
    • Análise de dados
  • Demonstração do tipo de trabalho que vocês serão capazes de produzir

Objetivos do Relatório Junglivet

Diferentes Níveis de Aprendizado

  1. Nível Metodológico: Aplicação estruturada do CRISP-DM

  2. Nível Técnico: Primeiros contatos com a linguagem R

  3. Nível Analítico: Desenvolver olhar crítico sobre dados

  4. Nível de Comunicação: Estruturação de relatórios técnicos profissionais

Leitura do Relatório

10:00

Atividade

  • Renderizem o arquivo 01-relatorio-html.qmd e leiam todo o relatório na versão html.

  • Os que não tiverem um projeto funcional da disciplina, leiam o relatório de um colega.

CRISP-DM - Fases

CRISP-DM no Caso Junglivet

As Fases Aplicadas no Estudo de Caso

No relatório, aplicamos as três primeiras fases do CRISP-DM:

  1. Entendimento do Negócio:

    • Problema: Queda na qualidade do whisky
    • Objetivo: Identificar causas da redução de qualidade
    • Critério de sucesso: Identificar fatores que influenciam negativamente a qualidade
  2. Entendimento dos Dados:

    • Dicionário de dados (significado das variáveis)
    • Importação do arquivo de dados
    • Verificação da estrutura e estatísticas descritivas básicas
  3. Preparação dos Dados:

    • Renomeação de variáveis para português
    • Conversão de tipos de dados
    • Tratamento de valores ausentes

Fases Adicionais do CRISP-DM

O que viria depois no fluxo completo

Embora o relatório foque nas três primeiras fases, o CRISP-DM completo incluiria:

  1. Modelagem:

    • Desenvolvimento de modelos preditivos de qualidade
    • Testes e ajustes de diferentes algoritmos
  2. Avaliação:

    • Verificação se os resultados atendem aos objetivos de negócio
    • Determinação da validade das descobertas
  3. Implantação:

    • Transformação das análises em ações concretas
    • Implementação de um sistema de monitoramento

Análise Exploratória no Caso Junglivet

Descobrindo Padrões e Relações

No relatório, realizamos análises que revelaram:

  • Relação entre fornecedor e qualidade: Identificamos que a matéria-prima da “Burns Best Ltd.” tende a gerar produtos de qualidade inferior

  • Relação entre cor e qualidade: Descobrimos que whisky com cor próxima de 0.3 tende a ter melhor qualidade

  • Outras possíveis relações: Análises iniciais sobre impacto do mestre responsável e turno de produção

Conclusões e Recomendações

Insights Acionáveis

O relatório apresenta conclusões diretas e orientadas para ação:

  • Fornecedor como fator crítico: Reavaliar parcerias ou implementar controles de qualidade mais rigorosos

  • Cor como indicador antecipado: Utilizar este parâmetro no controle de qualidade durante a produção

  • Próximos passos: Coletar mais dados, investigar interações entre fatores, desenvolver modelos preditivos

Introdução à Linguagem R

O que é a Linguagem R?

Uma linguagem para análise estatística e visualização

  • Criada para estatísticos, pelos estatísticos Ross Ihaka e Robert Gentleman. O desenvolvimento foi iniciado em 1993 mas publicada em 1996 (Ihaka e Gentleman, 1996).
  • Linguagem de programação de domínio específico (analisar dados)
  • Gratuita e de código aberto
  • Extensa biblioteca de pacotes para diferentes análises
  • Grande comunidade de usuários e desenvolvedores
  • Excelentes capacidades gráficas
  • Tutorial sobre a linguagem R

Por que Aprender R?

Vantagens para Administradores

  • Crescimento profissional: Habilidade valorizada pelo mercado
  • Comunidade: Amplo suporte e recursos disponíveis
  • Gratuita e Código Aberto: Sem custos de licenciamento
  • Reprodutibilidade: Documentação completa do processo analítico
  • Transparência: Código visível e auditável
  • Flexibilidade: Adaptação a diferentes problemas de negócio

Conceitos Básicos de R no Relatório Junglivet

O que podemos aprender através do relatório

  • Importação de dados: Leitura de arquivos CSV
  • Manipulação de dados: Renomeação, filtragem, transformação
  • Funções básicas: glimpse(), summary(), select(), rename(), etc.
  • Visualização de dados: Construção de gráficos com ggplot2
  • Pacotes R: here, tidyverse, dplyr, ggplot2
  • Operador pipe (%>%): Encadeamento de operações

Pacotes R no Relatório Junglivet

Ferramentas utilizadas

# Carrega os pacotes usados
library(here)
library(tidyverse)
  • here: Simplifica o gerenciamento de caminhos de arquivos
  • tidyverse: família de pacotes para análise de dados (inclui dplyr, ggplot2, etc.)

Operador Pipe (%>%) do Tidyverse

Encadeando operações de forma legível

dados_destilaria_limpos <- dados_destilaria %>%
  select(-MONTH) %>%
  rename(
    dia = DAY,
    mestre_responsavel = MANUFACTURER,
    # ... outras renomeações
  ) %>%
  mutate(
    dia = as.numeric(dia),
    mestre_responsavel = as.factor(mestre_responsavel),
    # ... outras conversões
  ) %>%
  drop_na()
  • Atalho para inserir %>%: Ctrl+Alt+I (Windows/Linux)

  • Permite ler o código de forma mais intuitiva (da esquerda para a direita)

  • Cada linha representa uma operação sequencial sobre os dados

  • Facilita a compreensão do fluxo de transformação

Visualização com ggplot2

Construção em camadas

ggplot(
  dados_destilaria_limpos,
  aes(x = fornecedor_malte, y = indicador_qualidade)
) +
  geom_boxplot() +
  theme_minimal() +
  labs(
    title = "Qualidade do Whisky por Fornecedor de Malte",
    x = "Fornecedor",
    y = "Pontuação de Qualidade"
  )
  • ggplot(): Inicia o gráfico e define os dados e mapeamentos
  • geom_boxplot(): Adiciona a geometria (tipo de gráfico)
  • theme_minimal(): Define o estilo visual
  • labs(): Adiciona títulos e rótulos

Próximos Passos na Aprendizagem de R

O que vem pela frente

Nas próximas aulas, aprofundaremos:

  • Sintaxe básica da linguagem R: Objetos, funções, estruturas de controle
  • Tipos de dados em R: Vetores, listas, dataframes
  • Manipulação de dados com dplyr: Filtrar, selecionar, agrupar, resumir
  • Transformação de dados com tidyr: Dados organizados (tidy data)
  • Visualização avançada com ggplot2: Diferentes tipos de gráficos e customizações

Sessão Prática

Renderizando o Relatório Junglivet

Passos para renderização

  1. Abra o arquivo 01-relatorio-html.qmd no RStudio.
  2. Verifique se todos os pacotes necessários estão instalados.
  3. Clique no botão “Render” ou use o atalho Ctrl+Shift+K (Cmd+Shift+K no Mac).
  4. Observe o processo de renderização e o resultado final.

Atividade Prática

Duas Abordagen

Para Alunos com Projeto Estruturado:

  • Siga a atividade guiada no próximo slide.

Para Alunos com Dificuldades Técnicas

  • Atendimento individualizado para estruturação de projetos

Atividade: Explorando o Relatório Junglivet

Instruções passo a passo

  1. Modifique o cabeçalho YAML:

    • Altere o campo “author” com seu nome

    • Mude o tema para outro (ex: “flatly”, “darkly”, “journal”, “litera”, “pulse”, “quartz”, “slate”, “solar”, “spacelab”)

    • Adicione code-tools: true abaixo de code-fold = true

    • Renderize novamente e analise as diferenças

  2. Execute cada célula de código individualmente

    • clique em ► em cada célula de código
    • Observe os resultados no arquivo quarto.
    • Tente identificar o propósito de cada comando
  3. Consulte os tutoriais sobre Quarto e Markdown conforme necessário

  4. Antes de finalizar: Atualize seu repositório com os comandos Git:

git status
git add .
git commit -m "atualizações da aula 6"
git push origin main

Objetivos para Próxima Aula

O que esperamos alcançar

  1. Todos os alunos com:
    • Projeto RStudio estruturado corretamente
    • Repositório Git/GitHub funcionando
    • Relatório Junglivet renderizado com sucesso
  2. Preparação para:
    • Iniciar o aprendizado formal da linguagem R
    • Importação e manipulação básica de dados

Referências

IHAKA, R.; GENTLEMAN, R. R: A Language for Data Analysis and Graphics. Journal of Computational and Graphical Statistics, v. 5, n. 3, p. 299–314, 1996.