Programa da Disciplina

Introdução à Ciência de Dados 2025
Bacharelado em Administração

Autor

Prof. Dr. Washington S. da Silva

Objetivo Geral

Esta disciplina aborda os fundamentos da Ciência de Dados através da metodologia CRISP-DM (Cross-Industry Standard Process for Data Mining), combinando ferramentas computacionais modernas (linguagem R, IDE RStudio, sistema de publicação Quarto, Git/GitHub), manipulação e visualização de dados e conceitos básicos de estatística e probabilidade. O curso introduz os princípios do processo estruturado de análise de dados, apresentando técnicas de manipulação de dados, estatística descritiva, visualização e elementos de inferência estatística organizadas segundo as fases do CRISP-DM. O propósito é desenvolver no estudante de Administração habilidades iniciais para interpretar e analisar dados de forma crítica e metodologicamente fundamentada, permitindo que identifiquem oportunidades de aplicação dessas ferramentas em contextos empresariais. Ao final da disciplina, espera-se que os graduandos não apenas compreendam o potencial da análise de dados para a tomada de decisões, mas também dominem uma abordagem estruturada para conduzir projetos analíticos e adquiram um alicerce sólido de conceitos e ferramentas que constituirá a base necessária para estudos mais avançados e aplicações profissionais em análise de dados.

Objetivos Específicos

  1. Aplicar a metodologia CRISP-DM como framework estruturador para projetos de análise de dados, capacitando o graduando em ferramentas e técnicas modernas essenciais para Ciência de Dados, com foco na linguagem R e no ambiente RStudio para a importação, manipulação, visualização e análise estatística de dados.

  2. Desenvolver habilidades de preparação e manipulação de dados usando o metapacote tidyverse, capacitando o estudante a transformar dados brutos em formatos adequados para análise seguindo as boas práticas de entendimento e preparação de dados do CRISP-DM.

  3. Aplicar conceitos fundamentais de estatística descritiva e visualização de dados para identificar padrões e tendências relevantes em conjuntos de dados, integrando análise exploratória e diagnóstica dentro do processo estruturado de análise de dados.

  4. Introduzir fundamentos de probabilidade e inferência estatística necessários para a tomada de decisão baseada em dados, incluindo simulações de Monte Carlo aplicadas a problemas de negócios, contextualizados nas fases de modelagem e avaliação de projetos analíticos.

  5. Capacitar o graduando para a criação de relatórios usando o sistema Quarto, permitindo a reprodutibilidade das análises e a comunicação eficaz de resultados analíticos seguindo os princípios de documentação e apresentação de projetos de ciência de dados.

Ementa

Fundamentos de Ciência de Dados aplicados à Administração. Ambiente de trabalho e ferramentas computacionais (RStudio, Linguagem R, Git, GitHub e Sistema Quarto). Preparação, manipulação e transformação de dados com tidyverse. Estatística descritiva. Visualização de dados com ggplot2. Fundamentos de probabilidade. Introdução à inferência estatística. Criação de relatórios e dashboards para comunicação de resultados.

Bibliografia Básica

WICKHAM, Hadley; ÇETINKAYA-RUNDEL, Mine; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 2nd. ed. 2023. O’Reilly Media, Inc. Disponível em: R for Data Science. Tradução em Português disponível em: R para Ciência de Dados

DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006. Disponível na biblioteca do campus.

SMAY, Chester; KIM, Albert Y. Introduction to Data Science: Data Wrangling and Visualization with R. 2nd Edition. CRC Press, 2025. Disponível em: Introduction to Data Science

Bibliografia Complementar

FARIA, Pedro Duarte. Introdução à Linguagem R: Seus Fundamentos e sua Prática. 2024. Disponível em: Introdução à Linguagem R

TRIOLA, Mário F. Introdução à Estatística. 10 edição. Rio de Janeiro: LTC, 2008. Disponível na biblioteca do campus.

CHANG, Winston. R Graphics Cookbook. 2025, O’Reilly. Disponível em: R Graphics Cookbook

Recursos Online:

Avaliação

O planejamento da distribuição dos pontos referentes às avaliações poderá ser realizado da seguinte forma:

  • Avaliação 1 (33 pontos): Fundamentos de R e Manipulação de Dados

    • Aplicada após o módulo 3
    • Projeto individual: importação e manipulação de dados empresariais
    • Entrega: Relatório quarto.
  • Avaliação 2 (33 pontos): Estatística Descritiva e Visualização

    • Aplicada após o módulo 5
    • Projeto em duplas: importação, manipulação, análise exploratória e visualizações de dados.
    • Entrega: Relatório quarto com análises e visualizações comentadas.
  • Avaliação 3 (34 pontos): Projeto Final

    • Aplicada ao final do curso
    • Projeto em grupos de 3-4 alunos: análise completa de um problema aplicado
    • Entrega: Relatório Quarto (ou Dashboard) analítico e apresentação pelo grupo.

Para aprovação, é necessária a obtenção de pelo menos 60 pontos. Pode haver alterações no formato das avaliações conforme o andamento da disciplina e rendimento da turma.

Conteúdo Programático

1. Visão Geral de Ciência de Dados

  • 1.1. O que é Ciência de Dados e aplicações
  • 1.2. Papéis em Ciência de Dados
  • 1.3. CRISP-DM: Um processo de análise de dados
  • 1.4. Tipos de análise: descritiva, diagnóstica e preditiva

2. Ambiente de Trabalho e Ferramentas

  • 2.1. RStudio e projetos estruturados
    • 2.1.1. Interface e configuração
    • 2.1.2. Projetos RStudio: criação e vantagens
  • 2.2. Sistema de Publicação Quarto
    • 2.2.1. Documentos reproduzíveis: código e texto integrados
    • 2.2.2. Formatos de saída relevantes para Administração (relatórios, apresentações)
  • 2.3. Introdução à Linguagem R
    • 2.3.1. Operações básicas e tipos de dados
    • 2.3.2. Estruturas de dados fundamentais (vetores, dataframes)
    • 2.3.3. Programação com Funções
  • 2.4. Controle de versão com Git e GitHub
    • 2.4.1. Conceitos fundamentais e fluxo de trabalho básico
    • 2.4.2. Criando e mantendo um repositório para o projeto da disciplina

3. Preparação de Dados com Tidyverse (12 horas)

  • 3.1. Importação de dados com readr e readxl
    • 3.1.1. Arquivos CSV e Excel
  • 3.2. Manipulação de dados com dplyr
    • 3.2.1. Filtragem, seleção e ordenação (filter, select, arrange)
    • 3.2.2. Criação de novas variáveis (mutate)
    • 3.2.3. Sumarização de dados (group_by, summarize)
  • 3.3. Reestruturação de dados com tidyr
    • 3.3.1. Dados organizados (tidy data)
    • 3.3.2. Funções pivot_longer e pivot_wider
  • 3.4. Combinação de conjuntos de dados (joins)

4. Fundamentos de Probabilidade para Decisões

  • 4.1. Introdução à Probabilidade
  • 4.2. Variáveis Aleatórias e Distribuições de Probabilidade
  • 4.3. Valor Esperado, Variância e Covariância
  • 4.4. Distribuição Normal
  • 4.5. Simulação de Monte Carlo aplicada à Administração

5. Análise Exploratória de Dados

  • 5.1. Análise exploratória numérica
    • 5.1.1. Medidas de Posição e de Variação
    • 5.1.2. Correlações e tabelas de contingência
  • 5.2. Análise exploratória gráfica

6. Visualização de Dados com ggplot2

  • 6.1. Princípios básicos do ggplot2
  • 6.2. Visualizações essenciais para análise de negócios
    • 6.2.1. Histogramas e Densidades
    • 6.2.2. Gráficos de barras
    • 6.2.3. Gráficos de linhas e séries temporais
    • 6.2.4. Gráficos de dispersão
    • 6.2.5. Boas práticas de visualização

7. Introdução à Inferência Estatística

  • 7.1. Amostragem e distribuições amostrais
  • 7.2. Estimação Pontual, Intervalos de Confiança e Bootstrap
  • 7.3. Introdução aos Testes de Hipóteses com aplicações práticas

8. Tópicos Extras

  • 8.1. Relatórios Parametrizados com Quarto
  • 8.2. Dashboards básicos para monitoramento de indicadores

Recursos Didáticos e Materiais de Estudo

Entre os recursos didáticos utilizados na disciplina estão:

  • Materiais Primários para Estudo:

    • Bibliografia recomendada.

    • Slides e notas de aula (disponibilizados no site da disciplina).

    • Tutoriais desenvolvidos em Quarto.

    • Arquivos quarto demonstrativos (.qmd).

  • Ambiente e Ferramentas:

    • Repositório GitHub da disciplina para compartilhamento de materiais e submissão de atividades.

    • Ambiente virtual de aprendizagem para suporte e comunicação.

    • Arquivos de dados reais e simulados para os exemplos.

Importante: Os slides, tutoriais e demais recursos disponibilizados constituem os materiais primários para estudo e preparação para as avaliações, devendo ser utilizados em conjunto com a bibliografia recomendada. Todo o material será disponibilizado no site da disciplinar e/ou no ambiente virtual de aprendizagem.

Metodologia de Ensino

Trata-se de um curso do tipo “hands-on” e baseado no conceito de aprendizagem ativa. Nesse sentido, e dados os objetivos do curso, faremos uso intensivo de aulas práticas nas quais os graduandos deverão praticar as metodologias para análise de dados e sua implementação via linguagem R e sistema Quarto. O aprendizado será estruturado por meio de projetos progressivos, começando com exercícios simples de manipulação de dados e avançando para análises mais complexas, culminando em um projeto final que sintetiza as competências desenvolvidas ao longo do semestre. Esta abordagem visa facilitar a aplicação imediata dos conhecimentos no contexto profissional dos estudantes.

Plano de Aulas

O cronograma a seguir é apenas um planejamento, portanto, pode ser alterado conforme o andamento da disciplina e o rendimento da turma.

Data Total de Aulas Tópico
26/03/25 2 O que é Ciência de Dados?
Apresentação da Disciplina
28/03/25 2 CRISP-DM e Tipos de análise
Configuração Git/GitHub
02/04/25 2 Visão Geral RStudio/Quarto/R/Git/GitHub
04/04/25 2 Visão Geral RStudio/Quarto/R/Git/GitHub
09/04/25 2 Visão Geral RStudio/Quarto/R/Git/GitHub
11/04/25 2 Introdução à Linguagem R
16/04/25 2 Introdução à Linguagem R
23/04/25 2 Importação de dados com readr e readxl
25/04/25 2 Manipulação de dados com dplyr
30/04/25 2 Manipulação de dados com dplyr
07/05/25 2 Manipulação de dados com dplyr
09/05/25 2 Organização de dados com tidyr
14/05/25 2 Avaliação 1
16/05/25 2 Tipos Básicos de (joins) do dplyr
21/05/25 2 Fundamentos de Probabilidade
23/05/25 2 Fundamentos de Probabilidade
28/05/25 2 Fundamentos de Probabilidade
30/05/25 2 Fundamentos de Probabilidade
02/06/25 2 Análise Exploratória de Dados
04/06/25 2 Análise Exploratória de Dados
11/06/25 2 Análise Exploratória de Dados
13/06/25 2 Análise Exploratória de Dados
18/06/25 2 Avaliação 2
25/06/25 2 Introdução à Inferência Estatística
27/06/25 2 Introdução à Inferência Estatística
02/07/25 2 Introdução à Inferência Estatística
04/07/25 2 Introdução à Inferência Estatística
09/07/25 2 Introdução à Inferência Estatística
11/07/25 2 Avaliação 3
18/07/25 2 Dashboards Quarto

Recuperação

Conforme o regulamento dos cursos de graduação do IFMG.