Programa da Disciplina

Introdução à Ciência de Dados 2025
Bacharelado em Administração

Autor

Prof. Dr. Washington S. da Silva

Objetivo Geral

Esta disciplina aborda os fundamentos da Ciência de Dados, combinando ferramentas computacionais (R, RStudio, Quarto, Git/GitHub), manipulação e visualização de dados e conceitos básicos de estatística e probabilidade. O curso introduz os princípios do processo de análise de dados, apresentando técnicas de manipulação de dados, estatística descritiva, visualização e elementos de inferência estatística. O propósito é desenvolver no estudante de Administração habilidades iniciais para interpretar e analisar dados de forma crítica, permitindo que identifiquem oportunidades de aplicação dessas ferramentas em contextos empresariais. Ao final da disciplina, espera-se que os graduandos não apenas compreendam o potencial da análise de dados para a tomada de decisões, mas também adquiram um alicerce sólido de conceitos e ferramentas que constituirá a base necessária para estudos mais avançados e aplicações profissionais em análise de dados.

Objetivos Específicos

  1. Capacitar o graduando em ferramentas e técnicas modernas essenciais para Ciência de Dados, com foco na linguagem R e no ambiente RStudio para a importação, manipulação, visualização e análise estatística de dados.

  2. Desenvolver habilidades de preparação e manipulação de dados usando o metapacote tidyverse, capacitando o estudante a transformar dados brutos em formatos adequados para análise.

  3. Aplicar conceitos fundamentais de estatística descritiva e visualização de dados para identificar padrões e tendências relevantes em conjuntos de dados.

  4. Introduzir fundamentos de probabilidade e inferência estatística necessários para a tomada de decisão baseada em dados, incluindo simulações de Monte Carlo aplicadas a problemas de negócios.

  5. Capacitar o graduando para a criação de relatórios usando o sistema Quarto, permitindo a reprodutibilidade das análises e a comunicação eficaz de resultados analíticos.

Ementa

Fundamentos de Ciência de Dados aplicados à Administração. Ambiente de trabalho e ferramentas computacionais (RStudio, Linguagem R, Git, GitHub e Sistema Quarto). Preparação, manipulação e transformação de dados com tidyverse. Estatística descritiva. Visualização de dados com ggplot2. Fundamentos de probabilidade. Introdução à inferência estatística. Criação de relatórios e dashboards para comunicação de resultados.

Bibliografia Básica

WICKHAM, Hadley; ÇETINKAYA-RUNDEL, Mine; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 2nd. ed. 2023. O’Reilly Media, Inc. Disponível em: R for Data Science. Tradução em Português disponível em: R para Ciência de Dados

DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006. Disponível na biblioteca do campus.

SMAY, Chester; KIM, Albert Y. Introduction to Data Science: Data Wrangling and Visualization with R. 2nd Edition. CRC Press, 2025. Disponível em: Introduction to Data Science

Bibliografia Complementar

FARIA, Pedro Duarte. Introdução à Linguagem R: Seus Fundamentos e sua Prática. 2024. Disponível em: Introdução à Linguagem R

TRIOLA, Mário F. Introdução à Estatística. 10 edição. Rio de Janeiro: LTC, 2008. Disponível na biblioteca do campus.

CHANG, Winston. R Graphics Cookbook. 2025, O’Reilly. Disponível em: R Graphics Cookbook

Recursos Online:

Avaliação

O planejamento da distribuição dos pontos referentes às avaliações poderá ser realizado da seguinte forma:

  • Avaliação 1 (33 pontos): Fundamentos de R e Manipulação de Dados

    • Aplicada após o módulo 3
    • Projeto individual: importação e manipulação de dados empresariais
    • Entrega: Relatório quarto.
  • Avaliação 2 (33 pontos): Estatística Descritiva e Visualização

    • Aplicada após o módulo 5
    • Projeto em duplas: importação, manipulação, análise exploratória e visualizações de dados.
    • Entrega: Relatório quarto com análises e visualizações comentadas.
  • Avaliação 3 (34 pontos): Projeto Final

    • Aplicada ao final do curso
    • Projeto em grupos de 3-4 alunos: análise completa de um problema aplicado
    • Entrega: Relatório Quarto (ou Dashboard) analítico e apresentação pelo grupo.

Para aprovação, é necessária a obtenção de pelo menos 60 pontos. Pode haver alterações no formato das avaliações conforme o andamento da disciplina e rendimento da turma.

Conteúdo Programático

1. Visão Geral de Ciência de Dados

  • 1.1. O que é Ciência de Dados e aplicações
  • 1.2. Papéis em Ciência de Dados
  • 1.3. CRISP-DM: Um processo de análise de dados
  • 1.4. Tipos de análise: descritiva, diagnóstica e preditiva

2. Ambiente de Trabalho e Ferramentas

  • 2.1. RStudio e projetos estruturados
    • 2.1.1. Interface e configuração
    • 2.1.2. Projetos RStudio: criação e vantagens
  • 2.2. Sistema de Publicação Quarto
    • 2.2.1. Documentos reproduzíveis: código e texto integrados
    • 2.2.2. Formatos de saída relevantes para Administração (relatórios, apresentações)
  • 2.3. Introdução à Linguagem R
    • 2.3.1. Operações básicas e tipos de dados
    • 2.3.2. Estruturas de dados fundamentais (vetores, dataframes)
    • 2.3.3. Programação com Funções
  • 2.4. Controle de versão com Git e GitHub
    • 2.4.1. Conceitos fundamentais e fluxo de trabalho básico
    • 2.4.2. Criando e mantendo um repositório para o projeto da disciplina

3. Preparação de Dados com Tidyverse (12 horas)

  • 3.1. Importação de dados com readr e readxl
    • 3.1.1. Arquivos CSV e Excel
  • 3.2. Manipulação de dados com dplyr
    • 3.2.1. Filtragem, seleção e ordenação (filter, select, arrange)
    • 3.2.2. Criação de novas variáveis (mutate)
    • 3.2.3. Sumarização de dados (group_by, summarize)
  • 3.3. Reestruturação de dados com tidyr
    • 3.3.1. Dados organizados (tidy data)
    • 3.3.2. Funções pivot_longer e pivot_wider
  • 3.4. Combinação de conjuntos de dados (joins)

4. Fundamentos de Probabilidade para Decisões

  • 4.1. Introdução à Probabilidade
  • 4.2. Probabilidade Condicional
  • 4.3. Variáveis Aleatórias e Distribuições de Probabilidade
  • 4.4. Valor Esperado, Variância e Covariância
  • 4.5. Simulação de Monte Carlo aplicada à Administração

5. Análise Exploratória de Dados

  • 5.1. Tipos de Variáveis
  • 5.2. Análise exploratória numérica
    • 5.2.1. Medidas de Posição e de Variação
    • 5.2.2. Correlações e tabelas de contingência
  • 5.5. Análise exploratória gráfica

6. Visualização de Dados com ggplot2

  • 6.1. Princípios básicos do ggplot2
  • 6.2. Visualizações essenciais para análise de negócios
    • 6.2.1. Histogramas e Densidades
    • 6.2.2. Gráficos de barras
    • 6.2.3. Gráficos de linhas e séries temporais
    • 6.2.4. Gráficos de dispersão
    • 6.2.5. Boas práticas de visualização

7. Introdução à Inferência Estatística

  • 7.1. Amostragem e distribuições amostrais
  • 7.2. Estimação Pontual, Intervalos de Confiança e Bootstrap
  • 7.3. Introdução aos Testes de Hipóteses com aplicações práticas

8. Tópicos Extras

  • 8.1. Relatórios Parametrizados com Quarto
  • 8.2. Dashboards básicos para monitoramento de indicadores

Recursos Didáticos e Materiais de Estudo

Entre os recursos didáticos utilizados na disciplina estão:

  • Materiais Primários para Estudo:

    • Bibliografia recomendada.

    • Slides e notas de aula (disponibilizados no site da disciplina).

    • Tutoriais desenvolvidos em Quarto.

    • Arquivos quarto demonstrativos (.qmd).

  • Ambiente e Ferramentas:

    • Repositório GitHub da disciplina para compartilhamento de materiais e submissão de atividades.

    • Ambiente virtual de aprendizagem para suporte e comunicação.

    • Arquivos de dados reais e simulados para os exemplos.

Importante: Os slides, tutoriais e demais recursos disponibilizados constituem os materiais primários para estudo e preparação para as avaliações, devendo ser utilizados em conjunto com a bibliografia recomendada. Todo o material será disponibilizado no site da disciplinar e/ou no ambiente virtual de aprendizagem.

Metodologia de Ensino

Trata-se de um curso do tipo “hands-on” e baseado no conceito de aprendizagem ativa. Nesse sentido, e dados os objetivos do curso, faremos uso intensivo de aulas práticas nas quais os graduandos deverão praticar as metodologias para análise de dados e sua implementação via linguagem R e sistema Quarto. O aprendizado será estruturado por meio de projetos progressivos, começando com exercícios simples de manipulação de dados e avançando para análises mais complexas, culminando em um projeto final que sintetiza as competências desenvolvidas ao longo do semestre. Esta abordagem visa facilitar a aplicação imediata dos conhecimentos no contexto profissional dos estudantes.

Plano de Aulas

O cronograma a seguir é apenas um planejamento, portanto, pode ser alterado conforme o andamento da disciplina e o rendimento da turma.

Data Total de Aulas Tópico
26/03/25 2 O que é Ciência de Dados?
Apresentação da Disciplina
28/03/25 2 CRISP-DM e Tipos de análise
Configuração Git/GitHub
02/04/25 2 Visão Geral RStudio/Quarto/R/Git/GitHub I
04/04/25 2 Visão Geral RStudio/Quarto/R/Git/GitHub II
09/04/25 2 Introdução à Linguagem R (Parte 1)
11/04/25 2 ntrodução à Linguagem R (Parte 2)
16/04/25 2 ntrodução à Linguagem R (Parte 3)
23/04/25 2 Importação de dados com readr e readxl
25/04/25 2 Manipulação de dados com dplyr (Parte 1)
30/04/25 2 Manipulação de dados com dplyr (Parte 2)
07/05/25 2 Reestruturação de dados com tidyr
09/05/25 2 Combinação de conjuntos de dados (joins)
14/05/25 2 Avaliação 1
16/05/25 2 Fundamentos de Probabilidade
21/05/25 2 Simulação de Monte Carlo
23/05/25 2 Análise Exploratória Numérica
28/05/25 2 Análise Exploratória Numérica
30/05/25 2 Análise Exploratória Gráfica
02/06/25 2 Análise Exploratória Gráfica
04/06/25 2 Análise Exploratória Gráfica
11/06/25 2 Avaliação 2
13/06/25 2 Análise Exploratória Gráfica
18/06/25 2 Introdução à Inferência Estatística
25/06/25 2 Introdução à Inferência Estatística
27/06/25 2 Introdução à Inferência Estatística
02/07/25 2 Introdução à Inferência Estatística
04/07/25 2 Relatórios Quarto Parametrizados
09/07/25 2 Dashboards
11/07/25 2 Avaliação 3
18/07/25 2 Encerramento

Recuperação

Conforme o regulamento dos cursos de graduação do IFMG.