Programa da Disciplina
Introdução à Ciência de Dados 2025
Bacharelado em Administração
Objetivo Geral
Esta disciplina aborda os fundamentos da Ciência de Dados, combinando ferramentas computacionais (R, RStudio, Quarto, Git/GitHub), manipulação e visualização de dados e conceitos básicos de estatística e probabilidade. O curso introduz os princípios do processo de análise de dados, apresentando técnicas de manipulação de dados, estatística descritiva, visualização e elementos de inferência estatística. O propósito é desenvolver no estudante de Administração habilidades iniciais para interpretar e analisar dados de forma crítica, permitindo que identifiquem oportunidades de aplicação dessas ferramentas em contextos empresariais. Ao final da disciplina, espera-se que os graduandos não apenas compreendam o potencial da análise de dados para a tomada de decisões, mas também adquiram um alicerce sólido de conceitos e ferramentas que constituirá a base necessária para estudos mais avançados e aplicações profissionais em análise de dados.
Objetivos Específicos
Capacitar o graduando em ferramentas e técnicas modernas essenciais para Ciência de Dados, com foco na linguagem R e no ambiente RStudio para a importação, manipulação, visualização e análise estatística de dados.
Desenvolver habilidades de preparação e manipulação de dados usando o metapacote tidyverse, capacitando o estudante a transformar dados brutos em formatos adequados para análise.
Aplicar conceitos fundamentais de estatística descritiva e visualização de dados para identificar padrões e tendências relevantes em conjuntos de dados.
Introduzir fundamentos de probabilidade e inferência estatística necessários para a tomada de decisão baseada em dados, incluindo simulações de Monte Carlo aplicadas a problemas de negócios.
Capacitar o graduando para a criação de relatórios usando o sistema Quarto, permitindo a reprodutibilidade das análises e a comunicação eficaz de resultados analíticos.
Ementa
Fundamentos de Ciência de Dados aplicados à Administração. Ambiente de trabalho e ferramentas computacionais (RStudio, Linguagem R, Git, GitHub e Sistema Quarto). Preparação, manipulação e transformação de dados com tidyverse. Estatística descritiva. Visualização de dados com ggplot2. Fundamentos de probabilidade. Introdução à inferência estatística. Criação de relatórios e dashboards para comunicação de resultados.
Bibliografia Básica
WICKHAM, Hadley; ÇETINKAYA-RUNDEL, Mine; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 2nd. ed. 2023. O’Reilly Media, Inc. Disponível em: R for Data Science. Tradução em Português disponível em: R para Ciência de Dados
DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006. Disponível na biblioteca do campus.
SMAY, Chester; KIM, Albert Y. Introduction to Data Science: Data Wrangling and Visualization with R. 2nd Edition. CRC Press, 2025. Disponível em: Introduction to Data Science
Bibliografia Complementar
FARIA, Pedro Duarte. Introdução à Linguagem R: Seus Fundamentos e sua Prática. 2024. Disponível em: Introdução à Linguagem R
TRIOLA, Mário F. Introdução à Estatística. 10 edição. Rio de Janeiro: LTC, 2008. Disponível na biblioteca do campus.
CHANG, Winston. R Graphics Cookbook. 2025, O’Reilly. Disponível em: R Graphics Cookbook
Recursos Online:
Avaliação
O planejamento da distribuição dos pontos referentes às avaliações poderá ser realizado da seguinte forma:
Avaliação 1 (33 pontos): Fundamentos de R e Manipulação de Dados
- Aplicada após o módulo 3
- Projeto individual: importação e manipulação de dados empresariais
- Entrega: Relatório quarto.
Avaliação 2 (33 pontos): Estatística Descritiva e Visualização
- Aplicada após o módulo 5
- Projeto em duplas: importação, manipulação, análise exploratória e visualizações de dados.
- Entrega: Relatório quarto com análises e visualizações comentadas.
Avaliação 3 (34 pontos): Projeto Final
- Aplicada ao final do curso
- Projeto em grupos de 3-4 alunos: análise completa de um problema aplicado
- Entrega: Relatório Quarto (ou Dashboard) analítico e apresentação pelo grupo.
Para aprovação, é necessária a obtenção de pelo menos 60 pontos. Pode haver alterações no formato das avaliações conforme o andamento da disciplina e rendimento da turma.
Conteúdo Programático
1. Visão Geral de Ciência de Dados
- 1.1. O que é Ciência de Dados e aplicações
- 1.2. Papéis em Ciência de Dados
- 1.3. CRISP-DM: Um processo de análise de dados
- 1.4. Tipos de análise: descritiva, diagnóstica e preditiva
2. Ambiente de Trabalho e Ferramentas
- 2.1. RStudio e projetos estruturados
- 2.1.1. Interface e configuração
- 2.1.2. Projetos RStudio: criação e vantagens
- 2.2. Sistema de Publicação Quarto
- 2.2.1. Documentos reproduzíveis: código e texto integrados
- 2.2.2. Formatos de saída relevantes para Administração (relatórios, apresentações)
- 2.3. Introdução à Linguagem R
- 2.3.1. Operações básicas e tipos de dados
- 2.3.2. Estruturas de dados fundamentais (vetores, dataframes)
- 2.3.3. Programação com Funções
- 2.4. Controle de versão com Git e GitHub
- 2.4.1. Conceitos fundamentais e fluxo de trabalho básico
- 2.4.2. Criando e mantendo um repositório para o projeto da disciplina
3. Preparação de Dados com Tidyverse (12 horas)
- 3.1. Importação de dados com readr e readxl
- 3.1.1. Arquivos CSV e Excel
- 3.2. Manipulação de dados com dplyr
- 3.2.1. Filtragem, seleção e ordenação (filter, select, arrange)
- 3.2.2. Criação de novas variáveis (mutate)
- 3.2.3. Sumarização de dados (group_by, summarize)
- 3.3. Reestruturação de dados com tidyr
- 3.3.1. Dados organizados (tidy data)
- 3.3.2. Funções pivot_longer e pivot_wider
- 3.4. Combinação de conjuntos de dados (joins)
4. Fundamentos de Probabilidade para Decisões
- 4.1. Introdução à Probabilidade
- 4.2. Probabilidade Condicional
- 4.3. Variáveis Aleatórias e Distribuições de Probabilidade
- 4.4. Valor Esperado, Variância e Covariância
- 4.5. Simulação de Monte Carlo aplicada à Administração
5. Análise Exploratória de Dados
- 5.1. Tipos de Variáveis
- 5.2. Análise exploratória numérica
- 5.2.1. Medidas de Posição e de Variação
- 5.2.2. Correlações e tabelas de contingência
- 5.5. Análise exploratória gráfica
6. Visualização de Dados com ggplot2
- 6.1. Princípios básicos do ggplot2
- 6.2. Visualizações essenciais para análise de negócios
- 6.2.1. Histogramas e Densidades
- 6.2.2. Gráficos de barras
- 6.2.3. Gráficos de linhas e séries temporais
- 6.2.4. Gráficos de dispersão
- 6.2.5. Boas práticas de visualização
7. Introdução à Inferência Estatística
- 7.1. Amostragem e distribuições amostrais
- 7.2. Estimação Pontual, Intervalos de Confiança e Bootstrap
- 7.3. Introdução aos Testes de Hipóteses com aplicações práticas
8. Tópicos Extras
- 8.1. Relatórios Parametrizados com Quarto
- 8.2. Dashboards básicos para monitoramento de indicadores
Recursos Didáticos e Materiais de Estudo
Entre os recursos didáticos utilizados na disciplina estão:
Materiais Primários para Estudo:
Bibliografia recomendada.
Slides e notas de aula (disponibilizados no site da disciplina).
Tutoriais desenvolvidos em Quarto.
Arquivos quarto demonstrativos (.qmd).
Ambiente e Ferramentas:
Repositório GitHub da disciplina para compartilhamento de materiais e submissão de atividades.
Ambiente virtual de aprendizagem para suporte e comunicação.
Arquivos de dados reais e simulados para os exemplos.
Importante: Os slides, tutoriais e demais recursos disponibilizados constituem os materiais primários para estudo e preparação para as avaliações, devendo ser utilizados em conjunto com a bibliografia recomendada. Todo o material será disponibilizado no site da disciplinar e/ou no ambiente virtual de aprendizagem.
Metodologia de Ensino
Trata-se de um curso do tipo “hands-on” e baseado no conceito de aprendizagem ativa. Nesse sentido, e dados os objetivos do curso, faremos uso intensivo de aulas práticas nas quais os graduandos deverão praticar as metodologias para análise de dados e sua implementação via linguagem R e sistema Quarto. O aprendizado será estruturado por meio de projetos progressivos, começando com exercícios simples de manipulação de dados e avançando para análises mais complexas, culminando em um projeto final que sintetiza as competências desenvolvidas ao longo do semestre. Esta abordagem visa facilitar a aplicação imediata dos conhecimentos no contexto profissional dos estudantes.
Plano de Aulas
O cronograma a seguir é apenas um planejamento, portanto, pode ser alterado conforme o andamento da disciplina e o rendimento da turma.
Data | Total de Aulas | Tópico |
---|---|---|
26/03/25 | 2 | O que é Ciência de Dados? |
Apresentação da Disciplina | ||
28/03/25 | 2 | CRISP-DM e Tipos de análise |
Configuração Git/GitHub | ||
02/04/25 | 2 | Visão Geral RStudio/Quarto/R/Git/GitHub I |
04/04/25 | 2 | Visão Geral RStudio/Quarto/R/Git/GitHub II |
09/04/25 | 2 | Introdução à Linguagem R (Parte 1) |
11/04/25 | 2 | ntrodução à Linguagem R (Parte 2) |
16/04/25 | 2 | ntrodução à Linguagem R (Parte 3) |
23/04/25 | 2 | Importação de dados com readr e readxl |
25/04/25 | 2 | Manipulação de dados com dplyr (Parte 1) |
30/04/25 | 2 | Manipulação de dados com dplyr (Parte 2) |
07/05/25 | 2 | Reestruturação de dados com tidyr |
09/05/25 | 2 | Combinação de conjuntos de dados (joins) |
14/05/25 | 2 | Avaliação 1 |
16/05/25 | 2 | Fundamentos de Probabilidade |
21/05/25 | 2 | Simulação de Monte Carlo |
23/05/25 | 2 | Análise Exploratória Numérica |
28/05/25 | 2 | Análise Exploratória Numérica |
30/05/25 | 2 | Análise Exploratória Gráfica |
02/06/25 | 2 | Análise Exploratória Gráfica |
04/06/25 | 2 | Análise Exploratória Gráfica |
11/06/25 | 2 | Avaliação 2 |
13/06/25 | 2 | Análise Exploratória Gráfica |
18/06/25 | 2 | Introdução à Inferência Estatística |
25/06/25 | 2 | Introdução à Inferência Estatística |
27/06/25 | 2 | Introdução à Inferência Estatística |
02/07/25 | 2 | Introdução à Inferência Estatística |
04/07/25 | 2 | Relatórios Quarto Parametrizados |
09/07/25 | 2 | Dashboards |
11/07/25 | 2 | Avaliação 3 |
18/07/25 | 2 | Encerramento |
Recuperação
Conforme o regulamento dos cursos de graduação do IFMG.