Programa da Disciplina
Introdução à Ciência dos Dados 2025
Mestrado Profissional em Aministração
Objetivo Geral
O objetivo primário é equipar os mestrandos com conhecimentos fundacionais e ferramentas modernas para conduzirem projetos de pesquisa empírica reproduzíveis na área de Finanças, desenvolvendo capacidade crítica para implementar modelos empíricos robustos, interpretar resultados e comunicar análises computacionais no contexto de Finanças e de áreas correlacionadas.
Os fundamentos envolvem computação científica reproduzível, pensamento estatístico e probabilístico aplicados a Finanças. Trata-se de um curso do tipo hands-on. O objetivo é levar os mestrandos do zero à capacidade de formular questões relevantes, coletar e preparar dados adequados, implementar análises apropriadas usando a linguagem R, interpretar criticamente os resultados obtidos e comunicar efetivamente suas conclusões com uso de ferramentas modernas que garantam a reprodutibilidade, incluindo o sistema Quarto e LaTeX.
Um foco importante é demonstrar aos mestrandos que as competências e habilidades desenvolvidas representam não apenas requisitos para pesquisas acadêmicas alinhadas às boas práticas contemporâneas, mas constituem um conjunto de ferramentas diferenciadas para o desenvolvimento de soluções baseadas em dados para desafios reais do mercado de trabalho atual em Finanças e em outras áreas.
Objetivos Especificos
Capacitar o mestrando em ferramentas e técnicas modernas de computação científica, incluindo: Ambiente de Desenvolvimento Integrado RStudio, Sistema de Publicação Quarto, linguagem R, controle de versão com Git e GitHub, e boas práticas de organização, documentação e compartilhamento de dados e códigos para garantir transparência e reprodutibilidade metodológica.
Revisar, de forma aplicada, fundamentos de Probabilidade e Estatística necessários para o desenvolvimento, aplicação e interpretação crítica de modelos empíricos na área de Finanças, incluindo o uso de métodos de simulação para validação de resultados e avaliação de incertezas em contextos financeiros.
Capacitar o mestrando para a comunicação efetiva de análises e resultados através da elaboração de relatórios, visualizações e apresentações utilizando o Sistema Quarto e LaTeX, com ênfase na documentação completa e transparente do processo de pesquisa que permita a verificação e reprodução dos resultados por terceiros.
Avaliação
O planejamento da disciplina prevê que os pontos referentes às avaliações de aprendizagem serão distribuídos da seguinte forma:
Atividades práticas (Avaliação 1) = 20 pontos (5-8 atividades ao longo do semestre)
- Implementação de pequenos exercícios usando RStudio/Quarto/R/Git/GitHub.
- Resolução de problemas usando conceitos de probabilidade e estatística.
- Uso adequado do Quarto para documentação.
Projeto intermediário (Avaliação 2) = 25 pontos
- Análise exploratória de um conjunto de dados.
- Implementação de métodos estatísticos básicos.
- Documentação completa e reproduzível no Quarto.
- Repositório organizado no GitHub.
Atividade avaliativa teórico-prática (Avaliação 3) = 25 pontos
- Verificação dos conceitos fundamentais de probabilidade e estatística.
- Resolução de problemas usando métodos de simulação.
Projeto final (Avaliação 4) = 30 pontos
- Desenvolvimento de um projeto completo de análise de dados.
- Aplicação dos conceitos e ferramentas aprendidos.
- Relatório final em formato de artigo usando Quarto.
- Apresentação oral dos resultados.
- Disponibilização do projeto completo em repositório GitHub.
Para aprovação, é necessária a obtenção de pelo menos 60 pontos. Como em todo planejamento, pode haver alterações conforme o andamento da disciplina e o rendimento da turma.
Critérios de Avaliação
Os projetos (intermediário e final) serão avaliados considerando, aproximadamente, os seguintes critérios:
Reprodutibilidade (25%): código bem documentado e organização do repositório.
Implementação técnica (25%): uso correto das ferramentas computacionais.
Análise estatística (25%): aplicação correta dos métodos e interpretação coerente.
Comunicação dos resultados (25%): qualidade do relatório, das visualizações e apresentação oral (no caso do projeto final).
Bibliografia Básica
WICKHAM, Hadley; ÇETINKAYA-RUNDEL, Mine; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 2nd. ed. 2023. O’Reilly Media, Inc. Disponível em: R for Data Science. Tradução em Português disponível em: R para Ciência de Dados
DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006. Disponível na biblioteca do campus.
SMAY, Chester; KIM, Albert Y. Introduction to Data Science: Data Wrangling and Visualization with R. 2nd Edition. CRC Press, 2025. Disponível em: Introduction to Data Science
ISMAY, Chester; KIM, Albert Y.; VALDIVIA, Arturo. Statistical Inference via Data Science: A ModernDive into R and the Tidyverse. 2024. 2nd. Ed. CRC Press. Disponível em: ModernDive
CHANG, Winston. R Graphics Cookbook. 2025, O’Reilly. Disponível em: R Graphics Cookbook
Bibliografia Complementar
TRIOLA, Mário F. Introdução à Estatística. 10 edição. Rio de Janeiro: LTC, 2008. Disponível na biblioteca do campus.
FARIA, Pedro Duarte. Introdução à Linguagem R: Seus Fundamentos e sua Prática. 2024. Disponível em: Introdução à Linguagem R
TIMBERS, TIFFANY; CAMPBELL, Trevor; LEE, Melissa. Data Science: A First Introduction. CRC Press, 2024. Disponível em: Data Science: A First Introduction
ALEXANDER, Rohan. Telling Stories with Data: With Applications in R and Python. 2023. CRC Press. Disponível em: Telling Stories with Data
BRYAN, Jennifer. Happy Git and GitHub for the useR. Disponível em: happygitwithr.com
BLITZSTEIN, Joseph K.; HWANG, Jessica. Introduction to Probability. 2ª ed. CRC Press, 2019. Material de curso disponível em: projects.iq.harvard.edu/stat110
Recursos Online:
Ementa
Introdução à Computação Científica: IDE Rstudio, Sistema Quarto, Linguagem R e Git/GitHub. Fundamentos de Probabilidade e Simulação. Fundamentos de Estatística e Simulação.
Conteúdo Programático
1. Introdução à Computação Científica (20 horas)
- 1.1. Conceitos Fundamentais de Ciência de Dados
- 1.1.1. O que é Ciência de Dados?
- 1.1.2. O ciclo de vida de um projeto de ciência de dados
- 1.1.3. Ciência de Dados aplicada à Finanças: casos de uso nas linhas de pesquisa do mestrado
- 1.2. Computação Científica Reproduzível
- 1.2.1. Princípios da pesquisa reproduzível
- 1.2.2. RStudio e projetos estruturados
- 1.2.3. Interface e configuração do RStudio
- 1.2.4. Projetos RStudio: criação, organização e boas práticas
- 1.3. Sistema de Publicação Quarto
- 1.3.1. Fundamentos do Quarto: markdown, código e texto integrados
- 1.3.2. Formatos de saída para comunicação científica (HTML, PDF, apresentações)
- 1.3.3. Elementos do Quarto: cabeçalhos, parâmetros, chunks de código
- 1.3.4. Introdução ao LaTeX para equações e formatação
- 1.4. Introdução à Linguagem R
- 1.4.1. Sintaxe básica, operadores e tipos de dados
- 1.4.2. Estruturas de dados fundamentais (vetores, matrizes, dataframes, listas)
- 1.4.3. Importação e exportação de dados
- 1.4.4. Manipulação de dados com tidyverse (dplyr, tidyr)
- 1.4.5. Programação funcional e introdução à criação de funções
- 1.5. Controle de Versão com Git e GitHub
- 1.5.1. Conceitos fundamentais e fluxo de trabalho básico
- 1.5.2. Criando e mantendo um repositório para o projeto da disciplina
- 1.5.3. Colaboração e integração com RStudio
2. Fundamentos de Probabilidade e Simulação (20 horas)
- 2.1. Conceitos Básicos de Probabilidade
- 2.1.1. Experimentos aleatórios, espaço amostral e eventos
- 2.1.2. Axiomas da probabilidade
- 2.1.3. Técnicas de contagem aplicadas à probabilidade
- 2.2. Probabilidade Condicional e Independência
- 2.2.1. Definição e interpretação
- 2.2.2. Teorema de Bayes e aplicações em finanças
- 2.3. Variáveis Aleatórias e Distribuições de Probabilidade
- 2.3.1. Conceito de variável aleatória
- 2.3.2. Distribuições discretas relevantes para finanças (Binomial, Poisson)
- 2.3.3. Distribuições contínuas relevantes para finanças (Normal, t-Student, Lognormal)
- 2.3.4. Implementação de distribuições de probabilidade em R
- 2.3.5. Características de Distribuições de Probabilidade
- 2.4. Simulação de Monte Carlo
- 2.4.1. Princípios básicos de simulação
- 2.4.2. Geração de números aleatórios em R
- 2.4.3. Simulações para compreensão de conceitos probabilísticos
- 2.4.4. Aplicações em finanças.
3. Fundamentos de Estatística e Visualização (20 horas)
- 3.1. Estatística Descritiva e Exploração de Dados
- 3.1.1. Medidas de tendência central e dispersão
- 3.1.2. Análise exploratória de dados financeiros
- 3.1.3. Visualização de dados com ggplot2
- 3.1.4. Dashboards básicos com flexdashboard
- 3.2. Inferência Estatística
- 3.2.1. Amostragem e desenho de experimentos
- 3.2.2. Estimação pontual e intervalar
- 3.2.3. Interpretação de intervalos de confiança em contextos financeiros
- 3.2.4. Simulação para compreensão da inferência estatística
- 3.3. Testes de Hipóteses
- 3.3.1. Conceitos Principais
- 3.3.2. Testes paramétricos principais (t-test, ANOVA, qui-quadrado)
- 3.3.3. Interpretação de resultados e significância prática vs. estatística
- 3.3.4. Simulação e Inferência Estatística
- 3.4. Introdução à Modelagem Estatística
- 3.4.1. Correlação e causalidade
- 3.4.2. Visualização de relações entre variáveis
Recursos Didáticos e Materiais de Estudo
Entre os recursos didáticos utilizados na disciplina estão:
Materiais Primários para Estudo:
Bibliografia recomendada.
Slides e notas de aula (disponibilizados no site da disciplina).
Tutoriais desenvolvidos em Quarto.
Arquivos quarto demonstrativos (.qmd).
Ambiente e Ferramentas:
Repositório GitHub da disciplina para compartilhamento de materiais e submissão de atividades.
Ambiente virtual de aprendizagem para suporte e comunicação.
Arquivos de dados reais e simulados para os exemplos.
Importante: Os slides, tutoriais e demais recursos disponibilizados constituem os materiais primários para estudo e preparação para as avaliações, devendo ser utilizados em conjunto com a bibliografia recomendada. Todo o material será disponibilizado no site da disciplinar e/ou no ambiente virtual de aprendizagem.
Metodologia de Ensino
Trata-se de um curso do tipo “hands-on” e baseado no conceito de aprendizagem ativa. Nesse sentido, e dados os objetivos do curso, faremos uso intensivo de aulas práticas nas quais os mestrandos deverão praticar as metodologias para análise de dados e sua implementação via linguagem R e sistema Quarto.
Plano de Aula
Certamente, o planejamento apresentado está sujeito a alterações, conforme o andamento da disciplina e o rendimento da turma.
Aula | Data | Tópicos | Atividades |
---|---|---|---|
1 | 27/03/25 | • Instalação e configuração dos softwares • Contexto e Apresentação da disciplina |
• Configuração do ambiente de trabalho |
2 | 03/04/25 | • RStudio e projetos estruturados • Primeiros passos com R |
• Criação do primeiro projeto R • Exercícios básicos sobre R |
3 | 10/04/25 | • Estruturas de dados em R • Importação de dados |
• Manipulação de vetores e dataframes • Importação de dados financeiros |
4 | 24/04/25 | • Introdução ao Quarto • Manipulação de dados com tidyverse |
• Criação do primeiro documento Quarto • Atividade prática 1 |
5 | 08/05/25 | • Elementos avançados do Quarto • Programação funcional em R |
• Formatação de relatórios em Quarto • Criação de funções simples |
6 | 15/05/25 | • Controle de versão com Git e GitHub • Conceitos básicos de probabilidade |
• Configuração do repositório GitHub • Atividade prática 2 |
7 | 22/05/25 | • Probabilidade condicional e independência • Introdução às variáveis aleatórias |
• Resolução de problemas de probabilidade • Implementação em R |
8 | 29/05/25 | • Distribuições discretas • Distribuições contínuas |
• Projeto intermediário (apresentação) • Simulações de distribuições |
9 | 05/06/25 | • Simulação de Monte Carlo - princípios • Aplicações financeiras da simulação |
• Simulações de eventos aleatórios • Atividade prática 3 |
10 | 12/06/25 | • Estatística descritiva • Análise exploratória de dados financeiros |
• Análise de conjuntos de dados reais • Cálculo de estatísticas descritivas |
11 | 26/06/25 | • Visualização de dados com ggplot2 • Dashboards básicos |
• Criação de gráficos informativos • Atividade prática 4 |
12 | 03/07/25 | • Amostragem e desenho de experimentos • Estimação pontual e intervalar |
• Simulações de amostragem • Construção de intervalos de confiança |
13 | 10/07/25 | • Testes de hipóteses em finanças • Interpretação de resultados estatísticos |
• Avaliação teórico-prática • Implementação de testes estatísticos |
14 | 17/07/25 | • Correlação e causalidade • Introdução a modelos preditivos |
• Análise de correlações • Atividade prática 5 |
15 | 24/07/25 | • Validação de modelos • Integração dos conhecimentos |
• Apresentação do Projeto Final • Fechamento da disciplina |