Programa da Disciplina

Introdução à Ciência dos Dados 2025
Mestrado Profissional em Aministração

Autor

Prof. Dr. Washington S. da Silva

Objetivo Geral

O objetivo primário é equipar os mestrandos com conhecimentos fundacionais e ferramentas modernas para conduzirem projetos de pesquisa empírica reproduzíveis na área de Finanças, desenvolvendo capacidade crítica para implementar modelos empíricos robustos, interpretar resultados e comunicar análises computacionais no contexto de Finanças e de áreas correlacionadas.

Os fundamentos envolvem computação científica reproduzível, pensamento estatístico e probabilístico aplicados a Finanças. Trata-se de um curso do tipo hands-on. O objetivo é levar os mestrandos do zero à capacidade de formular questões relevantes, coletar e preparar dados adequados, implementar análises apropriadas usando a linguagem R, interpretar criticamente os resultados obtidos e comunicar efetivamente suas conclusões com uso de ferramentas modernas que garantam a reprodutibilidade, incluindo o sistema Quarto e LaTeX.

Um foco importante é demonstrar aos mestrandos que as competências e habilidades desenvolvidas representam não apenas requisitos para pesquisas acadêmicas alinhadas às boas práticas contemporâneas, mas constituem um conjunto de ferramentas diferenciadas para o desenvolvimento de soluções baseadas em dados para desafios reais do mercado de trabalho atual em Finanças e em outras áreas.

Objetivos Especificos

  1. Capacitar o mestrando em ferramentas e técnicas modernas de computação científica, incluindo: Ambiente de Desenvolvimento Integrado RStudio, Sistema de Publicação Quarto, linguagem R, controle de versão com Git e GitHub, e boas práticas de organização, documentação e compartilhamento de dados e códigos para garantir transparência e reprodutibilidade metodológica.

  2. Revisar, de forma aplicada, fundamentos de Probabilidade e Estatística necessários para o desenvolvimento, aplicação e interpretação crítica de modelos empíricos na área de Finanças, incluindo o uso de métodos de simulação para validação de resultados e avaliação de incertezas em contextos financeiros.

  3. Capacitar o mestrando para a comunicação efetiva de análises e resultados através da elaboração de relatórios, visualizações e apresentações utilizando o Sistema Quarto e LaTeX, com ênfase na documentação completa e transparente do processo de pesquisa que permita a verificação e reprodução dos resultados por terceiros.

Avaliação

O planejamento da disciplina prevê que os pontos referentes às avaliações de aprendizagem serão distribuídos da seguinte forma:

  1. Atividades práticas (Avaliação 1) = 20 pontos (5-8 atividades ao longo do semestre)

    • Implementação de pequenos exercícios usando RStudio/Quarto/R/Git/GitHub.
    • Resolução de problemas usando conceitos de probabilidade e estatística.
    • Uso adequado do Quarto para documentação.
  2. Projeto intermediário (Avaliação 2) = 25 pontos

    • Análise exploratória de um conjunto de dados.
    • Implementação de métodos estatísticos básicos.
    • Documentação completa e reproduzível no Quarto.
    • Repositório organizado no GitHub.
  3. Atividade avaliativa teórico-prática (Avaliação 3) = 25 pontos

    • Verificação dos conceitos fundamentais de probabilidade e estatística.
    • Resolução de problemas usando métodos de simulação.
  4. Projeto final (Avaliação 4) = 30 pontos

    • Desenvolvimento de um projeto completo de análise de dados.
    • Aplicação dos conceitos e ferramentas aprendidos.
    • Relatório final em formato de artigo usando Quarto.
    • Apresentação oral dos resultados.
    • Disponibilização do projeto completo em repositório GitHub.

Para aprovação, é necessária a obtenção de pelo menos 60 pontos. Como em todo planejamento, pode haver alterações conforme o andamento da disciplina e o rendimento da turma.

Critérios de Avaliação

Os projetos (intermediário e final) serão avaliados considerando, aproximadamente, os seguintes critérios:

  • Reprodutibilidade (25%): código bem documentado e organização do repositório.

  • Implementação técnica (25%): uso correto das ferramentas computacionais.

  • Análise estatística (25%): aplicação correta dos métodos e interpretação coerente.

  • Comunicação dos resultados (25%): qualidade do relatório, das visualizações e apresentação oral (no caso do projeto final).

Bibliografia Básica

WICKHAM, Hadley; ÇETINKAYA-RUNDEL, Mine; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 2nd. ed. 2023. O’Reilly Media, Inc. Disponível em: R for Data Science. Tradução em Português disponível em: R para Ciência de Dados

DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006. Disponível na biblioteca do campus.

SMAY, Chester; KIM, Albert Y. Introduction to Data Science: Data Wrangling and Visualization with R. 2nd Edition. CRC Press, 2025. Disponível em: Introduction to Data Science

ISMAY, Chester; KIM, Albert Y.; VALDIVIA, Arturo. Statistical Inference via Data Science: A ModernDive into R and the Tidyverse. 2024. 2nd. Ed. CRC Press. Disponível em: ModernDive

CHANG, Winston. R Graphics Cookbook. 2025, O’Reilly. Disponível em: R Graphics Cookbook

Bibliografia Complementar

TRIOLA, Mário F. Introdução à Estatística. 10 edição. Rio de Janeiro: LTC, 2008. Disponível na biblioteca do campus.

FARIA, Pedro Duarte. Introdução à Linguagem R: Seus Fundamentos e sua Prática. 2024. Disponível em: Introdução à Linguagem R

TIMBERS, TIFFANY; CAMPBELL, Trevor; LEE, Melissa. Data Science: A First Introduction. CRC Press, 2024. Disponível em: Data Science: A First Introduction

ALEXANDER, Rohan. Telling Stories with Data: With Applications in R and Python. 2023. CRC Press. Disponível em: Telling Stories with Data

BRYAN, Jennifer. Happy Git and GitHub for the useR. Disponível em: happygitwithr.com

BLITZSTEIN, Joseph K.; HWANG, Jessica. Introduction to Probability. 2ª ed. CRC Press, 2019. Material de curso disponível em: projects.iq.harvard.edu/stat110

Recursos Online:

Ementa

Introdução à Computação Científica: IDE Rstudio, Sistema Quarto, Linguagem R e Git/GitHub. Fundamentos de Probabilidade e Simulação. Fundamentos de Estatística e Simulação.

Conteúdo Programático

1. Introdução à Computação Científica (20 horas)

  • 1.1. Conceitos Fundamentais de Ciência de Dados
    • 1.1.1. O que é Ciência de Dados?
    • 1.1.2. O ciclo de vida de um projeto de ciência de dados
    • 1.1.3. Ciência de Dados aplicada à Finanças: casos de uso nas linhas de pesquisa do mestrado
  • 1.2. Computação Científica Reproduzível
    • 1.2.1. Princípios da pesquisa reproduzível
    • 1.2.2. RStudio e projetos estruturados
    • 1.2.3. Interface e configuração do RStudio
    • 1.2.4. Projetos RStudio: criação, organização e boas práticas
  • 1.3. Sistema de Publicação Quarto
    • 1.3.1. Fundamentos do Quarto: markdown, código e texto integrados
    • 1.3.2. Formatos de saída para comunicação científica (HTML, PDF, apresentações)
    • 1.3.3. Elementos do Quarto: cabeçalhos, parâmetros, chunks de código
    • 1.3.4. Introdução ao LaTeX para equações e formatação
  • 1.4. Introdução à Linguagem R
    • 1.4.1. Sintaxe básica, operadores e tipos de dados
    • 1.4.2. Estruturas de dados fundamentais (vetores, matrizes, dataframes, listas)
    • 1.4.3. Importação e exportação de dados
    • 1.4.4. Manipulação de dados com tidyverse (dplyr, tidyr)
    • 1.4.5. Programação funcional e introdução à criação de funções
  • 1.5. Controle de Versão com Git e GitHub
    • 1.5.1. Conceitos fundamentais e fluxo de trabalho básico
    • 1.5.2. Criando e mantendo um repositório para o projeto da disciplina
    • 1.5.3. Colaboração e integração com RStudio

2. Fundamentos de Probabilidade e Simulação (20 horas)

  • 2.1. Conceitos Básicos de Probabilidade
    • 2.1.1. Experimentos aleatórios, espaço amostral e eventos
    • 2.1.2. Axiomas da probabilidade
    • 2.1.3. Técnicas de contagem aplicadas à probabilidade
  • 2.2. Probabilidade Condicional e Independência
    • 2.2.1. Definição e interpretação
    • 2.2.2. Teorema de Bayes e aplicações em finanças
  • 2.3. Variáveis Aleatórias e Distribuições de Probabilidade
    • 2.3.1. Conceito de variável aleatória
    • 2.3.2. Distribuições discretas relevantes para finanças (Binomial, Poisson)
    • 2.3.3. Distribuições contínuas relevantes para finanças (Normal, t-Student, Lognormal)
    • 2.3.4. Implementação de distribuições de probabilidade em R
    • 2.3.5. Características de Distribuições de Probabilidade
  • 2.4. Simulação de Monte Carlo
    • 2.4.1. Princípios básicos de simulação
    • 2.4.2. Geração de números aleatórios em R
    • 2.4.3. Simulações para compreensão de conceitos probabilísticos
    • 2.4.4. Aplicações em finanças.

3. Fundamentos de Estatística e Visualização (20 horas)

  • 3.1. Estatística Descritiva e Exploração de Dados
    • 3.1.1. Medidas de tendência central e dispersão
    • 3.1.2. Análise exploratória de dados financeiros
    • 3.1.3. Visualização de dados com ggplot2
    • 3.1.4. Dashboards básicos com flexdashboard
  • 3.2. Inferência Estatística
    • 3.2.1. Amostragem e desenho de experimentos
    • 3.2.2. Estimação pontual e intervalar
    • 3.2.3. Interpretação de intervalos de confiança em contextos financeiros
    • 3.2.4. Simulação para compreensão da inferência estatística
  • 3.3. Testes de Hipóteses
    • 3.3.1. Conceitos Principais
    • 3.3.2. Testes paramétricos principais (t-test, ANOVA, qui-quadrado)
    • 3.3.3. Interpretação de resultados e significância prática vs. estatística
    • 3.3.4. Simulação e Inferência Estatística
  • 3.4. Introdução à Modelagem Estatística
    • 3.4.1. Correlação e causalidade
    • 3.4.2. Visualização de relações entre variáveis

Recursos Didáticos e Materiais de Estudo

Entre os recursos didáticos utilizados na disciplina estão:

  • Materiais Primários para Estudo:

    • Bibliografia recomendada.

    • Slides e notas de aula (disponibilizados no site da disciplina).

    • Tutoriais desenvolvidos em Quarto.

    • Arquivos quarto demonstrativos (.qmd).

  • Ambiente e Ferramentas:

    • Repositório GitHub da disciplina para compartilhamento de materiais e submissão de atividades.

    • Ambiente virtual de aprendizagem para suporte e comunicação.

    • Arquivos de dados reais e simulados para os exemplos.

Importante: Os slides, tutoriais e demais recursos disponibilizados constituem os materiais primários para estudo e preparação para as avaliações, devendo ser utilizados em conjunto com a bibliografia recomendada. Todo o material será disponibilizado no site da disciplinar e/ou no ambiente virtual de aprendizagem.

Metodologia de Ensino

Trata-se de um curso do tipo “hands-on” e baseado no conceito de aprendizagem ativa. Nesse sentido, e dados os objetivos do curso, faremos uso intensivo de aulas práticas nas quais os mestrandos deverão praticar as metodologias para análise de dados e sua implementação via linguagem R e sistema Quarto.

Plano de Aula

Certamente, o planejamento apresentado está sujeito a alterações, conforme o andamento da disciplina e o rendimento da turma.

Aula Data Tópicos Atividades
1 27/03/25 • Instalação e configuração dos softwares
• Contexto e Apresentação da disciplina
• Configuração do ambiente de trabalho
2 03/04/25 • RStudio e projetos estruturados
• Primeiros passos com R
• Criação do primeiro projeto R
• Exercícios básicos sobre R
3 10/04/25 • Estruturas de dados em R
• Importação de dados
• Manipulação de vetores e dataframes
• Importação de dados financeiros
4 24/04/25 • Introdução ao Quarto
• Manipulação de dados com tidyverse
• Criação do primeiro documento Quarto
Atividade prática 1
5 08/05/25 • Elementos avançados do Quarto
• Programação funcional em R
• Formatação de relatórios em Quarto
• Criação de funções simples
6 15/05/25 • Controle de versão com Git e GitHub
• Conceitos básicos de probabilidade
• Configuração do repositório GitHub
Atividade prática 2
7 22/05/25 • Probabilidade condicional e independência
• Introdução às variáveis aleatórias
• Resolução de problemas de probabilidade
• Implementação em R
8 29/05/25 • Distribuições discretas
• Distribuições contínuas
Projeto intermediário (apresentação)
• Simulações de distribuições
9 05/06/25 • Simulação de Monte Carlo - princípios
• Aplicações financeiras da simulação
• Simulações de eventos aleatórios
Atividade prática 3
10 12/06/25 • Estatística descritiva
• Análise exploratória de dados financeiros
• Análise de conjuntos de dados reais
• Cálculo de estatísticas descritivas
11 26/06/25 • Visualização de dados com ggplot2
• Dashboards básicos
• Criação de gráficos informativos
Atividade prática 4
12 03/07/25 • Amostragem e desenho de experimentos
• Estimação pontual e intervalar
• Simulações de amostragem
• Construção de intervalos de confiança
13 10/07/25 • Testes de hipóteses em finanças
• Interpretação de resultados estatísticos
Avaliação teórico-prática
• Implementação de testes estatísticos
14 17/07/25 • Correlação e causalidade
• Introdução a modelos preditivos
• Análise de correlações • Atividade prática 5
15 24/07/25 • Validação de modelos
• Integração dos conhecimentos
Apresentação do Projeto Final
• Fechamento da disciplina