Introdução à Ciência de Dados

Fundamentos de Probabilidade para Decisões - Parte 1

Prof. Washington Santos da Silva

IFMG - Campus Formiga

21 de maio de 2025

Diário de Bordo

O que vimos até hoje?

  • Aula 1 ✅

    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Papéis Profissionais na Área de Dados ✅
    • Áreas de Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅
  • Aula 2 ✅

    • Metodologia CRISP-DM ✅

    • Tipos de Análise ✅

      • Descritiva ✅
      • Diagnóstica ✅
      • Preditiva ✅
      • Prescritiva ✅
    • Configurações: Git/GitHub ✅

  • Aula 3 ✅

    • Introdução ao RStudio ✅

      • Criação do seu Projeto RStudio da Disciplina ✅
  • Aula 4 ✅

    • Introdução ao Git e GitHub ✅

      • Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
  • Aula 5 ✅

    • Breve Revisão do IDE RStudio ✅

    • Introdução ao Sistema de Publicação Quarto ✅

    • Sessão Prática Guiada com Relatório 1 ✅

      • Execução dos comandos git essenciais ✅
  • Aula 6 ✅

    • Parte I ✅

      • O Relatório Junglivet e a Metodologia CRISP-DM ✅
      • Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
    • Parte II ✅

      • Para alunos com projetos estruturados ✅
      • Atividade prática ✅
      • Para alunos com dificuldades técnicas ✅
      • Atendimento individualizado para estruturação de projetos ✅
  • Aula 7 ✅

    • Introdução ao sistema Quarto (continuação) ✅

      • Gerar relatório no formato pdf ✅
      • Gerar relatório no formato docx ✅
    • Introdução à Linguagem R (continuação) ✅

      • Conceitos: Variáveis e observações ✅
      • Estrutura tabular organizada de dados ✅
      • Tipos e classes de dados principais em R ✅
      • Estruturas de dados: vetores e data frames ✅
  • Aula 8 ✅

    • Início do estudo do pacote dplyr para manipulação de dados ✅

      • CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
        de um projeto de análise ou ciência de dados ✅
      • O que é o dplyr? ✅
      • A Filosofia Tidy Data (Dados Organizados) ✅
      • Dados Organizados (Tidy Data) ✅
      • Por que usar o dplyr? ✅
      • Fluxo de trabalho com dplyr ✅
      • Boas Práticas com dplyr ✅
      • Função dplyr::select() ✅
      • Função dplyr::filter() ✅
  • Aula 9 ✅

    • Solução dos exercícios práticos sobre as funções select e filter ✅
    • Função dplyr::mutate() ✅
  • Aula 10 ✅

    • Soluções dos exercícios práticos sobre a função mutate ✅
    • funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
  • Aula 11 ✅

    • Metodologia CRISP-DM e Pacote dplyr ✅
    • Revisão sobre Dados Organizados (Tidy Data) ✅
    • Exemplos de Dados Desorganizados Comuns em Administração ✅
    • Pacote tidyr: Função pivot_longer ✅
  • Aula 12 ✅

    • Metodologia CRISP-DM e o tidyverse ✅
    • Dados Organizados: Potencializando Análises ✅
  • Aula 13 ✅

    • Avaliação 1 ✅
  • Aula 14 ✅

    • Tipos Básicos de joins do pacote dplyr ✅

Nesta Aula

Tópicos

  • Fundamentos de Probabilidade para Decisões - Parte 1

    • Variáveis Aleatórias em Finanças
    • Distribuições de Probabilidade
    • Início: Distribuição Normal (ou Gaussiana)

Arquivo para esta Aula (15) e para Aula a 16

Instruções

  • Abra o RStudio e o seu Projeto da Disciplina

  • Crie a subpasta 08-relatorio dentro da pasta relatorios.

  • Acesse o site da disciplina e baixe o arquivo 08-relatorio.zip

  • Descompacte o arquivo, copie/recorte o arquivo 08-relatorio.qmd e cole dentro da subpasta 08-relatorio.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Atenção na digitação
  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Incerteza e Probabilidade

Por que Modelar a Incerteza?

Contexto de Negócios

  • Decidir sob condições de incerteza é inevitável

    • Qual preço devo estabelecer para um novo produto?
    • Quanto devo investir em marketing digital?
    • Será viável expandir operações para um novo mercado?
  • Transformando incerteza em risco gerenciável

    • Incerteza: “Não sei o que pode acontecer nem com que probabilidade”
    • Risco: “Sei o que pode acontecer e com que probabilidade”
  • Modelos probabilísticos como ferramenta de decisão

    • Permite quantificar e comparar alternativas sob condições de incerteza
    • Base para simulações e análises de cenários

Da Incerteza às Variáveis Aleatórias

A Ponte entre Incerteza e Modelagem Matemática

  • Problema: Como modelar matematicamente eventos incertos?

  • Solução: Variáveis aleatórias - a ferramenta matemática fundamental para:

    • Quantificar a incerteza em termos de probabilidades
    • Possibilitar o cálculo de valores esperados e riscos
    • Prever possíveis resultados e suas chances de ocorrência
  • Definição intuitiva: Uma variável cujo valor resulta de um processo com resultados incertos

  • Aplicações na Administração:

    • Previsão de vendas
    • Análise de viabilidade de projetos de investimento
    • Modelagem de comportamento do consumidor
    • Estimativa de tempo de conclusão de projetos

Conceito de Variável Aleatória

Definição Formal

  • Variável Aleatória: é uma função que associa um valor numérico a cada resultado possível de um processo aleatório.

  • Em termos simples: Um resultado numérico que depende do acaso:

    • Não sabemos qual valor específico ocorrerá
    • Mas conhecemos os possíveis valores e suas probabilidades
  • Notação matemática: Geralmente representada por letras maiúsculas \((X, Y, Z)\)

    • O resultado específico é representado pela letra minúscula \((x, y, z)\)
    • Por exemplo: \(X\) é a variável aleatória “preço da ação”
    • \(x =\) R$ 45,80 é um resultado específico dessa variável aleatória
  • Exemplo simples: Lançamento de um dado

    • \(X\) = número da face voltada para cima
    • Espaço amostral: \(\{1, 2, 3, 4, 5, 6\}\)
    • \(P(X = 4)\) = probabilidade de obter 4 = \(\frac{1}{6}\)

Tipos de Variáveis Aleatórias

Discretas vs. Contínuas

  • Variáveis Aleatórias Discretas:

    • Assumem valores discretos (geralmente contáveis)

    • Espaço amostral finito ou infinito contável

    • Exemplos em negócios:

      • Número de vendas por dia: \(S = \{0, 1, 2, 3,\ldots\}\)
      • Quantidade de produtos defeituosos em um lote
      • Número de clientes convertidos
  • Variáveis Aleatórias Contínuas:

    • Podem assumir qualquer valor dentro de um intervalo

    • Espaço amostral infinito não-contável

    • Exemplos em negócios:

      • Tempo de atendimento a um cliente: \(S = [0, \infty)\)
      • Peso de um produto manufaturado
      • Retorno percentual de um investimento: \(S = (-\infty, +\infty)\)
  • Importância da distinção: O tipo de variável aleatória determina como calculamos probabilidades e valores esperados

Variáveis Aleatórias em Administração

Exemplos

  • Marketing:
    • X = Número de conversões de uma campanha digital
    • Y = Tempo até a primeira compra de um novo cliente
  • Operações:
    • X = Tempo de atendimento de um cliente no call center
    • Y = Quantidade de produtos defeituosos em um lote de produção
  • Finanças:
    • X = Retorno diário de uma ação
    • Y = Fluxo de caixa mensal
  • Recursos Humanos:
    • Y = Tempo de permanência de um funcionário na empresa

“A aleatoriedade é inerente a praticamente todos os processos de negócios. Modelá-la adequadamente é o primeiro passo para decisões mais informadas.”

Variável Aleatória

Definição Formal

Seja \(S\) o espaço amostral de um processo aleatório, variável aleatária é qualquer função que associa um número a um resultado em \(S\), cujo domínio é o espaço amostral e a imagem são números.

  • Discretas: os valores possíveis são discretos. Ex: Número de empresas que fazem uso de técnicas de orçamento de capital.

  • Contínuas: infinitos (pelo menos teoricamente) e incontáveis valores possíveis. Ex: Medidas (Peso, massa, preço, retorno, taxa de juros etc.)

  • Variável Aleatória Discreta

A funçao de probabilidade de uma VA discreta X é a função \(f: \mathbb{R} \rightarrow [0,1]\) definda por:

\[ p(X = x) = p(x) \]

Condições:

\[ \begin{align*} p(x) &\geq 0, \\ \sum p(x) &= 1 \end{align*} \]

estas condições implicam que \(0 \leq p(x) \leq 1\)

  • Variável Aleatória Contínua

A função densidade de probabilidade de uma VA contínua X é a função \(f: \mathbb{R} \rightarrow \mathbb{R}\) definda por: \[ \begin{equation*} p(a \leq X \leq b) = \int_{a}^{b} f(x)dx \end{equation*} \]

Condições:

\[ \begin{align*} f(x) &\geq 0, \\ \int_{-\infty}^{+\infty} f(x) &= 1 \end{align*} \]

  • É uma função definida para todo \(y\) (resultado possível de uma variável aleatória)

  • atribui probabilidades para todo \(y\) (ou intervalo de \(y\)) possível.

Das Aplicações Gerais aos Mercados Financeiros

Por que os Mercados Financeiros Exemplificam a Aleatoriedade

  • Laboratório natural para processos aleatórios:
    • Os mercados financeiros geram enormes volumes de dados em tempo real
    • Comportamento dos preços exibe características aleatórias observáveis
  • Consequência de múltiplas decisões:
    • Preços refletem decisões de milhares de participantes independentes
    • Comportamento coletivo emerge de ações individuais
  • Suporte a teorias importantes:
    • Hipótese de Mercados Eficientes: preços incorporam toda informação disponível
    • Movimentos futuros são essencialmente aleatórios
  • Relevância prática:
    • Entender essa aleatoriedade é fundamental para gestão de investimentos
    • Impacto direto em decisões de alocação de capital e gerenciamento de risco
  • Ponte com conceitos estatísticos:
    • Distribuições de probabilidade
    • Processo estocástico
    • Séries temporais

Aleatoriedade nos Mercados Financeiros

Distinção entre Incerteza e Risco

  • Incerteza: Situação em que eventos futuros são desconhecidos e não quantificáveis

    • Não é possível atribuir probabilidades aos resultados possíveis
    • Exemplo: Impacto de uma nova tecnologia disruptiva no mercado
  • Risco: Situação em que eventos futuros são desconhecidos, mas quantificáveis através de probabilidades

    • É possível atribuir probabilidades aos resultados possíveis
    • Exemplo: Variação diária no preço de uma ação
  • Na prática financeira:

    • Decisões de investimento buscam transformar incertezas em riscos mensuráveis

    • Para isso, modelos probabílisticos sofisticados são usados para quantificar e gerenciar o risco

Variáveis Aleatórias em Finanças

Processos Aleatórios em Finanças

  • Retornos de ações:

    • Variação percentual no preço de uma ação
    • \(R_t = \frac{P_t - P_{t-1}}{P_{t-1}}\)
  • Variações de taxas de juros:

    • Mudança na taxa básica definida pelo Banco Central
    • Flutuações em taxas de mercado (CDI, SELIC)
  • Preços de opções:

    • Valor de um contrato derivativo
    • Depende de múltiplas variáveis aleatórias (preço do ativo, volatilidade)
  • Tempo até default:

    • Período até que um emissor de dívida deixe de pagar

Preços de Ações como Processos Aleatórios

Aleatoriedade nos Preços

  • Hipótese da Eficiência dos Mercados de Capitais:
    • Preços de ativos arriscados incorporam todas as informações disponíveis
    • Mudanças futuras nos preços são imprevisíveis (aleatórias)
  • Passeio Aleatório (Random Walk):
    • Modelo matemático que descreve o comportamento dos preços
    • O preço futuro é o preço atual mais uma variação aleatória
    • \(P_{t+1} = P_t + \epsilon_{t+1}\) (onde \(\epsilon_{t+1}\) é um termo aleatório)
  • Implicações práticas:
    • Impossibilidade de prever consistentemente movimentos de curto prazo
    • Necessidade de modelagem probabilística para análise de investimentos

Somatório e Produtório: Matemática e Implementação em R

Operadores Matemáticos e Suas Implementações

  • Operador Somatório (\(\sum\)):

    • Na matemática: \(\sum_{i=1}^{n} x_i = x_1 + x_2 + \ldots + x_n\)
    • Em palavras: Soma todos os elementos de uma sequência
    • Em R: sum(x) para soma total ou cumsum(x) para soma acumulada
    • Exemplo R: Para o vetor c(3, 7, 2):
      • sum(c(3, 7, 2)) retorna 12 (3+7+2)
      • cumsum(c(3, 7, 2)) retorna c(3, 10, 12) (3, 3+7, 3+7+2)
  • Operador Produtório (\(\prod\)):

    • Na matemática: \(\prod_{i=1}^{n} x_i = x_1 \times x_2 \times \ldots \times x_n\)
    • Em palavras: Multiplica todos os elementos de uma sequência
    • Em R: prod(x) para produto total ou cumprod(x) para produto acumulado
    • Exemplo R: Para o vetor c(2, 3, 4):
      • prod(c(2, 3, 4)) retorna 24 (2×3×4)
      • cumprod(c(2, 3, 4)) retorna c(2, 6, 24) (2, 2×3, 2×3×4)

O Conceito de Passeio Aleatório (Random Walk)

Fundamentos Matemáticos e Simulação

  • Definição básica: Um passeio aleatório (random walk) é um processo onde cada passo é determinado por uma variável aleatória independente dos passos anteriores.

  • Passeio aleatório multiplicativo para preços financeiros:

\[ P_n = P_0 \times \prod_{i=1}^{n} (1 + \epsilon_i) \]

  • \(P_n\) é o preço da ação após \(n\) períodos

  • \(P_0\) é o preço inicial da ação

  • \(\epsilon_i\) são as variáveis aleatórias que representam os retornos percentuais em cada período

  • \(\prod\) representa o produto acumulado (similar a como \(\sum\) representa soma acumulada)

  • Em palavras simples:

    • Começamos com um preço inicial (\(P_0\))
    • A cada dia, o preço muda por um percentual aleatório (\(\epsilon_i\))
    • Esses percentuais diários se acumulam ao longo do tempo (como juros compostos)
    • O resultado é um caminho de preço imprevisível, mas que sempre se mantém positivo
  • Por que multiplicativo?:

    • Garante que os preços nunca fiquem negativos (mais realista)

Ilustração: Preço de uma Ação como Passeio Aleatório

# Fixamos uma semente para tornar os resultados reproduzíveis
# (isso nos permitirá obter os mesmos valores "aleatórios" em cada execução)
set.seed(42)

# Número de períodos a simular 
dias <- 500  

# Geramos os epsilon (ε_i) - as variáveis aleatórias que representam retornos diários
# Na versão multiplicativa, cada epsilon representa uma variação percentual do preço
# Usamos valores menores que na versão aditiva, pois agora representam percentuais
epsilon <- rnorm(dias, mean = 0.0005, sd = 0.01)  # média de 0.05% e desvio-padrão de 1%

# Preço inicial (P_0 na fórmula matemática)
preco_inicial <- 100

# Calculamos o passeio aleatório multiplicativo: P_n = P_0 * ∏(1 + ε_i)
# Onde ∏ representa o produto acumulado (assim como ∑ representa soma acumulada)
# A função cumprod() calcula esse produto acumulado: (1+ε₁), (1+ε₁)*(1+ε₂), etc.
precos <- preco_inicial * cumprod(1 + epsilon)

# Organizamos os dados para visualização
dados_precos <- tibble(
  dia = 1:dias,
  preco = precos
)

# Visualizamos a trajetória do passeio aleatório multiplicativo
ggplot(dados_precos, aes(x = dia, y = preco)) +
  geom_line(color = "blue", size = 1) +
  labs(title = "Simulação de Preço de Ativo: Passeio Aleatório Multiplicativo",
       x = "Dias de Negociação", 
       y = "Preço (R$)") +
  theme_minimal()

Simulação: Preço de uma Ação como Passeio Aleatório

Exemplo: Preço da Ação da Petrobrás (PETR4.SA)

# Carrega o pacote yfR (Yahoo Finance in R) 
# facilita o download de dados financeiros do Yahoo Finance
library(yfR)

# Configura os parâmetros da consulta:
# Ticker: código da ação na bolsa (PETR4.SA = Petrobras ações preferenciais)
# Período: define intervalo de 1000 dias até hoje usando função Sys.Date()
meu_ticker <- c('PETR4.SA')
first_date <- Sys.Date() - 1000  # Data inicial (1000 dias atrás)
last_date <- Sys.Date()          # Data final (hoje)

# Obtém os dados históricos da ação utilizando a API do Yahoo Finance
# Retorna dataframe com preços, volumes e outras informações
df_petro <- yf_get(tickers = meu_ticker, 
                   first_date = first_date,
                   last_date = last_date)

# Cria gráfico de linha da série temporal de preços ajustados
ggplot(df_petro, aes(x = ref_date, y = price_adjusted)) + 
  geom_line(color = "blue", size = 1) +            
  labs(title = "Preços Diários da Ação da Petrobrás - PETR4.SA",
       subtitle = "Período: Últimos 1000 dias",
       caption = "Fonte: Yahoo Finance",
       x = NULL,                                   
       y = "Preço") +
  theme_minimal()                                  

Exemplo: Preço da Ação da Petrobrás

Você considera que o preço desta ação segue, aproximadamente, um passeio aleatório? Resp: Sim.

Por que Analisar Retornos e não Preços?

Vantagens Práticas e Teóricas

  • Comparabilidade entre ativos:

    • Uma ação de R$500 que sobe R$5 e outra de R$50 que sobe R$0,50
    • Ambas representam o mesmo retorno de 1%, tornando-as comparáveis
  • Propriedades estatísticas mais convenientes:

    • Retornos tendem a ser mais estacionários (comportamento estatístico estável ao longo do tempo)
    • Mais próximos de uma distribuição normal (importante para diversos modelos estatísticos)
  • Tipos de retornos:

    • Retorno simples: \(R_t = \frac{P_t - P_{t-1}}{P_{t-1}}\) (interpretação: percentual de ganho)

    • Retorno logarítmico: \(r_t = \ln\left(\frac{P_t}{P_{t-1}}\right)\) (vantagem matemática: aditividade)

  • Aplicação prática: Análise de carteiras de investimento e avaliação de desempenho.

Preços vs. Retornos com Dados Reais da Petrobrás

Exercício 1

Identificando Variáveis Aleatórias em Contextos Empresariais

Para cada uma das situações abaixo, identifique a variável aleatória descrita, classifique-a como discreta ou contínua:

  1. O número mensal de cancelamentos de assinaturas em uma plataforma de streaming

  2. O tempo de entrega (em horas) para pedidos online de uma loja de e-commerce

  3. A variação percentual diária no preço das ações de uma empresa

  4. O número de unidades vendidas de um novo produto no primeiro mês após seu lançamento

Exercício 2

Análise de Preços de Ações Brasileiras

Seguindo o exemplo apresentado na aula sobre o preço da ação da Petrobrás (PETR4.SA), realize uma análise semelhante para outra empresa brasileira de sua escolha. Utilize o pacote yfR conforme demonstrado para baixar os dados dos últimos 200 dias de negociação.

Instruções:

  1. Escolha uma empresa brasileira listada na B3 e descubra seu ticker (símbolo da ação)

  2. Utilize o código apresentado na aula como referência para baixar os dados históricos de preços usando o pacote yfR.

  3. Crie um gráfico da série de preços ajustados ao longo do tempo.

Distribuições de Probabilidade Teóricas

Distribuição de Probabilidade

Conceito

Uma distribuição de probabilidade fornece:

  1. os valores possíveis de uma variável aleatória;

  2. as probabilidades associadas a cada um desses valores.

  • As distribuições de probabilidade podem ser discretas ou contínuas:

  • Para uma VA Discreta, uma distribuiçõa de probabilidade pode ser representada por uma tabela, ou por uma função matemática.

  • Para uma VA contínua, uma distribuição de probabilidade pode ser representada pela área abaixo da curva de função contínua.

  • Cada tipo tem sua própria forma de distribuição de probabilidade.

Função de Probabilidade de uma VA Discreta

  • Tabela
\(X\) \(P(X) \geq 0\)
1 0.1
2 0.3
3 0.4
4 0.2
\(\sum_{i=1}^4 P(X = x_i)\) 1.0

Distribuição de Probabilidade: VA Discreta

  • Função Matemática

\[ P(X = x) = \begin{cases} 0.1 & \text{se } x = 1 \\ 0.3 & \text{se } x = 2 \\ 0.4 & \text{se } x = 3 \\ 0.2 & \text{se } x = 4 \\ 0 & \text{caso contrário} \end{cases} \]

Função Densidade de Probabilidade de uma VA Contínua

Distribuições de Probabilidade

Definição Formal

Uma distribuição de probabilidade é uma descrição matemática do comportamento aleatório de uma variável aleatória.

  • Para variáveis aleatórias discretas:

    A função de probabilidade (ou função massa de probabilidade) \(p(x)\) deve satisfazer:

    • \(p(x) \geq 0 \text{ para todo } x\)

    • \(\sum_{x \in S} p(x) = 1\)

  • Para variáveis aleatórias contínuas:

    A função densidade de probabilidade \(f(x)\) deve satisfazer:

    \[ P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx \]

    Com as propriedades:

    • \(f(x) \geq 0 \text{ para todo } x\) e

      \[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]

  • A função de distribuição acumulada é definida para ambos os tipos:

    \(F(x) = P(X \leq x)\)

    Para variáveis discretas: \(F(x) = \sum_{t \leq x} p(t)\)

    Para variáveis contínuas: \(F(x) = \int_{-\infty}^{x} f(t) \, dt\)

Função de Probabilidade vs. Função Densidade

Representação Matemática da Distribuição

  • Para variáveis aleatórias discretas: Usamos a função de probabilidade \(P(X = x)\)

    • Atribui probabilidades a cada valor possível
    • Exemplo: Lançamento de um dado justo: \(P(X = 1) = 1/6\)
  • Para variáveis aleatórias contínuas: Usamos a função densidade de probabilidade \(f(x)\)

    • A probabilidade é dada pela área sob a curva
    • A probabilidade em um ponto específico é sempre zero
    • Exemplo: Tempo de espera em uma fila, preço de ações
  • A chave para entender distribuições:

    • Para VAs discretas: \(P(X = a) = ?\)
    • Para VAs contínuas: \(P(a \leq X \leq b) = \int_{a}^{b} f(x) dx\)

Calculando Probabilidades a partir de Funções de Probabilidade

Função de Distribuição Acumulada

Definição

A função de distribuição acumulada \(F(\cdot)\) de uma VA \(X\) é a função \(F:\mathbb{R} \rightarrow [0,1]\) definida por:

\[ F(a) = P(X \leq a)\,\,\, \text{para} \,\, -\infty \leq a \leq \infty \]

Distribuições de Probabilidade na Administração

Aplicações Práticas por Área

  • Marketing e Vendas:
    • Distribuição do número de vendas diárias (Poisson)
    • Distribuição do valor de compras por cliente (Log-normal)
    • Tempo até a primeira compra após campanha (Exponencial)
  • Finanças e Investimentos:
    • Retornos de ativos financeiros (Normal/t-Student)
    • Preços de ações (Log-normal)
    • Tempo até o default de empréstimos (Weibull)
  • Operações e Logística:
    • Tempo de atendimento ao cliente (Exponencial)
    • Número de produtos defeituosos por lote (Binomial)
    • Demanda por produtos (Normal/Poisson)
  • Por que modelar estes fenômenos?
    • Prever comportamentos futuros
    • Quantificar riscos
    • Otimizar processos e recursos

Por que a Distribuição Normal é Fundamental?

A Importância da Distribuição Normal

  • Fundamentos Teóricos:

    • Teorema Central do Limite: Somas de variáveis aleatórias independentes tendem à normalidade
    • Simplifica cálculos estatísticos e modelagem
  • Em Mercados Financeiros:

    • Retornos logarítmicos de curto prazo são aproximadamente normais
    • Base para modelos como Black-Scholes (opções)
    • Distribuição de erros em modelos de previsão
  • Limitações Importantes:

    • Eventos extremos (quedas ou altas abruptas) são mais frequentes do que a distribuição normal prevê
    • “Caudas pesadas” (kurtosis) são observadas em dados financeiros reais
    • Distribuições alternativas (t-Student, misturas de gaussianas) capturam melhor eventos extremos
  • Por que ainda a usamos?

    • Simplicidade matemática
    • Boa aproximação para muitos fenômenos
    • Extensivamente estudada e compreendida

Distribuição Normal (ou Gaussiana)

Características da Distribuição Normal

Considere uma VA \(X\) com as seguintes características:

  • Distribuição Simétrica: \(X\) segue uma distribuição que é simétrica em torno da sua média.

  • Média e Desvio-Padrão: A distribuição normal é definida por dois parâmetros: a média (\(\mu\)) e o desvio-padrão (\(\sigma\)).

  • Curva em Forma de Sinos: A distribuição normal é conhecida por sua característica “curva em forma de sino”, onde a maior parte dos dados se concentra em torno da média.

  • Regra Empírica: Aproximadamente 68% dos dados estão dentro de um desvio-padrão da média, 95% dentro de dois desvios-padrão, e 99,7% dentro de três desvios-padrão.

Distribuição Normal - Regra Empírica em Finanças

Interpretação Prática da Regra 68-95-99,7%

  • Em Análise de Investimentos:

    • Se os retornos mensais de uma ação seguem uma distribuição normal e têm média 1% e desvio-padrão 2%:
      • ~68% dos meses: retornos entre -1% e 3% (\(\mu \pm 1\sigma\))
      • ~95% dos meses: retornos entre -3% e 5% (\(\mu \pm 2\sigma\))
      • ~99,7% dos meses: retornos entre -5% e 7% (\(\mu \pm 3\sigma\))
  • No Gerenciamento de Riscos:

    • Um evento além de 3 desvios-padrão tem apenas 0,3% de chance (1 em ~370 observações)
    • Alertas devem ser configurados para detectar movimentos além de 2-3 desvios-padrão
    • Base para cálculos de Valor em Risco (VaR) paramétrico

Distribuição Normal - Origem

Origem da Distribuição Normal

  • A distribuição normal é frequentemente associada ao matemático alemão Carl Friedrich Gauss (1777-1855), que fez contribuições significativas ao estudo da distribuição dos erros de medição em astronomia. Por essa razão, a distribuição normal também é conhecida como “distribuição gaussiana”.

  • Gauss utilizou essa distribuição para descrever os erros de medições astronômicas, baseando-se no princípio de que a maioria dos erros seria pequena, enquanto erros grandes seriam raros.

  • O termo “normal” foi popularizado posteriormente pelo estatístico britânico Francis Galton (1822-1911). Galton utilizou o termo “normal” para descrever a distribuição de características humanas, como altura e peso, que frequentemente seguem uma forma simétrica em torno de uma média. Ele usou o termo “normal” no sentido de “norma” ou “padrão”, sugerindo que essa distribuição era comum ou típica em muitos fenômenos naturais.

  • Embora Gauss tenha trabalhado com a distribuição no contexto de erros de medição, foi o trabalho de Galton e outros que consolidou a ideia de que essa distribuição é “normal” ou típica em muitos contextos, incluindo características biológicas e fenômenos sociais, e assim o termo “distribuição normal” tornou-se amplamente aceito.

Distribuição Normal

Importância em Estatística

  • Modelagem Direta: Embora muitos processos aleatórios em Administração envolvam variáveis discretas ou condições que não atendem perfeitamente aos requisitos da normalidade (como a simetria da distribuição), a distribuição normal ainda pode servir como uma aproximação útil em diversos contextos.

  • Teorema Central do Limite (TCL): A importância principal da distribuição normal é teórica. O TCL afirma que a soma ou média de um grande número de variáveis aleatórias independentes tende a seguir uma distribuição normal, independentemente da distribuição original, o que fundamenta sua ampla aplicação.

  • Aplicação Prática: O TCL permite a construção e uso de métodos estatísticos baseados na normalidade, mesmo quando os dados originais não seguem uma distribuição normal.

Teorema Central do Limite (TCL)

O que é o Teorema Central do Limite?

Para um grande número de \(n\) observações independentes de uma distribuição da população que tenha média \(\mu\) e desvio-padrão finito \(\sigma\), a média amostral tem uma função de probabilbidade que converge para o função de probabilidade de uma distribuição normal padrão à medida que \(n \rightarrow \infty\).

\[ \bar{Y}\overset{d}{\longrightarrow} N(\mu, \frac{\sigma}{n}) \]

Teorema Central do Limite (TCL)

Independente da forma da distribuição da populaçào, na medida que \(n\) aumenta, a Distribuição Amostral de \(\bar{Y}\) converge para uma distribuição normal

Função de Densidade de Probabilidade

A Função de Densidade de Probabilidade (PDF)

  • Uma VA \(X\) que segue uma distribuição normal tem sua função de densidade de probabilidade dada por:

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

Explicação:

  • A função é simétrica em torno da média \(\mu\).

  • O valor máximo da função ocorre em \(x = \mu\).

  • A área sob a curva da função é igual a 1, representando a totalidade das probabilidades.

Momentos:

Valor Esperado (Média): \(E[X] = \mu\)

Variância: \(V[X] = \sigma^2\)

Distribuição Normal Padronizada

A Função de Densidade de Probabilidade (PDF)

Distribuição normal padronizada: \(Z_i = \frac{y_i - \mu}{\sigma} \sim N(\mu = 0, \sigma = 1)\)

\[ \phi(z) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}z^2} \]

Momentos:

\[ E(Y) = 0 \]

\[ V(X) = \sigma^2 = 1 \] \[ \sigma = 1 \]

Distribuição Normal

Efeito de Alterar \(E(X) = \mu\) (média)

Distribuição Normal

Efeito de alterar \(\sigma^2\) (variância)

Atualizando os Repositórios

Instruções

  1. No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:
git status
  1. Você pode adicionar todos os arquivos de uma vez com:
git add .
  1. Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):
git status
  1. Se tudo estiver em verde, faça um commit com uma mensagem descritiva:
git commit -m "atualizacoes aula 15"
  1. Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:
git add relatorios/04-relatorio/04-relatorio.qmd
  1. Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:
git commit -m "atualizacoes aula 15"
  1. Envie o repositório local atualizado para o GitHub:
git push origin main