Introdução à Ciência de Dados

Fundamentos de Probabilidade para Decisões

Prof. Washington Santos da Silva

IFMG - Campus Formiga

28 de maio de 2025

Diário de Bordo

O que vimos até hoje?

  • Aula 1 ✅

    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Papéis Profissionais na Área de Dados ✅
    • Áreas de Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅
  • Aula 2 ✅

    • Metodologia CRISP-DM ✅

    • Tipos de Análise ✅

      • Descritiva ✅
      • Diagnóstica ✅
      • Preditiva ✅
      • Prescritiva ✅
    • Configurações: Git/GitHub ✅

  • Aula 3 ✅

    • Introdução ao RStudio ✅

      • Criação do seu Projeto RStudio da Disciplina ✅
  • Aula 4 ✅

    • Introdução ao Git e GitHub ✅

      • Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
  • Aula 5 ✅

    • Breve Revisão do IDE RStudio ✅

    • Introdução ao Sistema de Publicação Quarto ✅

    • Sessão Prática Guiada com Relatório 1 ✅

      • Execução dos comandos git essenciais ✅
  • Aula 6 ✅

    • Parte I ✅

      • O Relatório Junglivet e a Metodologia CRISP-DM ✅
      • Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
    • Parte II ✅

      • Para alunos com projetos estruturados ✅
      • Atividade prática ✅
      • Para alunos com dificuldades técnicas ✅
      • Atendimento individualizado para estruturação de projetos ✅
  • Aula 7 ✅

    • Introdução ao sistema Quarto (continuação) ✅

      • Gerar relatório no formato pdf ✅
      • Gerar relatório no formato docx ✅
    • Introdução à Linguagem R (continuação) ✅

      • Conceitos: Variáveis e observações ✅
      • Estrutura tabular organizada de dados ✅
      • Tipos e classes de dados principais em R ✅
      • Estruturas de dados: vetores e data frames ✅
  • Aula 8 ✅

    • Início do estudo do pacote dplyr para manipulação de dados ✅

      • CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
        de um projeto de análise ou ciência de dados ✅
      • O que é o dplyr? ✅
      • A Filosofia Tidy Data (Dados Organizados) ✅
      • Dados Organizados (Tidy Data) ✅
      • Por que usar o dplyr? ✅
      • Fluxo de trabalho com dplyr ✅
      • Boas Práticas com dplyr ✅
      • Função dplyr::select() ✅
      • Função dplyr::filter() ✅
  • Aula 9 ✅

    • Solução dos exercícios práticos sobre as funções select e filter ✅
    • Função dplyr::mutate() ✅
  • Aula 10 ✅

    • Soluções dos exercícios práticos sobre a função mutate ✅
    • funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
  • Aula 11 ✅

    • Metodologia CRISP-DM e Pacote dplyr ✅
    • Revisão sobre Dados Organizados (Tidy Data) ✅
    • Exemplos de Dados Desorganizados Comuns em Administração ✅
    • Pacote tidyr: Função pivot_longer ✅
  • Aula 12 ✅

    • Metodologia CRISP-DM e o tidyverse ✅
    • Dados Organizados: Potencializando Análises ✅
  • Aula 13 ✅

    • Avaliação 1 ✅
  • Aula 14 ✅

    • Tipos Básicos de joins do pacote dplyr ✅
  • Aula 15 ✅

    • Variáveis Aleatórias em Finanças
    • Distribuições de Probabilidade
    • Início: Distribuição Normal (ou Gaussiana)
  • Aula 16 ✅

    • Distribuição Normal (ou Gaussiana) - Parte 2
    • Características da Distribuição de uma VA
      • Valor Esperado (Média)

Nesta Aula

Tópicos

  • Características da Distribuição de uma VA

    • Variância e Desvio-Padrão
    • Variância: Propriedades Básicas
    • Aplicação: Valor-em-Risco (VaR)
    • Assimetria e Curtose
    • Covariância e Correlação
    • Fundamentos de Simulação de Monte Carlo

Arquivo para esta Aula (17)

Instruções

  • Abra o RStudio e o seu Projeto da Disciplina

  • Crie a subpasta 10-relatorio dentro da pasta relatorios.

  • Acesse o site da disciplina e baixe o arquivo 10-relatorio.zip

  • Descompacte o arquivo, copie/recorte o arquivo 10-relatorio.qmd e cole dentro da subpasta 10-relatorio.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Atenção na digitação
  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Características da Distribuição de Probabilidade de Variáveis Aleatórias

Características Sumarizam Informação

O Desafio: Sintetizar Informação

Uma distribuição de probabilidade contém infinitos pontos de informação. Na prática, é impossível analisar cada valor possível de uma VA e suas respectivas probabilidades.

Por isso, precisamos de medidas-resumo que capturem as características essenciais da distribuição em poucos números interpretáveis.

1. Posição: Onde os Dados se Concentram?

  • Valor Esperado: Resume em um único número o “centro” da distribuição

  • Transforma infinitas possibilidades em uma métrica gerenciável

2. Variabilidade: Quantificando a Incerteza

  • Variância e Desvio-Padrão: Condensam toda a dispersão dos dados em uma medida

  • Permitem comparar riscos entre diferentes investimentos ou processos

  • Essenciais porque dois processos podem ter mesma média mas riscos totalmente diferentes

3. Forma da Distribuição: Capturando Padrões Não-Simétricos

  • Assimetria e Curtose: Resumem desvios do padrão normal
  • Identificam se eventos extremos são mais prováveis que o esperado
  • Críticos porque muitos fenômenos empresariais não seguem o padrão “normal”

4. Interdependências: Síntese de Relações Complexas

  • Covariância e Correlação: Reduzem relações multidimensionais a números interpretáveis

  • Permitem decisões de diversificação sem analisar cada cenário possível

Variância

Definição

A variância \(V(X)\) de uma variável aleatória \(X\) mede a dispersão dos valores de \(X\) em torno do seu valor esperado.

Para uma VA Discreta:

\[ V(X) = \sigma_{X}^2 = \sum_{i} (x_i - E(X))^2 P(X = x_i) \]

Para uma VA Contínua:

\[ V(X) = \sigma_{X}^2 = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) \, dx \]

Variância = Variação/Risco

Desvio-Padrão

Definição

O desvio-padrão (\(\sigma\)) de uma VA é a raiz quadrada da variância e fornece uma medida da dispersão dos valores de \(X\) em torno do seu valor esperado na mesma unidade de \(X\).

\[ \sigma = \sqrt{V(X)} \]

Por exemplo, se a unidade de \(X\) for R$ (reais), o desvio-padrão também será em reais, enquanto a variância será em reais ao quadrado (R$\(^2\)).

Desvio-Padrão = Variação/Risco

Variância e Desvio-Padrão: Exemplo Prático

Análise de Risco de um Pequeno Investimento

Uma empresa está considerando lançar um novo produto. Baseado em pesquisas de mercado, os possíveis lucros mensais são:

Cenário Lucro Mensal (R$) Probabilidade
Pessimista 2.000 0.3
Esperado 5.000 0.4
Otimista 8.000 0.3

Passo 1: Calcular o Valor (Lucro) Esperado

\[ E[L] = 2.000 \times 0.3 + 5.000 \times 0.4 + 8.000 \times 0.3 = 5.200\ \]

Passo 2: Calcular a Variância

\[\begin{aligned} V[L] &= \sigma^2 = (2.000 - 5.200)^2 \times 0.3 + (5.000 - 5.200)^2 \times 0.4 + (8.000 - 5.200)^2 \times 0.3 \\ &= (-3.200)^2 \times 0.3 + (-200)^2 \times 0.4 + (2.800)^2 \times 0.3 \\ &= 10.240.000 \times 0.3 + 40.000 \times 0.4 + 7.840.000 \times 0.3 \\ V[L] &= \sigma^2 = 5.440.000\,\, R\$^2 \end{aligned}\]

Passo 3: Calcular o Desvio-Padrão

\[ \sigma_L = \sqrt{\sigma^2} =\sqrt{5.440.000} \approx 2.333\,\,R\$ \]

Interpretação: O lucro esperado é R$ 5.200 com desvio-padrão de R$ 2.333, indicando uma variabilidade moderada em torno da expectativa.

Implementação em R

# Definir os dados
lucros <- c(2000, 5000, 8000)
probabilidades <- c(0.3, 0.4, 0.3)

# Calcular valor esperado
valor_esperado <- sum(lucros * probabilidades)
valor_esperado
[1] 5000
# Calcular variância manualmente
variancia <- sum((lucros - valor_esperado)^2 * probabilidades)
variancia
[1] 5400000
# Calcular desvio-padrão
desvio_padrao <- sqrt(variancia)
desvio_padrao
[1] 2323.79
# Verificação usando simulação
set.seed(123)
simulacao <- sample(lucros, 10000, prob = probabilidades, replace = TRUE)
mean(simulacao)  # Valor esperado empírico
[1] 5036.6
var(simulacao)   # Variância empírica
[1] 5422602.7
sd(simulacao)    # Desvio-padrão empírico
[1] 2328.6483

Variância: Propriedades Básicas

Propriedades

  • Variância de uma Constante

Se \(c\) é uma constante, então a variância de \(c\) é zero:

\(\boxed{V(c) = 0}\)

  • Adição de uma Constante

Se \(X\) é uma variável aleatória e \(c\) é uma constante, a variância de \(X + c\) é igual à variância de \(X\):

\(\boxed{V(X + c) = V(X)}\)

  • Variância de uma Constante Multiplicada por uma Variável Aleatória

Para qualquer variável aleatória \(X\) e uma constante \(a\), a variância de \(aX\) é dada por:

\(\boxed{V(aX) = a^2 V(X)}\)

  • Variância da Soma de Variáveis Aleatórias

Para variáveis aleatórias \(X\) e \(Y\) não necessariamente independentes, a variância da soma é:

\(\boxed{V(X + Y) = V(X) + V(Y) + 2\text{Cov}(X, Y)}\)

onde \(Cov(X, Y)\) é a covariância entre \(X\) e \(Y\).

  • Variância da Soma de Variáveis Aleatórias Independentes

Para variáveis aleatórias \(X\) e \(Y\) independentes:

\(\boxed{V(X + Y) = V(X) + V(Y)}\)

  • Variância da Diferença de Variáveis Aleatórias Independentes

Para variáveis aleatórias \(X\) e \(Y\) independentes:

\(\boxed{V(X - Y) = V(X) + V(Y)}\)

Propriedades da Variância

# Exemplo das propriedades
set.seed(123)
investimento <- rnorm(1000, mean = 0.05, sd = 0.12)  # Retorno 5%, vol 12%

# Propriedade 1: V(X + constante) = V(X)
# Adicionar uma constante não altera o risco
taxa <- 0.02
var(investimento)
[1] 0.014161809
var(investimento + taxa)  # Variância igual
[1] 0.014161809
# Propriedade 2: V(a*X) = a²*V(X)  
# Dobrar o investimento quadruplica o risco
dobro_investimento <- 2 * investimento
var(investimento)
[1] 0.014161809
var(dobro_investimento)  # 4 vezes maior
[1] 0.056647234
2^2 * var(investimento)  # Confirmação teórica
[1] 0.056647234

Coeficiente de Variação

Definição

O coeficiente de variação (CV) é uma medida de variabilidade relativa que expressa o desvio-padrão como uma porcentagem da média, permitindo comparações diretas entre variáveis com diferentes escalas ou unidades.

\[ CV = \frac{\sigma}{|\mu|} \times 100\% \]

onde:

  • \(\sigma\) = desvio-padrão da variável aleatória
  • \(\mu\) = valor esperado (média) da variável aleatória

Características principais:

  • Adimensional: Expresso em porcentagem, independe da unidade de medida
  • Comparável: Permite comparar variabilidade entre variáveis diferentes
  • Interpretação: Quanto maior o CV, maior a variabilidade relativa

Interpretação prática:

  • A interpretação da magnitude do CV depende da processo aleatório em estudo, mas geralmente um CV mais alto indica maior variabilidade relativa.

Aplicação em finanças: Útil para comparar riscos relativos de investimentos com diferentes retornos esperados, permitindo identificar qual ativo oferece melhor relação risco-retorno.

Coeficiente de Variação: Exemplo Comparativo

Comparando Risco Relativo de Investimentos

Cenário: Um gestor precisa comparar três opções de investimento com características muito diferentes:

Investimento Retorno Esperado Desvio-Padrão Unidade
Ação Tech 15% 6% % a.a.
Fundo Imobiliário R$ 1.200 R$ 180 R$/mês
Criptomoeda US$ 50 US$ 25 US$/semana

Problema: Como comparar o risco relativo entre investimentos com escalas e unidades diferentes?

Solução usando Coeficiente de Variação:

  • Ação Tech: \(CV = \frac{6\%}{15\%} \times 100\% = 40\%\)
  • Fundo Imobiliário: \(CV = \frac{180}{1.200} \times 100\% = 15\%\)
  • Criptomoeda: \(CV = \frac{25}{50} \times 100\% = 50\%\)

Interpretação:

  • Fundo Imobiliário: menor risco relativo (15% - baixa variabilidade)
  • Ação Tech: risco relativo moderado (40% - alta variabilidade)
  • Criptomoeda: maior risco relativo (50% - alta variabilidade)

Conclusão: O coeficiente de variação revela que, proporcionalmente aos seus retornos, o Fundo Imobiliário apresenta o menor risco relativo, seguido pela Ação Tech e, por último, a Criptomoeda.

Cálculo do CV para cada investimento

# Ação Tech
retorno_acao <- 15
desvio_acao <- 6
cv_acao <- (desvio_acao / retorno_acao) * 100
cv_acao
[1] 40
# Fundo Imobiliário  
retorno_fundo <- 1200
desvio_fundo <- 180
cv_fundo <- (desvio_fundo / retorno_fundo) * 100
cv_fundo
[1] 15
# Criptomoeda
retorno_crypto <- 50
desvio_crypto <- 25
cv_crypto <- (desvio_crypto / retorno_crypto) * 100
cv_crypto
[1] 50

Aplicação: Valor-em-Risco (VaR)

O que é o Valor-em-Risco?

O Valor-em-Risco (VaR) é uma medida estatística que quantifica o risco de perdas em um investimento ou portfólio durante um período específico, com um determinado nível de confiança.

Definição formal: O VaR de α% é o valor tal que existe apenas α% de probabilidade de a perda exceder esse valor.

Elementos do VaR:

  • Horizonte temporal: Período de análise (1 dia, 1 semana, 1 mês)
  • Nível de confiança: Tipicamente 95% ou 99%
  • Unidade monetária: Valor máximo de perda esperada

Interpretação do VaR de 95%:

“Existe apenas 5% de chance de a perda exceder o valor do VaR”

Aplicações práticas:

  • Gestão de risco em bancos e fundos
  • Determinação de limites de exposição
  • Cálculo de capital regulatório
  • Comunicação de risco para investidores

VaR usando a Distribuição Normal

Fórmula do VaR Paramétrico (Normal)

Assumindo que os retornos seguem distribuição normal:

\[ \text{VaR}_\alpha = \mu + z_\alpha \times \sigma \]

onde:

  • \(\mu\) = retorno esperado do investimento

  • \(\sigma\) = volatilidade (desvio-padrão) dos retornos

  • \(z_\alpha\) = quantil da distribuição normal padrão para o nível de confiança α

Para os níveis de confiança mais comuns:

  • VaR 95%: \(z_{0.05} = -1.645\) - “Existe apenas 5% de chance de a perda exceder o valor do VaR”

  • VaR 99%: \(z_{0.01} = -2.326\) - “Existe apenas 1% de chance de a perda exceder o valor do VaR”

Importante: O sinal negativo indica que estamos interessados na cauda esquerda da distribuição (perdas).

VaR usando a Distribuição Normal

Fórmula do VaR Paramétrico

Assumindo que os retornos \(R\) seguem uma distribuição normal:

\[ \boxed{ \text{VaR}_\alpha = \mu + z_\alpha \cdot \sigma } \]

Sendo:

  • \(\mu =\) retorno esperado (média dos retornos)
  • \(\sigma =\) volatilidade (desvio padrão dos retornos)
  • \(z_\alpha =\) quantil da normal padrão para \(\alpha\) (tabelado)

Explicação Intuitiva

  1. Distribuição dos retornos:

\[ R \sim \mathcal{N}(\mu, \sigma^2) \]

  1. Padronização para \(Z \sim \mathcal{N}(0, 1)\):

\[ P(R \leq \text{VaR}_\alpha) = \alpha \quad \Rightarrow \quad P\left(\underbrace{\frac{R - \mu}{\sigma}}_{Z} \leq \frac{\text{VaR}_\alpha - \mu}{\sigma}\right) = \alpha \]

  1. Isolando o VaR:

\[ \frac{\text{VaR}_\alpha - \mu}{\sigma} = z_\alpha \quad \Rightarrow \quad \text{VaR}_\alpha = \mu + z_\alpha \cdot \sigma \]

Valores Críticos Comuns

Nível de Confiança \(\alpha\) \(z_\alpha\)
95% 5% \(-1.645\)
99% 1% \(-2.326\)

Observação:

O sinal negativo de \(z_\alpha\) reflete a cauda esquerda da distribuição (perdas).

Exemplo Prático: Cálculo de VaR

Cenário: Investimento em Ações

Dados históricos de um fundo de ações:

  • Retorno médio mensal: 1.2%
  • Volatilidade mensal: 4.5%
  • Valor investido: R$ 100.000

Pergunta: Qual o VaR mensal de 95%?

Solução:

\[\text{VaR}_{95\%} = 1.2\% + (-1.645) \times 4.5\%\]

\[\text{VaR}_{95\%} = 1.2\% - 7.4\% = -6.2\%\]

Em valores monetários:

\[\text{VaR}_{95\%} = R\$ 100.000 \times (-6.2\%) = -R\$ 6.200\]

Interpretação: Existe apenas 5% de chance de a perda mensal exceder R$ 6.200.

Implementação do VaR em R

# Parâmetros do investimento
retorno_medio <- 0.012      # 1.2% ao mês
volatilidade <- 0.045       # 4.5% ao mês
valor_investido <- 100000   # R$ 100.000

# Cálculo do VaR 95%
nivel_confianca <- 0.95
quantil_95 <- qnorm(1 - nivel_confianca)  # -1.645
quantil_95
[1] -1.6448536
# Cálculo do VaR 95% percentual
var_percentual_95 <- retorno_medio + quantil_95 * volatilidade
var_percentual_95
[1] -0.062018413
# Cálculo do VaR 95% monetário
var_monetario_95 <- valor_investido * var_percentual_95
var_monetario_95
[1] -6201.8413
# Cálculo do VaR 99%
quantil_99 <- qnorm(1 - 0.99)  # -2.326

# Cálculo do VaR 99% percentual
var_percentual_99 <- retorno_medio + quantil_99 * volatilidade
var_percentual_99
[1] -0.092685654
# Cálculo do VaR 99% monetário
var_monetario_99 <- valor_investido * var_percentual_99
var_monetario_99
[1] -9268.5654

Visualização do VaR

Coeficientes de Assimetria e Curtose

Definições

Coeficiente de Assimetria (Skewness):

\[ \text{Assimetria}(X) = E\left[\left(\frac{X - \mu}{\sigma}\right)^3\right] \]

Coeficiente de Curtose (Kurtosis):

\[ \text{Curtose}(X) = E\left[\left(\frac{X - \mu}{\sigma}\right)^4\right] \]

Interpretação:

  • Assimetria = 0: distribuição simétrica
  • Assimetria à direita (positiva) > 0: cauda mais longa à direita
  • Assimetria à esquerda (negativa) < 0: cauda mais longa à esquerda
  • Curtose = 3: curtose normal (mesocúrtica)
  • Curtose > 3: distribuição mais pontiaguda (leptocúrtica)
  • Curtose < 3: distribuição mais achatada (platicúrtica)

Coeficientes de Assimetria e Curtose

Exercício 1

Exercício

Cenário: Um gestor de investimentos está comparando dois fundos com diferentes perfis de risco.

Dados Calculados:

  • Fundo Conservador: Retorno esperado = 8.6%, Desvio-padrão = 1.9%
  • Fundo Arrojado: Retorno esperado = 10.2%, Desvio-padrão = 6.9%

Perguntas:

  1. Calcule o coeficiente de variação para cada fundo.
  2. Compare o risco relativo dos dois fundos.
  3. Qual fundo você recomendaria para um investidor conservador? Justifique.

Solução do Exercício 1

# Cálculo dos Coeficientes de Variação (CV)

cv_fundo_conservador <- (1.9 / 8.6) * 100
cv_fundo_conservador
[1] 22.093023
cv_fundo_arrojado <- (6.9 / 10.2) * 100
cv_fundo_arrojado 
[1] 67.647059

Interpretação

  • Apesar do fundo arrojado ter um retorno esperado maior, seu coeficiente de variação (CV) é significativamente maior, indicando que o risco relativo é muito mais alto, cerca de 3 vezes (\(67/22 \approx 3\)) maior que o risco do fundo conservador.

Exercício 2

Exercício

Cenário: Uma loja está comparando a previsibilidade da demanda de dois produtos.

Dados:

  • Produto A: Demanda Esperada = E(D) = \(\mu\) = 100 unidades, \(\sigma\) = 15 unidades
  • Produto B: Demanda Esperada = E(D) = \(\mu\) = 50 unidades, \(\sigma\) = 12 unidades

Perguntas:

  1. Calcule o coeficiente de variação para cada produto.
  2. Qual produto tem maior risco relativo de demanda?
  3. Qual seria mais desafiador para gerenciar estoque?

Solução do Exercício 2

# Cálculo dos Coeficientes de Variação (CV)

cv_a <- (15 / 100) * 100
cv_a 
[1] 15
cv_b <- (12 / 50) * 100
cv_b 
[1] 24

Interpretação

  • Como o coeficiente de variação da demanda do produto b é maior que o do produto a, isso indica que o produto b tem uma maior variabilidade (risco) relativa do que a do produto a, assim, é mais desafiador gerenciar o estoque do produto b.

Exercício 3

Cálculo do VaR

Você está analisando um portfólio de títulos governamentais com:

  • Retorno médio mensal: 0.8%
  • Volatilidade mensal: 3.2%
  • Valor investido: US$ 250.000

Considerando que os retornos do protfólio seguem aproximadamente uma distribuição normal:

  • Calcule o VaR mensal de 95% (percentual e monetário)
  • Calcule o VaR mensal de 99% (percentual e monetário)
  • Compare os resultados e interprete a diferença

Dica: Use qnorm() no R para obter os quantis da distribuição normal

Solução do Exercício 3

# Parâmetros do investimento
retorno_medio <- 0.008     # 0.8%
volatilidade <- 0.032      # 3.2%
valor <- 250000            # US$ 250k

# 1. VaR 95% percentual e monetário
var_95_percentual <- retorno_medio + qnorm(0.05) * volatilidade
var_95_percentual
[1] -0.044635316
var_95_monetário <- valor * var_95_percentual
var_95_monetário
[1] -11158.829
# 2. VaR 99% percentual e monetário
var_99_percentual <- retorno_medio + qnorm(0.01) * volatilidade
var_99_percentual
[1] -0.066443132
var_99_monetário <- valor * var_99_percentual
var_99_monetário
[1] -16610.783

Solucão do Exercício 3

Interpretação

VaR Mensal a 95%:

  • Percentual: -4.46%
    Significa que há 5% de probabilidade de o portfólio perder mais que 4.46% em um mês.

  • Monetário: US$ 11.158,83
    Representa a perda máxima esperada com 95% de confiança para o investimento de US$ 250.000.

VaR Mensal a 99%:

  • Percentual: -6.64%
    Indica que há apenas 1% de chance de perdas superiores a 6.64% no mês.

  • Monetário: US$ 16.610,78
    Mostra a perda máxima esperada com 99% de confiança.

Comparação:

  • O VaR a 99% é maior (em valor absoluto) que o VaR a 95%, como esperado
    → Quanto maior o nível de confiança, maior a perda potencial extrema

  • A diferença reflete o trade-off entre:

    • Confiança estatística (99% vs 95%)
    • Magnitude da perda potencial (maior no 99%)
  • O VaR negativo indica perda potencial (retorno abaixo da média)

Observação: Esses cálculos assumem distribuição normal dos retornos, o que pode subestimar riscos em eventos extremos.

Covariância e Dependência entre Variáveis Aleatórias

Covariância

Definição

A covariância \(\text{Cov}(X, Y)\) mede o grau da relação linear entre duas variáveis aleatórias numéricas \(X\) e \(Y\).

\[ \begin{align} \text{Cov}(X, Y) &= E[(X - E(X))(Y - E(Y))] \\\ &= E[(X - \mu_X))(Y - \mu_Y)] \\ &= E(XY) - \mu_X\mu_Y \end{align} \]

Para variáveis aleatórias discretas:

\[ \text{Cov}(X, Y) = \sum_{x} \sum_{y}xyP(x,y) - \mu_X\mu_Y \]

Para variáveis aleatórias contínuas:

\[ \text{Cov}(X, Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x - \mu_X)(y - \mu_Y)) f(x, y) \, dx \, dy \]

Covariância: Limitações

Limitações

  • Embora a covariância forneça uma indicação da direção da relação entre variáveis aleatórias, a covariância não tem um limite superior ou inferior, e seu tamanho é muito influenciado pela escala (unidade de medida) dos números.

  • Assim, é difícil usar a covariância para fornecer uma medida da força de uma relação linear porque ela é ilimitada.

  • Uma medida relacionada, o coeficiente de correlação, fornece uma medida da força da relação linear entre duas variáveis aleatórias, com a medida sendo limitada ao intervalo de -1 a +1.

Correlação

Definição

A correlação \(\rho_{XY}\) é uma medida numérica padronizada (ou normalizada) do grau da relação linear entre duas variáveis aleatórias, indicando tanto a força quanto a direção dessa relação.

\[ \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]

sendo:

  • \(\text{Cov}(X, Y)\) a covariância entre \(X\) e \(Y\).
  • \(\sigma_X\) o desvio-padrão de \(X\).
  • \(\sigma_Y\) o desvio-padrão de \(Y\).

Intervalo

\(-1 \leq \rho_{XY} \leq 1\)

  • \(\rho_{XY} = +1\): Correlação positiva perfeita
  • \(\rho_{XY} = -1\): Correlação negativa perfeita
  • \(\rho_{XY} = 0\): Nenhuma correlação linear

Correlação - Gráficos de Dispersão

Correlação Linear entre Variáveis Aleatórias Numéricas

Correlação - Gráficos de Dispersão

Coeficiente de Correlação Linear entre Variáveis Aleatórias Numéricas

Covariância: Exemplo

Covariação entre Vendas de Sorvete e Temperatura

Dados hipotéticos de uma sorveteria durante 5 dias:

Dia Temperatura (°C) Vendas (R$)
1 25 300
2 30 450
3 20 200
4 35 500
5 28 400

Médias:

  • Temperatura média: 27.6°C
  • Vendas médias: R$ 370

Interpretação da Covariância:

  • Se positiva: quando temperatura aumenta, vendas tendem a aumentar
  • Se negativa: quando temperatura aumenta, vendas tendem a diminuir
  • Se zero: não há relacionamento linear entre as variáveis

Exemplo: Gráfico de Dispersão

# Dados do exemplo
temperatura <- c(25, 30, 20, 35, 28)
vendas <- c(300, 450, 200, 500, 400)

# Criar data frame
dados <- data.frame(temperatura, vendas)

# Gráfico de dispersão 
ggplot(dados, aes(x = temperatura, y = vendas)) +
  geom_point(size = 3) +
  labs(title = "Relação: Temperatura vs Vendas",
       x = "Temperatura (°C)",
       y = "Vendas (R$)") + 
  theme_minimal()

Exemplo: Gráfico de Dispersão

Exemplo: Gráfico de Dispersão

Interpretação do Gráfico

  • O gráfico de dispersão mostra uma relação positiva forte entre temperatura e vendas.

  • indicando que, à medida que a temperatura aumenta, as vendas também tendem a aumentar, e vice-versa.

Implementação em R

# Função cov para calcular a covariância
covariancia <- cov(temperatura, vendas)
covariancia
[1] 660
# Função cor para calcular a correlação
correlacao <- cor(temperatura, vendas)
correlacao
[1] 0.97968795

Correlação Muito Forte

  • Como indicado pelo gráfico de dispersão, há uma correlação positiva muito forte entre temperatura e vendas de sorvete, (0.97 ou 97%).

  • Se a temperatura aumenta, as vendas tendem a aumentar também, e vice-versa.

Interpretação da Correlação

Guia para Interpretação de Correlações (Cohen, 1988, 1992)

Diretrizes Clássicas de Cohen (valores absolutos):

  • |r| \(\approx\) 0.10: Correlação fraca
  • |r| \(\approx\) 0.30: Correlação moderada
  • |r| \(\approx\) 0.50: Correlação forte

Observações Importantes:

  • Essas diretrizes são pontos de referência gerais, não limites rígidos

  • O contexto da análise sempre deve ser considerado na interpretação

  • Correlação não implica causalidade!

Exercício 1

Covariação entre os retornos de duas ações

Cenário: Um investidor está analisando a correlação entre os retornos de duas ações para construir um portfólio diversificado. Os retornos mensais históricos (em %) das duas ações nos últimos 6 meses foram:

Mês Ação A Ação B
1 2.5 1.8
2 -1.2 3.1
3 4.1 -0.5
4 1.8 2.4
5 -0.8 1.2
6 3.6 -1.0

Perguntas:

  1. Faça um gráfico de dispersão dos retornos das duas ações. Analisando o gráfico, você considera que há alguma correlação entre os retornos das duas ações? Se sim, qual?

  2. Calcule a covariância e o coeficiente de correlação entre as duas ações.

  3. Com base na correlação, essas ações são uma boa opção para diversificação? Explique.

Solução do Exercício 1

# Dados das ações
acao_a <- c(2.5, -1.2, 4.1, 1.8, -0.8, 3.6)
acao_b <- c(1.8, 3.1, -0.5, 2.4, 1.2, -1.0)

# Criar data frame
dados <- data.frame(acao_a, acao_b)

# Gráfico de dispersão
ggplot(dados, aes(x = acao_a, y = acao_b)) +
  geom_point(size = 2.5) +
  labs(title = "Relação entre Ação A e Ação B",
       x = "Retorno Ação A (%)",
       y = "Retorno Ação B (%)") + 
  theme_minimal()

Solução do Exercício 1

Solução do Exercício 1

Interpretação

  • Analisando o gráfico de dispersão, parece haver uma correlação negativa forte entre os retornos das ações A e B, indicando que quando uma ação tem um retorno positivo, a outra tende a ter um retorno negativo, e vice-versa.

Solução do Exercício 1

# Cálculo da covariância 
covariancia <- cov(acao_a, acao_b)
covariancia
[1] -2.6353333
# Cálculo correlação
correlacao <- cor(acao_a, acao_b)
correlacao
[1] -0.73198834

Correlação Negativa

  • Como indicado pelo gráfico de dispersão, há uma correlação positiva muito forte entre temperatura e vendas, (- 0.73).

  • Se a retorno da ação a aumenta, o retorno da ação b tende a diminuir, e vice-versa.

Fundamentos de Simulação de Monte Carlo

Simulação (ou Método) de Monte Carlo

Origem da Simulação de Monte Carlo

  • Durante o Projeto Manhattan, que foi o projeto de pesquisa e desenvolvimento que produziu as primeiras bombas atômicas durante a Segunda Guerra Mundial, o Método de Monte Carlo foi desenvolvido e aplicado como uma ferramenta essencial na solução de problemas físicos complexos relacionados à física nuclear.

Simulação de Monte Carlo

Descrição Informal

  • A Simulação de Monte Carlo é uma técnica computacional que utiliza amostragem aleatória e estatística para modelar e quantificar o impacto da incerteza e variabilidade em sistemas complexos e processos de tomada de decisão.

  • Esses métodos são úteis para a obtenção de soluções numéricas para problemas que são muito complexos para serem resolvidos analiticamente.

  • Podemos estar interessados em simular um processo aleatório ou verificar como o comportamento de um processo é alterado quando mudamos determinados parâmetros.

  • Métodos de Monte Carlo são usadas extensivamente em Estatística, Física, Engenharia, Economia, Medicina, Administração e em diversas outras áreas.

Simulação de Monte Carlo

Probabilidade e Simulação de MC

  • Uma simulação de Monte Carlo é baseada no conceito de probabilidade como a frequência relativa de um evento.

  • Dado um processo aleatório e algum evento \(A\), a probabilidade \(P(A)\) é estimada repetindo-se o experimento aleatório muitas vezes e calculando-se a proporção de vezes que \(A\) ocorre.

  • Seja \(X_1, X_2,\ldots\) uma sequência de variáveis aleatórias, sendo:

\[ X_k = \begin{cases} 1, & \text{se A ocorre na k-ésima repetição} \\ 0, & \text{se A não ocorre na k-ésima repetição} \end{cases} \]

para \(k = 1, 2,\ldots\), então:

\[ \frac{X_1 + X_2 + \ldots + X_n}{n} \]

é a proporção de vezes em que \(A\) ocorre em \(n\) repetições.

Para n grande, o método de Monte Carlo estima \(P(A)\) por:

\[ P(A) \approx \frac{X_1 + X_2 + \ldots + X_n}{n} \]

Simulação de Monte Carlo

Probabilidade e Simulação de MC

  • Vejamos um exemplo inicial muito simples.

  • Considere simular a probabilidade de que uma moeda honesta resulte “cara” em \(n\) lançamentos. Pode-se fazer uma simulação física apenas jogando uma moeda várias vezes e tomando a proporção de caras para estimar \(P(Caras)\).

  • Usando um computador, escolha o número de tentativas n (quanto maior, melhor) e utilize o seguinte comando R:

sample(0:1, n, replace = T)
  • O comando faz uma amostragem com reposição de \({0, 1}\), \(n\) vezes de forma que os resultados sejam igualmente prováveis.

  • Considerando que \(0\) representa coroa e 1 representa cara, a saída é uma sequência de \(n\) uns e zeros correspondentes a caras e coroas.

  • A média da sequência é precisamente a proporção de uns.

Para simular o lançamento de uma moeda justa (processo aleatório) e estimar a \(P(Cara)\) fazemos:

mean(sample(0:1, 100, replace = T))
[1] 0.46
mean(sample(0:1, 1000, replace = T))
[1] 0.481
mean(sample(0:1, 10000, replace = T))
[1] 0.4975
mean(sample(0:1, 100000, replace = T))
[1] 0.49881
mean(sample(0:1, 1000000, replace = T))
[1] 0.499707

Simulação de Monte Carlo

Uma Aplicação em Finanças

Procedimento Simplificado:

  • Definição do Problema: Identifique uma variável aleatória financeira de interesse (receitas, lucros, etc.) e os possíveis cenários que podem afetá-la.

  • Determinação das Probabilidades: Atribua probabilidades a cada cenário com base em dados históricos ou estimativas.

  • Execução das Simulações: Realize um grande número de simulações (por exemplo, 10.000) para gerar uma distribuição dos possíveis valores da variável aleatória de interesse

  • Análise dos Resultados: Calcule estatísticas como a média (valor esperado), probabilidades e outras medidas de interesse.

Simulação de Monte Carlo

Exemplo de Aplicação 1

Vamos considerar a mesma empresa que está planejando suas receitas para o próximo ano, mas desta vez, utilizaremos a simulação de Monte Carlo para modelar a incerteza nas receitas.

Parâmetros da Simulação

  • Cenários e Probabilidades:

    • Cenário Pessimista: Receita esperada de - R$ 900,000 com probabilidade de 20%.

    • Cenário Base: Receita esperada de R$ 1,500,000 com probabilidade de 50%.

    • Cenário Otimista: Receita esperada de R$ 2,000,000 com probabilidade de 30%.

Procedimento:

  1. Realizar 10.000 simulações.

  2. Em cada simulação, selecionar um cenário com base nas probabilidades e registrar a receita correspondente.

  3. Calcular a média das receitas simuladas (receita esperada).

  4. Calcular a probabilidade da receita ser positiva.

Função replicate

O que é a função replicate?

A função replicate em R é usada para repetir a execução de uma expressão várias vezes, retornando os resultados em forma de vetor ou matriz.

  • Sintaxe:
replicate(n, expr)
  • n: Número de vezes que a expressão deve ser repetida.

  • expr: A expressão a ser avaliada.

Como usar a função replicate?

  • Exemplo Básico:
# Repetir a expressão 5 vezes
resultados <- replicate(5, sample(1:10, 1))
resultados
[1] 4 9 2 9 6
  • Neste exemplo, replicate seleciona aleatoriamente 5 números entre 1 e 10 e os retorna em um vetor.

  • A função replicate é frequentemente usada em simulações de Monte Carlo para realizar várias simulações independentes.

# cria uma função para simular lucros para alguns cenários que 
# ocorrem com as probabilidades dadas.
simulacao_retorno <- function() {
  sample(c(-200000, 300000, 600000), 
         size = 1, 
         prob = c(0.25, 0.5, 0.25), 
         replace = TRUE)
}

# executa 10.000 simulações/repetiçõs
retornos_simulados <- replicate(10000, simulacao_retorno())

Vantagens da função replicate

  • Simplificação do Código: Evita a necessidade de escrever loops explícitos (for) para repetições.

  • Eficiência: É geralmente mais eficiente e conciso para tarefas repetitivas.

  • Facilidade de Uso: Integra-se facilmente com outras funções em R para análises estatísticas e simulações.

Exemplo de Aplicação 1 - Implementação em R

# define os cenários e as probabilidades
cenarios <- c(-500000, 1500000, 2000000)
probabilidades <- c(0.2, 0.5, 0.3)

# número de simulações
simulacoes <- 10000

# função para realizar selecionar um cenário e receita
simulacao_receita <- function() {
  sample(cenarios, size = 1, prob = probabilidades, replace = TRUE)
}

# executando as simulações
set.seed(123) 
receitas_simuladas <- replicate(simulacoes, simulacao_receita())

# estimativa da receita esperada
receita_esperada <- mean(receitas_simuladas)
receita_esperada
[1] 1259900
# estimativa da P(receita > 0)
probabilidade_receita_positiva <- mean(receitas_simuladas > 0)
probabilidade_receita_positiva
[1] 0.8051

Simulação de Monte Carlo

Exemplo de Aplicação 2

Uma empresa está avaliando a viabilidade de um novo projeto de investimento. O projeto tem três possíveis resultados financeiros: prejuízo, lucro moderado e lucro alto. Cada resultado tem uma probabilidade associada, baseada em fatores de mercado e estimativas da empresa.

Parâmetros da Simulação

  • Cenários e Probabilidades:

  • Prejuízo: lucro esperado de R$ -200,000 com probabilidade de 25%.

  • Lucro Moderado: lucro esperado de R$ 300,000 com probabilidade de 50%.

  • Lucro Alto: lucro esperado de R$ 600,000 com probabilidade de 25%.

Procedimento

  1. Realizar 10.000 simulações.

  2. Em cada simulação, selecionar um cenário com base nas probabilidades e registrar o retorno correspondente.

  3. Calcular a média dos retornos simulados (retorno esperado).

  4. Calcular a probabilidade de o retorno ser positivo.

Exemplo de Aplicação 2 - Implementação em R

# Definindo os cenários e probabilidades
cenarios <- c(-200000, 300000, 600000)
probabilidades <- c(0.25, 0.5, 0.25)

# Número de simulações
simulacoes <- 10000

# Função para realizar uma simulação
simulacao_lucros <- function() {
  sample(cenarios, size = 1, prob = probabilidades, replace = TRUE)
}

# Realizando as simulações
set.seed(456) # Para reprodutibilidade
lucros_simulados <- replicate(simulacoes, simulacao_lucros())

# Estimativa da retorno esperado
lucro_esperado <- mean(lucros_simulados)
lucro_esperado
[1] 247460
# Estimativa da P(lucro > 0)
probabilidade_lucro_positivo <- mean(lucros_simulados > 0)
probabilidade_lucro_positivo
[1] 0.7454

Exercício 1

Análise de Viabilidade de Projeto de Investimento

Cenário: Uma startup de tecnologia está avaliando o lançamento de um novo aplicativo. A receita líquida do primeiro ano depende de fatores como aceitação do mercado e concorrência. Os possíveis cenários são:

  • Fracasso: Receita líquida de -R$ 100.000 (probabilidade 30%)
  • Sucesso Moderado: Receita líquida de R$ 200.000 (probabilidade 50%)
  • Grande Sucesso: Receita líquida de R$ 500.000 (probabilidade 20%)

Perguntas:

  1. Use simulação de Monte Carlo com 10.000 repetições para estimar a receita líquida esperada.

  2. Qual a probabilidade de a empresa ter receita líquida positiva no primeiro ano?

  3. Qual a probabilidade de a receita líquida superar R$ 300.000?

Solução do Exercício 1

# Definir cenários e probabilidades
receitas <- c(-100000, 200000, 500000)
probabilidades <- c(0.30, 0.50, 0.20)

# Função de simulação
simulacao_receita <- function() {
  sample(receitas, size = 1, prob = probabilidades, replace = TRUE)
}

# Simulação de Monte Carlo com 10.000 repetições

# fixa a semente para reprodutibilidade
set.seed(123)
simulacoes <- 10000
receitas_simuladas <- replicate(simulacoes, simulacao_receita())

# 1. Receita liquida esperada
receita_esperada <- mean(receitas_simuladas)
receita_esperada
[1] 168650
# 2. Probabilidade de receita positiva
prob_positiva <- mean(receitas_simuladas > 0)
prob_positiva
[1] 0.7006
# 3. Probabilidade de superar R$ 300.000
prob_300k <- mean(receitas_simuladas > 300000)
prob_300k
[1] 0.1949

Exercício 2

Gestão de Riscos Operacionais

Cenário: Uma transportadora precisa avaliar os custos extras mensais devido a problemas operacionais (acidentes, multas, manutenção não programada). Historicamente, os custos extras seguem este padrão:

  • Mês Tranquilo: Custo extra de R$ 5.000 (probabilidade 40%)
  • Mês Normal: Custo extra de R$ 15.000 (probabilidade 35%)
  • Mês Problemático: Custo extra de R$ 35.000 (probabilidade 20%)
  • Mês Crítico: Custo extra de R$ 60.000 (probabilidade 5%)

Perguntas:

  1. Use simulação de Monte Carlo com 15.000 repetições para estimar o custo extra médio mensal.

  2. Qual a probabilidade de os custos extras mensais excederem R$ 25.000?

  3. Para fins de planejamento orçamentário, qual valor a empresa deveria reservar mensalmente para cobrir custos extras em 90% dos casos?

Solução do Exercício 2

# Definir cenários e probabilidades
custos_extras <- c(5000, 15000, 35000, 60000)
probabilidades <- c(0.40, 0.35, 0.20, 0.05)

# Função de simulação
simulacao_custos <- function() {
  sample(custos_extras, size = 1, prob = probabilidades, replace = TRUE)
}

# 1. Simulação de Monte Carlo com 15.000 repetições
set.seed(456)
simulacoes <- 15000
custos_simulados <- replicate(simulacoes, simulacao_custos())

# Custo extra médio mensal
custo_extra_medio <- mean(custos_simulados)
custo_extra_medio
[1] 17399.333
# Verificação teórica
custo_teorico <- sum(custos_extras * probabilidades)
custo_teorico
[1] 17250
# 2. Probabilidade de exceder R$ 25.000
prob_25k <- mean(custos_simulados > 25000)
prob_25k
[1] 0.25406667
# 3. Valor para cobertura de 90% dos casos
percentil_90 <- quantile(custos_simulados, 0.90)
percentil_90
  90% 
35000 

Bibliografia Recomendada

Para Fundamentos de Probabilidade:

  • Devore (2006): Capítulos 2, 4 e 5.

Atualizando os Repositórios

Instruções

  1. No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:
git status
  1. Você pode adicionar todos os arquivos de uma vez com:
git add .
  1. Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):
git status
  1. Se tudo estiver em verde, faça um commit com uma mensagem descritiva:
git commit -m "atualizacoes aula 17"
  1. Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:
git add relatorios/04-relatorio/04-relatorio.qmd
  1. Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:
git commit -m "atualizacoes aula 17"
  1. Envie o repositório local atualizado para o GitHub:
git push origin main

Referências

COHEN, J. Statistical Power Analysis for the Behavioral Sciences. 2nd. ed. Hillsdale, NJ: Lawrence Erlbaum Associates, 1988.
___. A Power Primer. Psychological Bulletin, v. 112, n. 1, p. 155–159, 1992.
DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006.