Introdução à Ciência de Dados

Fundamentos de Probabilidade para Decisões

Prof. Washington Santos da Silva

IFMG - Campus Formiga

28 de maio de 2025

Diário de Bordo

O que vimos até hoje?

Aula 1 ✅
- Introdução e Contextualização ✅
- O que é Ciência de Dados? ✅
- Papéis Profissionais na Área de Dados ✅
- Áreas de Aplicações ✅
- Habilidades Interpessoais e Analíticas ✅
- Apresentação da Disciplina ✅
Aula 2 ✅
- Metodologia CRISP-DM ✅
- Tipos de Análise ✅
  - Descritiva ✅
  - Diagnóstica ✅
  - Preditiva ✅
  - Prescritiva ✅
- Configurações: Git/GitHub ✅
Aula 3 ✅
- Introdução ao RStudio ✅
  - Criação do seu Projeto RStudio da Disciplina ✅
Aula 4 ✅
- Introdução ao Git e GitHub ✅
  - Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
Aula 5 ✅
- Breve Revisão do IDE RStudio ✅
- Introdução ao Sistema de Publicação Quarto ✅
- Sessão Prática Guiada com Relatório 1 ✅
  - Execução dos comandos git essenciais ✅
Aula 6 ✅
- Parte I ✅
  - O Relatório Junglivet e a Metodologia CRISP-DM ✅
  - Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
- Parte II ✅
  - Para alunos com projetos estruturados ✅
  - Atividade prática ✅
  - Para alunos com dificuldades técnicas ✅
  - Atendimento individualizado para estruturação de projetos ✅
Aula 7 ✅
- Introdução ao sistema Quarto (continuação) ✅
  - Gerar relatório no formato pdf ✅
  - Gerar relatório no formato docx ✅
- Introdução à Linguagem R (continuação) ✅
  - Conceitos: Variáveis e observações ✅
  - Estrutura tabular organizada de dados ✅
  - Tipos e classes de dados principais em R ✅
  - Estruturas de dados: vetores e data frames ✅
Aula 8 ✅
- Início do estudo do pacote dplyr para manipulação de dados ✅
  - CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
    de um projeto de análise ou ciência de dados ✅
  - O que é o dplyr? ✅
  - A Filosofia Tidy Data (Dados Organizados) ✅
  - Dados Organizados (Tidy Data) ✅
  - Por que usar o dplyr? ✅
  - Fluxo de trabalho com dplyr ✅
  - Boas Práticas com dplyr ✅
  - Função dplyr::select() ✅
  - Função dplyr::filter() ✅
Aula 9 ✅
- Solução dos exercícios práticos sobre as funções select e filter ✅
- Função dplyr::mutate() ✅
Aula 10 ✅
- Soluções dos exercícios práticos sobre a função mutate ✅
- funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
Aula 11 ✅
- Metodologia CRISP-DM e Pacote dplyr ✅
- Revisão sobre Dados Organizados (Tidy Data) ✅
- Exemplos de Dados Desorganizados Comuns em Administração ✅
- Pacote tidyr: Função pivot_longer ✅
Aula 12 ✅
- Metodologia CRISP-DM e o tidyverse ✅
- Dados Organizados: Potencializando Análises ✅
Aula 13 ✅
- Avaliação 1 ✅
Aula 14 ✅
- Tipos Básicos de joins do pacote dplyr ✅
Aula 15 ✅
- Variáveis Aleatórias em Finanças
- Distribuições de Probabilidade
- Início: Distribuição Normal (ou Gaussiana)
Aula 16 ✅
- Distribuição Normal (ou Gaussiana) - Parte 2
- Características da Distribuição de uma VA
  - Valor Esperado (Média)

Nesta Aula

Tópicos

Características da Distribuição de uma VA
- Variância e Desvio-Padrão
- Variância: Propriedades Básicas
- Aplicação: Valor-em-Risco (VaR)
- Assimetria e Curtose
- Covariância e Correlação
- Fundamentos de Simulação de Monte Carlo

Arquivo para esta Aula (17)

Instruções

Abra o RStudio e o seu Projeto da Disciplina
Crie a subpasta 10-relatorio dentro da pasta relatorios.
Acesse o site da disciplina e baixe o arquivo 10-relatorio.zip
Descompacte o arquivo, copie/recorte o arquivo 10-relatorio.qmd e cole dentro da subpasta 10-relatorio.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

Atenção na digitação
Respeitar a sequência lógica de etapas
Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

Compartilhe conhecimento
Resolva questões técnicas simples com colegas próximos
Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Características da Distribuição de Probabilidade de Variáveis Aleatórias

Características Sumarizam Informação

O Desafio: Sintetizar Informação

Uma distribuição de probabilidade contém infinitos pontos de informação. Na prática, é impossível analisar cada valor possível de uma VA e suas respectivas probabilidades.

Por isso, precisamos de medidas-resumo que capturem as características essenciais da distribuição em poucos números interpretáveis.

1. Posição: Onde os Dados se Concentram?

Valor Esperado: Resume em um único número o “centro” da distribuição
Transforma infinitas possibilidades em uma métrica gerenciável

2. Variabilidade: Quantificando a Incerteza

Variância e Desvio-Padrão: Condensam toda a dispersão dos dados em uma medida
Permitem comparar riscos entre diferentes investimentos ou processos
Essenciais porque dois processos podem ter mesma média mas riscos totalmente diferentes

3. Forma da Distribuição: Capturando Padrões Não-Simétricos

Assimetria e Curtose: Resumem desvios do padrão normal
Identificam se eventos extremos são mais prováveis que o esperado
Críticos porque muitos fenômenos empresariais não seguem o padrão “normal”

4. Interdependências: Síntese de Relações Complexas

Covariância e Correlação: Reduzem relações multidimensionais a números interpretáveis
Permitem decisões de diversificação sem analisar cada cenário possível

Variância

Definição

A variância $V(X)$ de uma variável aleatória $X$ mede a dispersão dos valores de $X$ em torno do seu valor esperado.

Para uma VA Discreta:

\[ V(X) = \sigma_{X}^2 = \sum_{i} (x_i - E(X))^2 P(X = x_i) \]

Para uma VA Contínua:

\[ V(X) = \sigma_{X}^2 = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) \, dx \]

Variância = Variação/Risco

Desvio-Padrão

Definição

O desvio-padrão ($\sigma$) de uma VA é a raiz quadrada da variância e fornece uma medida da dispersão dos valores de $X$ em torno do seu valor esperado na mesma unidade de $X$.

\[ \sigma = \sqrt{V(X)} \]

Por exemplo, se a unidade de $X$ for R$ (reais), o desvio-padrão também será em reais, enquanto a variância será em reais ao quadrado (R$$^2$).

Desvio-Padrão = Variação/Risco

Variância e Desvio-Padrão: Exemplo Prático

Análise de Risco de um Pequeno Investimento

Uma empresa está considerando lançar um novo produto. Baseado em pesquisas de mercado, os possíveis lucros mensais são:

Cenário	Lucro Mensal (R$)	Probabilidade
Pessimista	2.000	0.3
Esperado	5.000	0.4
Otimista	8.000	0.3

Passo 1: Calcular o Valor (Lucro) Esperado

\[ E[L] = 2.000 \times 0.3 + 5.000 \times 0.4 + 8.000 \times 0.3 = 5.200\ \]

Passo 2: Calcular a Variância

\[\begin{aligned} V[L] &= \sigma^2 = (2.000 - 5.200)^2 \times 0.3 + (5.000 - 5.200)^2 \times 0.4 + (8.000 - 5.200)^2 \times 0.3 \\ &= (-3.200)^2 \times 0.3 + (-200)^2 \times 0.4 + (2.800)^2 \times 0.3 \\ &= 10.240.000 \times 0.3 + 40.000 \times 0.4 + 7.840.000 \times 0.3 \\ V[L] &= \sigma^2 = 5.440.000\,\, R\$^2 \end{aligned}\]

Passo 3: Calcular o Desvio-Padrão

\[ \sigma_L = \sqrt{\sigma^2} =\sqrt{5.440.000} \approx 2.333\,\,R\$ \]

Interpretação: O lucro esperado é R$ 5.200 com desvio-padrão de R$ 2.333, indicando uma variabilidade moderada em torno da expectativa.

Implementação em R

# Definir os dados
lucros <- c(2000, 5000, 8000)
probabilidades <- c(0.3, 0.4, 0.3)

# Calcular valor esperado
valor_esperado <- sum(lucros * probabilidades)
valor_esperado

[1] 5000

# Calcular variância manualmente
variancia <- sum((lucros - valor_esperado)^2 * probabilidades)
variancia

[1] 5400000

# Calcular desvio-padrão
desvio_padrao <- sqrt(variancia)
desvio_padrao

[1] 2323.79

# Verificação usando simulação
set.seed(123)
simulacao <- sample(lucros, 10000, prob = probabilidades, replace = TRUE)
mean(simulacao)  # Valor esperado empírico

[1] 5036.6

var(simulacao)   # Variância empírica

[1] 5422602.7

sd(simulacao)    # Desvio-padrão empírico

[1] 2328.6483

Variância: Propriedades Básicas

Propriedades

Variância de uma Constante

Se $c$ é uma constante, então a variância de $c$ é zero:

$\boxed{V(c) = 0}$

Adição de uma Constante

Se $X$ é uma variável aleatória e $c$ é uma constante, a variância de $X + c$ é igual à variância de $X$:

$\boxed{V(X + c) = V(X)}$

Variância de uma Constante Multiplicada por uma Variável Aleatória

Para qualquer variável aleatória $X$ e uma constante $a$, a variância de $aX$ é dada por:

$\boxed{V(aX) = a^2 V(X)}$

Variância da Soma de Variáveis Aleatórias

Para variáveis aleatórias $X$ e $Y$ não necessariamente independentes, a variância da soma é:

$\boxed{V(X + Y) = V(X) + V(Y) + 2\text{Cov}(X, Y)}$

onde $Cov(X, Y)$ é a covariância entre $X$ e $Y$.

Variância da Soma de Variáveis Aleatórias Independentes

Para variáveis aleatórias $X$ e $Y$ independentes:

$\boxed{V(X + Y) = V(X) + V(Y)}$

Variância da Diferença de Variáveis Aleatórias Independentes

Para variáveis aleatórias $X$ e $Y$ independentes:

$\boxed{V(X - Y) = V(X) + V(Y)}$

Propriedades da Variância

# Exemplo das propriedades
set.seed(123)
investimento <- rnorm(1000, mean = 0.05, sd = 0.12)  # Retorno 5%, vol 12%

# Propriedade 1: V(X + constante) = V(X)
# Adicionar uma constante não altera o risco
taxa <- 0.02
var(investimento)

[1] 0.014161809

var(investimento + taxa)  # Variância igual

[1] 0.014161809

# Propriedade 2: V(a*X) = a²*V(X)  
# Dobrar o investimento quadruplica o risco
dobro_investimento <- 2 * investimento
var(investimento)

[1] 0.014161809

var(dobro_investimento)  # 4 vezes maior

[1] 0.056647234

2^2 * var(investimento)  # Confirmação teórica

[1] 0.056647234

Coeficiente de Variação

Definição

O coeficiente de variação (CV) é uma medida de variabilidade relativa que expressa o desvio-padrão como uma porcentagem da média, permitindo comparações diretas entre variáveis com diferentes escalas ou unidades.

\[ CV = \frac{\sigma}{|\mu|} \times 100\% \]

onde:

$\sigma$ = desvio-padrão da variável aleatória
$\mu$ = valor esperado (média) da variável aleatória

Características principais:

Adimensional: Expresso em porcentagem, independe da unidade de medida
Comparável: Permite comparar variabilidade entre variáveis diferentes
Interpretação: Quanto maior o CV, maior a variabilidade relativa

Interpretação prática:

A interpretação da magnitude do CV depende da processo aleatório em estudo, mas geralmente um CV mais alto indica maior variabilidade relativa.

Aplicação em finanças: Útil para comparar riscos relativos de investimentos com diferentes retornos esperados, permitindo identificar qual ativo oferece melhor relação risco-retorno.

Coeficiente de Variação: Exemplo Comparativo

Comparando Risco Relativo de Investimentos

Cenário: Um gestor precisa comparar três opções de investimento com características muito diferentes:

Investimento	Retorno Esperado	Desvio-Padrão	Unidade
Ação Tech	15%	6%	% a.a.
Fundo Imobiliário	R$ 1.200	R$ 180	R$/mês
Criptomoeda	US$ 50	US$ 25	US$/semana

Problema: Como comparar o risco relativo entre investimentos com escalas e unidades diferentes?

Solução usando Coeficiente de Variação:

Ação Tech: $CV = \frac{6\%}{15\%} \times 100\% = 40\%$
Fundo Imobiliário: $CV = \frac{180}{1.200} \times 100\% = 15\%$
Criptomoeda: $CV = \frac{25}{50} \times 100\% = 50\%$

Interpretação:

Fundo Imobiliário: menor risco relativo (15% - baixa variabilidade)
Ação Tech: risco relativo moderado (40% - alta variabilidade)
Criptomoeda: maior risco relativo (50% - alta variabilidade)

Conclusão: O coeficiente de variação revela que, proporcionalmente aos seus retornos, o Fundo Imobiliário apresenta o menor risco relativo, seguido pela Ação Tech e, por último, a Criptomoeda.

Cálculo do CV para cada investimento

# Ação Tech
retorno_acao <- 15
desvio_acao <- 6
cv_acao <- (desvio_acao / retorno_acao) * 100
cv_acao

[1] 40

# Fundo Imobiliário  
retorno_fundo <- 1200
desvio_fundo <- 180
cv_fundo <- (desvio_fundo / retorno_fundo) * 100
cv_fundo

[1] 15

# Criptomoeda
retorno_crypto <- 50
desvio_crypto <- 25
cv_crypto <- (desvio_crypto / retorno_crypto) * 100
cv_crypto

[1] 50

Aplicação: Valor-em-Risco (VaR)

O que é o Valor-em-Risco?

O Valor-em-Risco (VaR) é uma medida estatística que quantifica o risco de perdas em um investimento ou portfólio durante um período específico, com um determinado nível de confiança.

Definição formal: O VaR de α% é o valor tal que existe apenas α% de probabilidade de a perda exceder esse valor.

Elementos do VaR:

Horizonte temporal: Período de análise (1 dia, 1 semana, 1 mês)
Nível de confiança: Tipicamente 95% ou 99%
Unidade monetária: Valor máximo de perda esperada

Interpretação do VaR de 95%:

“Existe apenas 5% de chance de a perda exceder o valor do VaR”

Aplicações práticas:

Gestão de risco em bancos e fundos
Determinação de limites de exposição
Cálculo de capital regulatório
Comunicação de risco para investidores

VaR usando a Distribuição Normal

Fórmula do VaR Paramétrico (Normal)

Assumindo que os retornos seguem distribuição normal:

\[ \text{VaR}_\alpha = \mu + z_\alpha \times \sigma \]

onde:

$\mu$ = retorno esperado do investimento
$\sigma$ = volatilidade (desvio-padrão) dos retornos
$z_\alpha$ = quantil da distribuição normal padrão para o nível de confiança α

Para os níveis de confiança mais comuns:

VaR 95%: $z_{0.05} = -1.645$ - “Existe apenas 5% de chance de a perda exceder o valor do VaR”
VaR 99%: $z_{0.01} = -2.326$ - “Existe apenas 1% de chance de a perda exceder o valor do VaR”

Importante: O sinal negativo indica que estamos interessados na cauda esquerda da distribuição (perdas).

VaR usando a Distribuição Normal

Fórmula do VaR Paramétrico

Assumindo que os retornos $R$ seguem uma distribuição normal:

\[ \boxed{ \text{VaR}_\alpha = \mu + z_\alpha \cdot \sigma } \]

Sendo:

$\mu =$ retorno esperado (média dos retornos)
$\sigma =$ volatilidade (desvio padrão dos retornos)
$z_\alpha =$ quantil da normal padrão para $\alpha$ (tabelado)

Explicação Intuitiva

Distribuição dos retornos:

\[ R \sim \mathcal{N}(\mu, \sigma^2) \]

Padronização para $Z \sim \mathcal{N}(0, 1)$:

\[ P(R \leq \text{VaR}_\alpha) = \alpha \quad \Rightarrow \quad P\left(\underbrace{\frac{R - \mu}{\sigma}}_{Z} \leq \frac{\text{VaR}_\alpha - \mu}{\sigma}\right) = \alpha \]

Isolando o VaR:

\[ \frac{\text{VaR}_\alpha - \mu}{\sigma} = z_\alpha \quad \Rightarrow \quad \text{VaR}_\alpha = \mu + z_\alpha \cdot \sigma \]

Valores Críticos Comuns

Nível de Confiança	$\alpha$	$z_\alpha$
95%	5%	$-1.645$
99%	1%	$-2.326$

Observação:

O sinal negativo de $z_\alpha$ reflete a cauda esquerda da distribuição (perdas).

Exemplo Prático: Cálculo de VaR

Cenário: Investimento em Ações

Dados históricos de um fundo de ações:

Retorno médio mensal: 1.2%
Volatilidade mensal: 4.5%
Valor investido: R$ 100.000

Pergunta: Qual o VaR mensal de 95%?

Solução:

\[\text{VaR}_{95\%} = 1.2\% + (-1.645) \times 4.5\%\]

\[\text{VaR}_{95\%} = 1.2\% - 7.4\% = -6.2\%\]

Em valores monetários:

\[\text{VaR}_{95\%} = R\$ 100.000 \times (-6.2\%) = -R\$ 6.200\]

Interpretação: Existe apenas 5% de chance de a perda mensal exceder R$ 6.200.

Implementação do VaR em R

# Parâmetros do investimento
retorno_medio <- 0.012      # 1.2% ao mês
volatilidade <- 0.045       # 4.5% ao mês
valor_investido <- 100000   # R$ 100.000

# Cálculo do VaR 95%
nivel_confianca <- 0.95
quantil_95 <- qnorm(1 - nivel_confianca)  # -1.645
quantil_95

[1] -1.6448536

# Cálculo do VaR 95% percentual
var_percentual_95 <- retorno_medio + quantil_95 * volatilidade
var_percentual_95

[1] -0.062018413

# Cálculo do VaR 95% monetário
var_monetario_95 <- valor_investido * var_percentual_95
var_monetario_95

[1] -6201.8413

# Cálculo do VaR 99%
quantil_99 <- qnorm(1 - 0.99)  # -2.326

# Cálculo do VaR 99% percentual
var_percentual_99 <- retorno_medio + quantil_99 * volatilidade
var_percentual_99

[1] -0.092685654

# Cálculo do VaR 99% monetário
var_monetario_99 <- valor_investido * var_percentual_99
var_monetario_99

[1] -9268.5654

Visualização do VaR

Coeficientes de Assimetria e Curtose

Definições

Coeficiente de Assimetria (Skewness):

\[ \text{Assimetria}(X) = E\left[\left(\frac{X - \mu}{\sigma}\right)^3\right] \]

Coeficiente de Curtose (Kurtosis):

\[ \text{Curtose}(X) = E\left[\left(\frac{X - \mu}{\sigma}\right)^4\right] \]

Interpretação:

Assimetria = 0: distribuição simétrica
Assimetria à direita (positiva) > 0: cauda mais longa à direita
Assimetria à esquerda (negativa) < 0: cauda mais longa à esquerda
Curtose = 3: curtose normal (mesocúrtica)
Curtose > 3: distribuição mais pontiaguda (leptocúrtica)
Curtose < 3: distribuição mais achatada (platicúrtica)

Coeficientes de Assimetria e Curtose

Exercício 1

Exercício

Cenário: Um gestor de investimentos está comparando dois fundos com diferentes perfis de risco.

Dados Calculados:

Fundo Conservador: Retorno esperado = 8.6%, Desvio-padrão = 1.9%
Fundo Arrojado: Retorno esperado = 10.2%, Desvio-padrão = 6.9%

Perguntas:

Calcule o coeficiente de variação para cada fundo.
Compare o risco relativo dos dois fundos.
Qual fundo você recomendaria para um investidor conservador? Justifique.

Solução do Exercício 1

# Cálculo dos Coeficientes de Variação (CV)

cv_fundo_conservador <- (1.9 / 8.6) * 100
cv_fundo_conservador

[1] 22.093023

cv_fundo_arrojado <- (6.9 / 10.2) * 100
cv_fundo_arrojado

[1] 67.647059

Interpretação

Apesar do fundo arrojado ter um retorno esperado maior, seu coeficiente de variação (CV) é significativamente maior, indicando que o risco relativo é muito mais alto, cerca de 3 vezes ($67/22 \approx 3$) maior que o risco do fundo conservador.

Exercício 2

Exercício

Cenário: Uma loja está comparando a previsibilidade da demanda de dois produtos.

Dados:

Produto A: Demanda Esperada = E(D) = $\mu$ = 100 unidades, $\sigma$ = 15 unidades
Produto B: Demanda Esperada = E(D) = $\mu$ = 50 unidades, $\sigma$ = 12 unidades

Perguntas:

Calcule o coeficiente de variação para cada produto.
Qual produto tem maior risco relativo de demanda?
Qual seria mais desafiador para gerenciar estoque?

Solução do Exercício 2

# Cálculo dos Coeficientes de Variação (CV)

cv_a <- (15 / 100) * 100
cv_a

[1] 15

cv_b <- (12 / 50) * 100
cv_b

[1] 24

Interpretação

Como o coeficiente de variação da demanda do produto b é maior que o do produto a, isso indica que o produto b tem uma maior variabilidade (risco) relativa do que a do produto a, assim, é mais desafiador gerenciar o estoque do produto b.

Exercício 3

Cálculo do VaR

Você está analisando um portfólio de títulos governamentais com:

Retorno médio mensal: 0.8%
Volatilidade mensal: 3.2%
Valor investido: US$ 250.000

Considerando que os retornos do protfólio seguem aproximadamente uma distribuição normal:

Calcule o VaR mensal de 95% (percentual e monetário)
Calcule o VaR mensal de 99% (percentual e monetário)
Compare os resultados e interprete a diferença

Dica: Use qnorm() no R para obter os quantis da distribuição normal

Solução do Exercício 3

# Parâmetros do investimento
retorno_medio <- 0.008     # 0.8%
volatilidade <- 0.032      # 3.2%
valor <- 250000            # US$ 250k

# 1. VaR 95% percentual e monetário
var_95_percentual <- retorno_medio + qnorm(0.05) * volatilidade
var_95_percentual

[1] -0.044635316

var_95_monetário <- valor * var_95_percentual
var_95_monetário

[1] -11158.829

# 2. VaR 99% percentual e monetário
var_99_percentual <- retorno_medio + qnorm(0.01) * volatilidade
var_99_percentual

[1] -0.066443132

var_99_monetário <- valor * var_99_percentual
var_99_monetário

[1] -16610.783

Solucão do Exercício 3

Interpretação

VaR Mensal a 95%:

Percentual: -4.46%
Significa que há 5% de probabilidade de o portfólio perder mais que 4.46% em um mês.
Monetário: US$ 11.158,83
Representa a perda máxima esperada com 95% de confiança para o investimento de US$ 250.000.

VaR Mensal a 99%:

Percentual: -6.64%
Indica que há apenas 1% de chance de perdas superiores a 6.64% no mês.
Monetário: US$ 16.610,78
Mostra a perda máxima esperada com 99% de confiança.

Comparação:

O VaR a 99% é maior (em valor absoluto) que o VaR a 95%, como esperado
→ Quanto maior o nível de confiança, maior a perda potencial extrema
A diferença reflete o trade-off entre:
- Confiança estatística (99% vs 95%)
- Magnitude da perda potencial (maior no 99%)
O VaR negativo indica perda potencial (retorno abaixo da média)

Observação: Esses cálculos assumem distribuição normal dos retornos, o que pode subestimar riscos em eventos extremos.

Covariância e Dependência entre Variáveis Aleatórias

Covariância

Definição

A covariância $\text{Cov}(X, Y)$ mede o grau da relação linear entre duas variáveis aleatórias numéricas $X$ e $Y$.

\[ \begin{align} \text{Cov}(X, Y) &= E[(X - E(X))(Y - E(Y))] \\\ &= E[(X - \mu_X))(Y - \mu_Y)] \\ &= E(XY) - \mu_X\mu_Y \end{align} \]

Para variáveis aleatórias discretas:

\[ \text{Cov}(X, Y) = \sum_{x} \sum_{y}xyP(x,y) - \mu_X\mu_Y \]

Para variáveis aleatórias contínuas:

\[ \text{Cov}(X, Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x - \mu_X)(y - \mu_Y)) f(x, y) \, dx \, dy \]

Covariância: Limitações

Limitações

Embora a covariância forneça uma indicação da direção da relação entre variáveis aleatórias, a covariância não tem um limite superior ou inferior, e seu tamanho é muito influenciado pela escala (unidade de medida) dos números.
Assim, é difícil usar a covariância para fornecer uma medida da força de uma relação linear porque ela é ilimitada.
Uma medida relacionada, o coeficiente de correlação, fornece uma medida da força da relação linear entre duas variáveis aleatórias, com a medida sendo limitada ao intervalo de -1 a +1.

Correlação

Definição

A correlação $\rho_{XY}$ é uma medida numérica padronizada (ou normalizada) do grau da relação linear entre duas variáveis aleatórias, indicando tanto a força quanto a direção dessa relação.

\[ \rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]

sendo:

$\text{Cov}(X, Y)$ a covariância entre $X$ e $Y$.
$\sigma_X$ o desvio-padrão de $X$.
$\sigma_Y$ o desvio-padrão de $Y$.

Intervalo

$-1 \leq \rho_{XY} \leq 1$

$\rho_{XY} = +1$: Correlação positiva perfeita
$\rho_{XY} = -1$: Correlação negativa perfeita
$\rho_{XY} = 0$: Nenhuma correlação linear

Correlação - Gráficos de Dispersão

Correlação Linear entre Variáveis Aleatórias Numéricas

Correlação - Gráficos de Dispersão

Coeficiente de Correlação Linear entre Variáveis Aleatórias Numéricas

Covariância: Exemplo

Covariação entre Vendas de Sorvete e Temperatura

Dados hipotéticos de uma sorveteria durante 5 dias:

Dia	Temperatura (°C)	Vendas (R$)
1	25	300
2	30	450
3	20	200
4	35	500
5	28	400

Médias:

Temperatura média: 27.6°C
Vendas médias: R$ 370

Interpretação da Covariância:

Se positiva: quando temperatura aumenta, vendas tendem a aumentar
Se negativa: quando temperatura aumenta, vendas tendem a diminuir
Se zero: não há relacionamento linear entre as variáveis

Exemplo: Gráfico de Dispersão

# Dados do exemplo
temperatura <- c(25, 30, 20, 35, 28)
vendas <- c(300, 450, 200, 500, 400)

# Criar data frame
dados <- data.frame(temperatura, vendas)

# Gráfico de dispersão 
ggplot(dados, aes(x = temperatura, y = vendas)) +
  geom_point(size = 3) +
  labs(title = "Relação: Temperatura vs Vendas",
       x = "Temperatura (°C)",
       y = "Vendas (R$)") + 
  theme_minimal()

Exemplo: Gráfico de Dispersão

Interpretação do Gráfico

O gráfico de dispersão mostra uma relação positiva forte entre temperatura e vendas.
indicando que, à medida que a temperatura aumenta, as vendas também tendem a aumentar, e vice-versa.

Implementação em R

# Função cov para calcular a covariância
covariancia <- cov(temperatura, vendas)
covariancia

[1] 660

# Função cor para calcular a correlação
correlacao <- cor(temperatura, vendas)
correlacao

[1] 0.97968795

Correlação Muito Forte

Como indicado pelo gráfico de dispersão, há uma correlação positiva muito forte entre temperatura e vendas de sorvete, (0.97 ou 97%).
Se a temperatura aumenta, as vendas tendem a aumentar também, e vice-versa.

Interpretação da Correlação

Guia para Interpretação de Correlações (Cohen, 1988, 1992)

Diretrizes Clássicas de Cohen (valores absolutos):

|r| $\approx$ 0.10: Correlação fraca
|r| $\approx$ 0.30: Correlação moderada
|r| $\approx$ 0.50: Correlação forte

Observações Importantes:

Essas diretrizes são pontos de referência gerais, não limites rígidos
O contexto da análise sempre deve ser considerado na interpretação
Correlação não implica causalidade!

Exercício 1

Covariação entre os retornos de duas ações

Cenário: Um investidor está analisando a correlação entre os retornos de duas ações para construir um portfólio diversificado. Os retornos mensais históricos (em %) das duas ações nos últimos 6 meses foram:

Mês	Ação A	Ação B
1	2.5	1.8
2	-1.2	3.1
3	4.1	-0.5
4	1.8	2.4
5	-0.8	1.2
6	3.6	-1.0

Perguntas:

Faça um gráfico de dispersão dos retornos das duas ações. Analisando o gráfico, você considera que há alguma correlação entre os retornos das duas ações? Se sim, qual?
Calcule a covariância e o coeficiente de correlação entre as duas ações.
Com base na correlação, essas ações são uma boa opção para diversificação? Explique.

Solução do Exercício 1

# Dados das ações
acao_a <- c(2.5, -1.2, 4.1, 1.8, -0.8, 3.6)
acao_b <- c(1.8, 3.1, -0.5, 2.4, 1.2, -1.0)

# Criar data frame
dados <- data.frame(acao_a, acao_b)

# Gráfico de dispersão
ggplot(dados, aes(x = acao_a, y = acao_b)) +
  geom_point(size = 2.5) +
  labs(title = "Relação entre Ação A e Ação B",
       x = "Retorno Ação A (%)",
       y = "Retorno Ação B (%)") + 
  theme_minimal()

Solução do Exercício 1

Interpretação

Analisando o gráfico de dispersão, parece haver uma correlação negativa forte entre os retornos das ações A e B, indicando que quando uma ação tem um retorno positivo, a outra tende a ter um retorno negativo, e vice-versa.

Solução do Exercício 1

# Cálculo da covariância 
covariancia <- cov(acao_a, acao_b)
covariancia

[1] -2.6353333

# Cálculo correlação
correlacao <- cor(acao_a, acao_b)
correlacao

[1] -0.73198834

Correlação Negativa

Como indicado pelo gráfico de dispersão, há uma correlação positiva muito forte entre temperatura e vendas, (- 0.73).
Se a retorno da ação a aumenta, o retorno da ação b tende a diminuir, e vice-versa.

Fundamentos de Simulação de Monte Carlo

Simulação (ou Método) de Monte Carlo

Origem da Simulação de Monte Carlo

Durante o Projeto Manhattan, que foi o projeto de pesquisa e desenvolvimento que produziu as primeiras bombas atômicas durante a Segunda Guerra Mundial, o Método de Monte Carlo foi desenvolvido e aplicado como uma ferramenta essencial na solução de problemas físicos complexos relacionados à física nuclear.

Simulação de Monte Carlo

Descrição Informal

A Simulação de Monte Carlo é uma técnica computacional que utiliza amostragem aleatória e estatística para modelar e quantificar o impacto da incerteza e variabilidade em sistemas complexos e processos de tomada de decisão.
Esses métodos são úteis para a obtenção de soluções numéricas para problemas que são muito complexos para serem resolvidos analiticamente.
Podemos estar interessados em simular um processo aleatório ou verificar como o comportamento de um processo é alterado quando mudamos determinados parâmetros.
Métodos de Monte Carlo são usadas extensivamente em Estatística, Física, Engenharia, Economia, Medicina, Administração e em diversas outras áreas.

Simulação de Monte Carlo

Probabilidade e Simulação de MC

Uma simulação de Monte Carlo é baseada no conceito de probabilidade como a frequência relativa de um evento.
Dado um processo aleatório e algum evento $A$, a probabilidade $P(A)$ é estimada repetindo-se o experimento aleatório muitas vezes e calculando-se a proporção de vezes que $A$ ocorre.
Seja $X_1, X_2,\ldots$ uma sequência de variáveis aleatórias, sendo:

\[ X_k = \begin{cases} 1, & \text{se A ocorre na k-ésima repetição} \\ 0, & \text{se A não ocorre na k-ésima repetição} \end{cases} \]

para $k = 1, 2,\ldots$, então:

\[ \frac{X_1 + X_2 + \ldots + X_n}{n} \]

é a proporção de vezes em que $A$ ocorre em $n$ repetições.

Para n grande, o método de Monte Carlo estima $P(A)$ por:

\[ P(A) \approx \frac{X_1 + X_2 + \ldots + X_n}{n} \]

Simulação de Monte Carlo

Probabilidade e Simulação de MC

Vejamos um exemplo inicial muito simples.
Considere simular a probabilidade de que uma moeda honesta resulte “cara” em $n$ lançamentos. Pode-se fazer uma simulação física apenas jogando uma moeda várias vezes e tomando a proporção de caras para estimar $P(Caras)$.
Usando um computador, escolha o número de tentativas n (quanto maior, melhor) e utilize o seguinte comando R:

sample(0:1, n, replace = T)

O comando faz uma amostragem com reposição de ${0, 1}$, $n$ vezes de forma que os resultados sejam igualmente prováveis.
Considerando que $0$ representa coroa e 1 representa cara, a saída é uma sequência de $n$ uns e zeros correspondentes a caras e coroas.
A média da sequência é precisamente a proporção de uns.

Para simular o lançamento de uma moeda justa (processo aleatório) e estimar a $P(Cara)$ fazemos:

mean(sample(0:1, 100, replace = T))

[1] 0.46

mean(sample(0:1, 1000, replace = T))

[1] 0.481

mean(sample(0:1, 10000, replace = T))

[1] 0.4975

mean(sample(0:1, 100000, replace = T))

[1] 0.49881

mean(sample(0:1, 1000000, replace = T))

[1] 0.499707

Simulação de Monte Carlo

Uma Aplicação em Finanças

Procedimento Simplificado:

Definição do Problema: Identifique uma variável aleatória financeira de interesse (receitas, lucros, etc.) e os possíveis cenários que podem afetá-la.
Determinação das Probabilidades: Atribua probabilidades a cada cenário com base em dados históricos ou estimativas.
Execução das Simulações: Realize um grande número de simulações (por exemplo, 10.000) para gerar uma distribuição dos possíveis valores da variável aleatória de interesse
Análise dos Resultados: Calcule estatísticas como a média (valor esperado), probabilidades e outras medidas de interesse.

Simulação de Monte Carlo

Exemplo de Aplicação 1

Vamos considerar a mesma empresa que está planejando suas receitas para o próximo ano, mas desta vez, utilizaremos a simulação de Monte Carlo para modelar a incerteza nas receitas.

Parâmetros da Simulação

Cenários e Probabilidades:
- Cenário Pessimista: Receita esperada de - R$ 900,000 com probabilidade de 20%.
- Cenário Base: Receita esperada de R$ 1,500,000 com probabilidade de 50%.
- Cenário Otimista: Receita esperada de R$ 2,000,000 com probabilidade de 30%.

Procedimento:

Realizar 10.000 simulações.
Em cada simulação, selecionar um cenário com base nas probabilidades e registrar a receita correspondente.
Calcular a média das receitas simuladas (receita esperada).
Calcular a probabilidade da receita ser positiva.

Função replicate

O que é a função replicate?

A função replicate em R é usada para repetir a execução de uma expressão várias vezes, retornando os resultados em forma de vetor ou matriz.

Sintaxe:

replicate(n, expr)

n: Número de vezes que a expressão deve ser repetida.
expr: A expressão a ser avaliada.

Como usar a função replicate?

Exemplo Básico:

# Repetir a expressão 5 vezes
resultados <- replicate(5, sample(1:10, 1))
resultados

[1] 4 9 2 9 6

Neste exemplo, replicate seleciona aleatoriamente 5 números entre 1 e 10 e os retorna em um vetor.
A função replicate é frequentemente usada em simulações de Monte Carlo para realizar várias simulações independentes.

# cria uma função para simular lucros para alguns cenários que 
# ocorrem com as probabilidades dadas.
simulacao_retorno <- function() {
  sample(c(-200000, 300000, 600000), 
         size = 1, 
         prob = c(0.25, 0.5, 0.25), 
         replace = TRUE)
}

# executa 10.000 simulações/repetiçõs
retornos_simulados <- replicate(10000, simulacao_retorno())

Vantagens da função replicate

Simplificação do Código: Evita a necessidade de escrever loops explícitos (for) para repetições.
Eficiência: É geralmente mais eficiente e conciso para tarefas repetitivas.
Facilidade de Uso: Integra-se facilmente com outras funções em R para análises estatísticas e simulações.

Exemplo de Aplicação 1 - Implementação em R

# define os cenários e as probabilidades
cenarios <- c(-500000, 1500000, 2000000)
probabilidades <- c(0.2, 0.5, 0.3)

# número de simulações
simulacoes <- 10000

# função para realizar selecionar um cenário e receita
simulacao_receita <- function() {
  sample(cenarios, size = 1, prob = probabilidades, replace = TRUE)
}

# executando as simulações
set.seed(123) 
receitas_simuladas <- replicate(simulacoes, simulacao_receita())

# estimativa da receita esperada
receita_esperada <- mean(receitas_simuladas)
receita_esperada

[1] 1259900

# estimativa da P(receita > 0)
probabilidade_receita_positiva <- mean(receitas_simuladas > 0)
probabilidade_receita_positiva

[1] 0.8051

Simulação de Monte Carlo

Exemplo de Aplicação 2

Uma empresa está avaliando a viabilidade de um novo projeto de investimento. O projeto tem três possíveis resultados financeiros: prejuízo, lucro moderado e lucro alto. Cada resultado tem uma probabilidade associada, baseada em fatores de mercado e estimativas da empresa.

Parâmetros da Simulação

Cenários e Probabilidades:
Prejuízo: lucro esperado de R$ -200,000 com probabilidade de 25%.
Lucro Moderado: lucro esperado de R$ 300,000 com probabilidade de 50%.
Lucro Alto: lucro esperado de R$ 600,000 com probabilidade de 25%.

Procedimento

Realizar 10.000 simulações.
Em cada simulação, selecionar um cenário com base nas probabilidades e registrar o retorno correspondente.
Calcular a média dos retornos simulados (retorno esperado).
Calcular a probabilidade de o retorno ser positivo.

Exemplo de Aplicação 2 - Implementação em R

# Definindo os cenários e probabilidades
cenarios <- c(-200000, 300000, 600000)
probabilidades <- c(0.25, 0.5, 0.25)

# Número de simulações
simulacoes <- 10000

# Função para realizar uma simulação
simulacao_lucros <- function() {
  sample(cenarios, size = 1, prob = probabilidades, replace = TRUE)
}

# Realizando as simulações
set.seed(456) # Para reprodutibilidade
lucros_simulados <- replicate(simulacoes, simulacao_lucros())

# Estimativa da retorno esperado
lucro_esperado <- mean(lucros_simulados)
lucro_esperado

[1] 247460

# Estimativa da P(lucro > 0)
probabilidade_lucro_positivo <- mean(lucros_simulados > 0)
probabilidade_lucro_positivo

[1] 0.7454

Exercício 1

Análise de Viabilidade de Projeto de Investimento

Cenário: Uma startup de tecnologia está avaliando o lançamento de um novo aplicativo. A receita líquida do primeiro ano depende de fatores como aceitação do mercado e concorrência. Os possíveis cenários são:

Fracasso: Receita líquida de -R$ 100.000 (probabilidade 30%)
Sucesso Moderado: Receita líquida de R$ 200.000 (probabilidade 50%)
Grande Sucesso: Receita líquida de R$ 500.000 (probabilidade 20%)

Perguntas:

Use simulação de Monte Carlo com 10.000 repetições para estimar a receita líquida esperada.
Qual a probabilidade de a empresa ter receita líquida positiva no primeiro ano?
Qual a probabilidade de a receita líquida superar R$ 300.000?

Solução do Exercício 1

# Definir cenários e probabilidades
receitas <- c(-100000, 200000, 500000)
probabilidades <- c(0.30, 0.50, 0.20)

# Função de simulação
simulacao_receita <- function() {
  sample(receitas, size = 1, prob = probabilidades, replace = TRUE)
}

# Simulação de Monte Carlo com 10.000 repetições

# fixa a semente para reprodutibilidade
set.seed(123)
simulacoes <- 10000
receitas_simuladas <- replicate(simulacoes, simulacao_receita())

# 1. Receita liquida esperada
receita_esperada <- mean(receitas_simuladas)
receita_esperada

[1] 168650

# 2. Probabilidade de receita positiva
prob_positiva <- mean(receitas_simuladas > 0)
prob_positiva

[1] 0.7006

# 3. Probabilidade de superar R$ 300.000
prob_300k <- mean(receitas_simuladas > 300000)
prob_300k

[1] 0.1949

Exercício 2

Gestão de Riscos Operacionais

Cenário: Uma transportadora precisa avaliar os custos extras mensais devido a problemas operacionais (acidentes, multas, manutenção não programada). Historicamente, os custos extras seguem este padrão:

Mês Tranquilo: Custo extra de R$ 5.000 (probabilidade 40%)
Mês Normal: Custo extra de R$ 15.000 (probabilidade 35%)
Mês Problemático: Custo extra de R$ 35.000 (probabilidade 20%)
Mês Crítico: Custo extra de R$ 60.000 (probabilidade 5%)

Perguntas:

Use simulação de Monte Carlo com 15.000 repetições para estimar o custo extra médio mensal.
Qual a probabilidade de os custos extras mensais excederem R$ 25.000?
Para fins de planejamento orçamentário, qual valor a empresa deveria reservar mensalmente para cobrir custos extras em 90% dos casos?

Solução do Exercício 2

# Definir cenários e probabilidades
custos_extras <- c(5000, 15000, 35000, 60000)
probabilidades <- c(0.40, 0.35, 0.20, 0.05)

# Função de simulação
simulacao_custos <- function() {
  sample(custos_extras, size = 1, prob = probabilidades, replace = TRUE)
}

# 1. Simulação de Monte Carlo com 15.000 repetições
set.seed(456)
simulacoes <- 15000
custos_simulados <- replicate(simulacoes, simulacao_custos())

# Custo extra médio mensal
custo_extra_medio <- mean(custos_simulados)
custo_extra_medio

[1] 17399.333

# Verificação teórica
custo_teorico <- sum(custos_extras * probabilidades)
custo_teorico

[1] 17250

# 2. Probabilidade de exceder R$ 25.000
prob_25k <- mean(custos_simulados > 25000)
prob_25k

[1] 0.25406667

# 3. Valor para cobertura de 90% dos casos
percentil_90 <- quantile(custos_simulados, 0.90)
percentil_90

  90% 
35000

Bibliografia Recomendada

Para Fundamentos de Probabilidade:

Devore (2006): Capítulos 2, 4 e 5.

Atualizando os Repositórios

Instruções

No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:

git status

Você pode adicionar todos os arquivos de uma vez com:

git add .

Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):

git status

Se tudo estiver em verde, faça um commit com uma mensagem descritiva:

git commit -m "atualizacoes aula 17"

Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:

git add relatorios/04-relatorio/04-relatorio.qmd

Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:

git commit -m "atualizacoes aula 17"

Envie o repositório local atualizado para o GitHub:

git push origin main

Referências

COHEN, J. Statistical Power Analysis for the Behavioral Sciences. 2nd. ed. Hillsdale, NJ: Lawrence Erlbaum Associates, 1988.

___. A Power Primer. Psychological Bulletin, v. 112, n. 1, p. 155–159, 1992.

DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006.

Nível de Confiança	\(\alpha\)	\(z_\alpha\)
95%	5%	\(-1.645\)
99%	1%	\(-2.326\)