[1] -0.560475647 -0.230177489 1.558708314 0.070508391 0.129287735
[1] 0.39894228
[1] 0.9750021
[1] 1.959964
Fundamentos de Probabilidade para Decisões - Parte 1
IFMG - Campus Formiga
23 de maio de 2025
O que vimos até hoje?
Aula 1 ✅
Aula 2 ✅
Metodologia CRISP-DM ✅
Tipos de Análise ✅
Configurações: Git/GitHub ✅
Aula 3 ✅
Introdução ao RStudio ✅
Aula 4 ✅
Introdução ao Git e GitHub ✅
Aula 5 ✅
Breve Revisão do IDE RStudio ✅
Introdução ao Sistema de Publicação Quarto ✅
Sessão Prática Guiada com Relatório 1 ✅
Aula 6 ✅
Parte I ✅
Parte II ✅
Aula 7 ✅
Introdução ao sistema Quarto (continuação) ✅
Introdução à Linguagem R (continuação) ✅
Aula 8 ✅
Início do estudo do pacote dplyr para manipulação de dados ✅
Aula 9 ✅
Aula 10 ✅
Aula 11 ✅
Aula 12 ✅
Aula 13 ✅
Aula 14 ✅
Aula 15 ✅
Tópicos
Fundamentos de Probabilidade para Decisões - Parte 1
Instruções
Abra o RStudio e o seu Projeto da Disciplina
Crie a subpasta 09-relatorio dentro da pasta relatorios.
Acesse o site da disciplina e baixe o arquivo 09-relatorio.zip
Descompacte o arquivo, copie/recorte o arquivo 09-relatorio.qmd
e cole dentro da subpasta 09-relatorio.
Diretrizes para Aulas Mais Produtivas
🔊 Mantenha conversas em volume baixo
⌨️ Código com método:
95% dos erros são evitáveis com:
🤝 Inteligência colaborativa:
💪 Capacidade de Resolver Problemas
Cada erro resolvido é uma evolução da sua habilidade analítica
A Distribuição Normal
Definição: Uma variável aleatória (VA) \(X\) que segue uma distribuição normal tem sua função de densidade de probabilidade dada por:
\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
Características principais:
Parâmetros (Momentos):
Notação: \(X \sim N(\mu, \sigma^2)\)
Padronização: Simplificando os Cálculos
Transformação: Para qualquer \(X \sim N(\mu, \sigma^2)\), podemos criar:
\[Z = \frac{X - \mu}{\sigma} \sim N(0, 1)\]
Função de densidade da Normal Padronizada: \[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}z^2} \]
Parâmetros:
Por que padronizar?
Efeito de Alterar \(E[X] = \mu\) (média)
Observação
Alterar a média desloca a distribuição horizontalmente sem mudar sua forma
Efeito de alterar \(\sigma^2\) (variância)
Observação
Maior variância = distribuição mais “dispersa” (maior incerteza)
Funções para a Distribuição Normal
Função | Resultado |
---|---|
rnorm(n, mean=0, sd=1) |
Simula n valores |
dnorm(x, mean = 0, sd = 1) |
Densidade f(x) no ponto x |
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE) |
\(P(X \leq q)\) |
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE) |
Quantil: \(\Phi^{-1}(p)\) |
Simulando \(X \sim N(\mu = 3, \sigma = 1)\)
Objetivo: Verificar empiricamente as propriedades da distribuição normal
Procedimento:
Lei dos Grandes Números em Ação
Com 1000 observações, a média amostral (≈3.02) está muito próxima da média teórica (3.0)
Simulando \(Z \sim N(0, 1)\)
Agora vamos simular a distribuição normal padronizada:
dnorm(0)
= \(f(0) = 0.4\)
Interpretação
dnorm(0) retorna o valor de \(f(x)\) no ponto \(x = 0\), não uma probabilidade!
Interpretação
pnorm(0) calcula: “Qual a probabilidade de Z ser menor ou igual a 0?”
Interpretação
pnorm(1) responde: “Qual a probabilidade de Z ser menor ou igual a 1?”
Interpretação
1 - pnorm(0) responde: “Qual a probabilidade de Z ser maior que 0?”
\[ \begin{align} P(-0.98 \leq Z \leq 0.14) &= P(Z \leq 0.14) - P(Z \leq -0.98) \\ &= F(0.14) - F(-0.98) \\ & = \text{pnorm}(0.14) - \text{pnorm}(-0.98) \\ & = 0.5557 - 0.1635 \\ & = 0.3922 \end{align} \]
Explicação
A probabilidade de Z estar entre -0.98 e 0.14 é a diferença entre as probabilidades acumuladas até esses pontos.
Interpretação
qnorm(0.5) calcula: “Qual quantil \(Z\) deixa 50% da distribuição à sua esquerda?” Ou seja, \(P(Z \leq q) = 0.5\).
Interpretação
qnorm(0.9) calcula: “Qual valor \(Z\) deixa 90% da probabilidade à sua esquerda?”
Além dos cálculos de probabilidade…
O score padronizado (z-score) tem aplicações importantes no dia a dia profissional:
\[z = \frac{x - \mu}{\sigma}\]
Por que é útil?
O z-score nos permite comparar valores que estão em escalas completamente diferentes, transformando-os em uma medida comum e interpretável.
Interpretação:
Comparando desempenho em escalas diferentes
Situações comuns:
Concursos públicos: Como comparar notas de Matemática (0-100) com Redação (0-10)?
Avaliação escolar: Como criar um ranking justo entre diferentes disciplinas?
Processos seletivos: Como ponderar adequadamente critérios diversos?
Solução: O z-score padroniza todas as medidas, permitindo comparação direta.
Exemplo:
Preparação e análise de dados
Principais usos:
Normalização de variáveis: Algoritmos como KNN, SVM e redes neurais são sensíveis à escala dos dados. O z-score coloca todas as variáveis na mesma escala.
Detecção de outliers: Valores com |z| > 2 (ou 3) são considerados atípicos e podem indicar:
Análise exploratória: Facilita a identificação de padrões e anomalias nos dados.
Exemplo em R:
Avaliação Relativa da Turma - 19 Alunos
Situação: Após uma avaliação, você deseja fornecer aos alunos uma análise do desempenho relativo de cada um em relação à turma.
Dados da avaliação:
Objetivo: Utilizar o score padronizado para:
Simula as notas de cada aluno
# Simulando notas de uma turma de 19 alunos
# Fixa a semente para reprodutibilidade
set.seed(2024)
# Simula notas com média 55 e desvio padrão 12
notas_turma <- round(rnorm(19, mean = 55, sd = 12))
# Limita as notas entre 38 e 85
notas_turma <- pmax(38, pmin(85, notas_turma))
# Visualiza as notas simuladas
head(notas_turma, 19)
[1] 67 61 54 52 69 71 61 53 40 42 38 61 65 59 38 53 44 60 38
Cálculo das Notas Relativas
# Cria a data frame analise_relativa
analise_relativa <- data.frame(alunos = 1:19, notas = notas_turma) %>%
# Calcula o z-score e nota relativa
mutate(
z_score = scale(notas), # calcula o z-score
z_score_arred = round(z_score, 1), # arredonda o z-score
nota_relativa = round(pnorm(z_score) * 100, 1) # percentil
) %>%
# Remove coluna intermediária
select(-z_score)
# Visualiza os dados
head(analise_relativa, 19)
alunos notas z_score_arred nota_relativa
1 1 67 1.2 87.9
2 2 61 0.6 73.5
3 3 54 0.0 50.0
4 4 52 -0.2 42.9
5 5 69 1.3 91.1
6 6 71 1.5 93.7
7 7 61 0.6 73.5
8 8 53 -0.1 46.4
9 9 40 -1.3 10.4
10 10 42 -1.1 14.0
11 11 38 -1.4 7.5
12 12 61 0.6 73.5
13 13 65 1.0 83.9
14 14 59 0.4 67.4
15 15 38 -1.4 7.5
16 16 53 -0.1 46.4
17 17 44 -0.9 18.4
18 18 60 0.5 70.5
19 19 38 -1.4 7.5
Como ler a tabela de análise relativa
Colunas da tabela:
Exemplos de interpretação:
Vantagem: A função pnorm()
converte automaticamente cada z-score no percentil correspondente
Exercício 1
Cenário: A distribuição dos retornos mensais de uma ação segue aproximadamente uma distribuição normal com média de 1% e desvio-padrão de 3% (\(R \sim N(\mu = 0.01, \sigma = 0.03)\)).
Qual a probabilidade de sofrer uma perda mensal superior a 4%? Ou seja, encontre \(P(R < -0.04)\).
Qual a probabilidade de obter um retorno positivo no próximo mês? Ou seja, encontre \(P(R > 0)\).
Qual a probabilidade de obter um retorno superior a 5%? Ou seja, encontre \(P(R > 0.05)\).
Exercício 2
Cenário: As vendas diárias de um produto seguem distribuição normal com média de R$ 12.000 e desvio-padrão de R$ 2.500 (\(V \sim N(\mu = 12000, \sigma = 2500)\)).
Qual a probabilidade de que em um dia as vendas excedam R$ 15.000? Ou seja, encontre \(P(V > 15000)\).
Para garantir estoque em 95% dos dias, qual deveria ser o valor mínimo de vendas para preparação? Encontre \(y\) tal que \(P(V < y) = 0.95\).
Qual o valor mínimo de vendas esperado com 90% de probabilidade? Encontre \(x\) tal que \(P(V > x) = 0.90\).
Descrevendo Distribuições Matematicamente
Para entender completamente uma distribuição, precisamos de várias medidas:
1. Medidas de tendência central: O “centro” da distribuição
2. Medidas de dispersão: A variabilidade dos dados
3. Medidas de forma: O formato da distribuição
Aplicação em finanças: Fundamentais para modelar retornos, precificar ativos e quantificar riscos
A “Média Ponderada pelas Probabilidades”
Definição intuitiva: O valor esperado é o resultado médio que obteríamos se repetíssemos um processo aleatório infinitas vezes
Analogia física: É o “centro de massa” da distribuição de probabilidade
Em termos práticos:
Notação: \(E[X]\), \(\mu_X\) ou simplesmente \(\mu\)
Aplicações principais:
Definição Matemática
Para uma VA Discreta: \[E[X] = \mu_X = \sum_{i} x_i \cdot P(X = x_i)\]
Para uma VA Contínua: \[E[X] = \mu_X = \int_{-\infty}^{\infty} x \cdot f(x) \, dx\]
Exemplo: Lançamento de um dado honesto
\[ \begin{align} E[X] &= \sum_{i=1}^{6} x_i \cdot P(X = x_i) \\ &= 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + ... + 6 \cdot \frac{1}{6}\\ &= \frac{1}{6}(1 + 2 + 3 + 4 + 5 + 6) \\ &= \frac{21}{6} = 3.5 \end{align} \]
Interpretação: Em média, esperamos obter 3.5 se lançarmos um dado muitas vezes.
Função sample()
em R
A função sample()
executa amostragem aleatória simples (AAS), útil em simulações e auditoria.
Exemplo: Auditoria de Faturas
Uma empresa emitiu 10.000 faturas. O auditor calculou que uma amostra de 20 é suficiente:
# Fixa a semente do gerador de números aleatórios
set.seed(123)
# Listagem da população de faturas
listagem_populacao <- 1:10000
# Extrai uma AAS com n = 20 da população, sem reposição
faturas_selecionadas <- sample(listagem_populacao, 20)
faturas_selecionadas
[1] 2463 2511 8718 2986 1842 9334 3371 4761 6746 9819 2757 5107 9145 9209 2888
[16] 6170 2567 9642 9982 2980
Resultado: O auditor deve examinar as faturas com os números mostrados acima.
Verificação empírica via simulação
# Definir o número de lançamentos
n_lancamentos <- 10000
# Simular os lançamentos do dado
set.seed(123) # Para reprodutibilidade
dado <- 1:6
resultados <- sample(dado, n_lancamentos, replace = TRUE)
# Calcular a média empírica após os lançamentos
media_empirica <- mean(resultados)
media_empirica
[1] 3.4697
Lei dos Grandes Números: À medida que aumentamos o número de lançamentos (AAS), a média empírica converge para o valor esperado teórico.
Exemplo 1: Análise de Investimento
Um investimento tem os seguintes retornos possíveis:
Cenário | Retorno | Probabilidade |
---|---|---|
Recessão | -5% | 20% |
Normal | 10% | 50% |
Expansão | 25% | 30% |
Cálculo do retorno esperado:
\[ \begin{aligned} E[R] &= (-5\%) \times 0.2 + 10\% \times 0.5 + 25\% \times 0.3 \\ &= -1\% + 5\% + 7.5\% \\ &= 11.5\% \end{aligned} \]
Interpretação: O retorno médio esperado deste investimento é 11.5% ao ano.
Exemplo 2: Retorno Esperado de Investimento
Uma empresa analisa um investimento com os seguintes cenários:
Cenário | Retorno (R$) | Probabilidade |
---|---|---|
Pessimista | -50.000 | 0.2 |
Moderado | 100.000 | 0.5 |
Otimista | 300.000 | 0.3 |
Cálculo do Valor Esperado: \[ \begin{align} E[X] &= -50.000 \times 0.2 + 100.000 \times 0.5 + 300.000 \times 0.3 \\ &= -10.000 + 50.000 + 90.000 \\ &= 130.000 \end{align} \]
Decisão: Com retorno esperado de R$ 130.000, o projeto parece atrativo.
# Definir os dados do investimento
retornos <- c(-50000, 100000, 300000)
probabilidades <- c(0.2, 0.5, 0.3)
# Cálculo teórico do valor esperado
valor_esperado <- sum(retornos * probabilidades)
valor_esperado
[1] 130000
# Simulação para verificação
set.seed(123)
n_simulacoes <- 10000
# Simular investimentos
indices <- sample(1:3, n_simulacoes, prob = probabilidades, replace = TRUE)
retornos_simulados <- retornos[indices]
# Média empírica
media_empirica <- mean(retornos_simulados)
media_empirica
[1] 130645
retornos_simulados
-50000 100000 300000
0.1949 0.5057 0.2994
Como funciona a simulação?
Objetivo: Reproduzir virtualmente o investimento milhares de vezes
Processo passo a passo:
Preparação: Definimos retornos possíveis e suas probabilidades
Sorteio de índices:
sample(1:3, ...)
sorteia posições no vetor de retornosAcesso aos valores: retornos[indices]
converte índices em valores
Lei dos Grandes Números: Com 10.000 simulações, a média converge para o valor esperado teórico
Importância: Permite “experimentar” o investimento virtualmente e observar não apenas a média, mas toda a distribuição de resultados possíveis.
Como as seguradoras precificam apólices?
Exemplo: Seguro de Automóvel
Dados históricos da seguradora:
Passo 1: Calcular o valor esperado de indenizações
\[E[X] = P(\text{sinistro}) \times \text{Indenização média}\] \[E[X] = 0.02 \times 20.000 = R\$ 400\]
Passo 2: Adicionar margem para custos e lucro (20%)
\[\text{Prêmio} = E[X] \times (1 + \text{margem})\] \[\text{Prêmio} = 400 \times 1.20 = R\$ 480\]
Conclusão: A seguradora deve cobrar R$ 480/ano por apólice
Por que o modelo de seguros funciona?
Lei dos Grandes Números (LGN):
\[\lim_{n \to \infty} P(|\bar{X}_n - \mu| < \epsilon) = 1\]
Implicações práticas:
Previsibilidade com escala:
Princípio da mutualidade:
Consequências para o negócio:
Limitação: Eventos catastróficos (pandemias, desastres naturais) violam a independência
Exercício Guiado
Contexto: Seguradora oferece proteção contra incêndios residenciais
Dados históricos:
Perguntas:
Resolução passo a passo
# Definir os parâmetros
prob_incendio <- 0.01
valor_indenizacao <- 150000
margem <- 0.25
# a) Valor esperado das indenizações
valor_esperado <- prob_incendio * valor_indenizacao
valor_esperado
[1] 1500
[1] 1875
# c) Simulação para verificar
set.seed(123)
n_casas <- 10000
sinistros <- sample(c(0, valor_indenizacao), n_casas,
prob = c(0.99, 0.01), replace = TRUE)
# Calcula a média dos sinistros
media_sinistros <- mean(sinistros)
media_sinistros
[1] 1515
[1] 101
Propriedades Matemáticas Fundamentais
1. Linearidade: \(E[aX + bY] = aE[X] + bE[Y]\)
Exemplo - Portfólio de Investimentos:
\[E[R_{portfolio}] = 0.3 \times 12\% + 0.7 \times 5\% = 7.1\%\]
2. Valor esperado de constante: \(E[c] = c\)
3. Independência: Se X e Y independentes, \(E[XY] = E[X] \cdot E[Y]\)
4. Função não-linear: \(E[g(X)] \neq g(E[X])\) em geral
Aplicação: Estas propriedades simplificam cálculos complexos em finanças
Por que o valor esperado não é suficiente?
Problema: Investimentos com mesmo valor esperado
Investimento A:
Investimento B:
Mesma média, riscos diferentes!
Outras limitações:
Solução: Precisamos de medidas de dispersão/variabilidade (próxima aula)
Limitação do Valor Esperado
Problema: O valor esperado ignora como avaliamos ganhos e perdas
Princípio da Utilidade Marginal Decrescente:
Exemplo prático com os Investimentos A e B:
Consequência: Investidores racionais podem preferir menor valor esperado se houver menor risco, especialmente quando as perdas potenciais são significativas em relação ao patrimônio total.
Implicação: O valor esperado deve ser complementado com análise de risco e consideração da situação financeira individual.
Análise Comparativa de Projetos
Situação: Sua empresa deve escolher entre dois projetos de investimento:
Projeto A (Conservador):
Projeto B (Arriscado):
Tarefas:
Instruções
Prof. Washington Silva - Introdução à Ciência de Dados