Introdução à Ciência de Dados

Fundamentos de Probabilidade para Decisões - Parte 1

Prof. Washington Santos da Silva

IFMG - Campus Formiga

23 de maio de 2025

Diário de Bordo

O que vimos até hoje?

Aula 1 ✅
- Introdução e Contextualização ✅
- O que é Ciência de Dados? ✅
- Papéis Profissionais na Área de Dados ✅
- Áreas de Aplicações ✅
- Habilidades Interpessoais e Analíticas ✅
- Apresentação da Disciplina ✅
Aula 2 ✅
- Metodologia CRISP-DM ✅
- Tipos de Análise ✅
  - Descritiva ✅
  - Diagnóstica ✅
  - Preditiva ✅
  - Prescritiva ✅
- Configurações: Git/GitHub ✅
Aula 3 ✅
- Introdução ao RStudio ✅
  - Criação do seu Projeto RStudio da Disciplina ✅
Aula 4 ✅
- Introdução ao Git e GitHub ✅
  - Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
Aula 5 ✅
- Breve Revisão do IDE RStudio ✅
- Introdução ao Sistema de Publicação Quarto ✅
- Sessão Prática Guiada com Relatório 1 ✅
  - Execução dos comandos git essenciais ✅
Aula 6 ✅
- Parte I ✅
  - O Relatório Junglivet e a Metodologia CRISP-DM ✅
  - Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
- Parte II ✅
  - Para alunos com projetos estruturados ✅
  - Atividade prática ✅
  - Para alunos com dificuldades técnicas ✅
  - Atendimento individualizado para estruturação de projetos ✅
Aula 7 ✅
- Introdução ao sistema Quarto (continuação) ✅
  - Gerar relatório no formato pdf ✅
  - Gerar relatório no formato docx ✅
- Introdução à Linguagem R (continuação) ✅
  - Conceitos: Variáveis e observações ✅
  - Estrutura tabular organizada de dados ✅
  - Tipos e classes de dados principais em R ✅
  - Estruturas de dados: vetores e data frames ✅
Aula 8 ✅
- Início do estudo do pacote dplyr para manipulação de dados ✅
  - CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
    de um projeto de análise ou ciência de dados ✅
  - O que é o dplyr? ✅
  - A Filosofia Tidy Data (Dados Organizados) ✅
  - Dados Organizados (Tidy Data) ✅
  - Por que usar o dplyr? ✅
  - Fluxo de trabalho com dplyr ✅
  - Boas Práticas com dplyr ✅
  - Função dplyr::select() ✅
  - Função dplyr::filter() ✅
Aula 9 ✅
- Solução dos exercícios práticos sobre as funções select e filter ✅
- Função dplyr::mutate() ✅
Aula 10 ✅
- Soluções dos exercícios práticos sobre a função mutate ✅
- funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
Aula 11 ✅
- Metodologia CRISP-DM e Pacote dplyr ✅
- Revisão sobre Dados Organizados (Tidy Data) ✅
- Exemplos de Dados Desorganizados Comuns em Administração ✅
- Pacote tidyr: Função pivot_longer ✅
Aula 12 ✅
- Metodologia CRISP-DM e o tidyverse ✅
- Dados Organizados: Potencializando Análises ✅
Aula 13 ✅
- Avaliação 1 ✅
Aula 14 ✅
- Tipos Básicos de joins do pacote dplyr ✅
Aula 15 ✅
- Variáveis Aleatórias em Finanças
- Distribuições de Probabilidade
- Início: Distribuição Normal (ou Gaussiana)

Nesta Aula

Tópicos

Fundamentos de Probabilidade para Decisões - Parte 1
- Distribuição Normal (ou Gaussiana)
- Características da Distribuição de uma VA
  - Valor Esperado (Média)

Arquivo para esta Aula (16)

Instruções

Abra o RStudio e o seu Projeto da Disciplina
Crie a subpasta 09-relatorio dentro da pasta relatorios.
Acesse o site da disciplina e baixe o arquivo 09-relatorio.zip
Descompacte o arquivo, copie/recorte o arquivo 09-relatorio.qmd e cole dentro da subpasta 09-relatorio.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

Atenção na digitação
Respeitar a sequência lógica de etapas
Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

Compartilhe conhecimento
Resolva questões técnicas simples com colegas próximos
Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Incerteza e Probabilidade

Distribuição Normal

Função de Densidade de Probabilidade

A Distribuição Normal

Definição: Uma variável aleatória (VA) $X$ que segue uma distribuição normal tem sua função de densidade de probabilidade dada por:

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

Características principais:

A função é simétrica em torno da média $\mu$
O valor máximo ocorre em $x = \mu$
A área total sob a curva é igual a 1 (100% de probabilidade)

Parâmetros (Momentos):

Valor Esperado (Média): $E[X] = \mu$
Variância: $V[X] = \sigma^2$
Desvio-padrão: $\sigma$

Notação: $X \sim N(\mu, \sigma^2)$

Função de Densidade Normal

Distribuição Normal Padronizada

Padronização: Simplificando os Cálculos

Transformação: Para qualquer $X \sim N(\mu, \sigma^2)$, podemos criar:

\[Z = \frac{X - \mu}{\sigma} \sim N(0, 1)\]

Função de densidade da Normal Padronizada: \[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}z^2} \]

Parâmetros:

Média: $E[Z] = 0$
Variância: $V[Z] = 1$
Desvio-padrão: $\sigma = 1$

Por que padronizar?

Facilita cálculos e comparações
Permite usar tabelas estatísticas padrão
Base para o conceito de z-score

Distribuição Normal Padronizada

Distribuição Normal: Efeito da Média

Efeito de Alterar $E[X] = \mu$ (média)

Observação

Alterar a média desloca a distribuição horizontalmente sem mudar sua forma

Distribuição Normal: Efeito da Variância

Efeito de alterar $\sigma^2$ (variância)

Observação

Maior variância = distribuição mais “dispersa” (maior incerteza)

Funções R para Distribuição Normal

A Distribuição Normal em R

Funções para a Distribuição Normal

Função	Resultado
`rnorm(n, mean=0, sd=1)`	Simula n valores
`dnorm(x, mean = 0, sd = 1)`	Densidade f(x) no ponto x
`pnorm(q, mean = 0, sd = 1, lower.tail = TRUE)`	$P(X \leq q)$
`qnorm(p, mean = 0, sd = 1, lower.tail = TRUE)`	Quantil: $\Phi^{-1}(p)$

Exemplos:

# Simular 5 valores de uma distr. normal padrão
set.seed(123)
rnorm(5)

[1] -0.560475647 -0.230177489  1.558708314  0.070508391  0.129287735

# f(0) - densidade no ponto 0
dnorm(0)

[1] 0.39894228

# P(Z ≤ 1.96)
pnorm(1.96)

[1] 0.9750021

# Encontra z tal que P(Z ≤ z) = 0.975
qnorm(0.975)

[1] 1.959964

Função rnorm()

Simulação de uma VA com Distribuição Normal

Simulando $X \sim N(\mu = 3, \sigma = 1)$

Objetivo: Verificar empiricamente as propriedades da distribuição normal

Procedimento:

Gerar 1000 observações de $X \sim N(3, 1)$
Calcular média e desvio-padrão amostrais
Visualizar com histograma e densidade empírica

set.seed(123)
x_simulada <- rnorm(1000, mean = 3, sd = 1)
head(x_simulada)

[1] 2.4395244 2.7698225 4.5587083 3.0705084 3.1292877 4.7150650

# Média e desvio padrão amostrais
mean(x_simulada)

[1] 3.0161279

sd(x_simulada)

[1] 0.99169498

Visualização dos Dados Simulados

Lei dos Grandes Números em Ação

Com 1000 observações, a média amostral (≈3.02) está muito próxima da média teórica (3.0)

Simulação de uma VA com Distribuição Normal Padronizada

Simulando $Z \sim N(0, 1)$

Agora vamos simular a distribuição normal padronizada:

set.seed(123)
z_simulada <- rnorm(1000, mean = 0, sd = 1)
head(z_simulada)

[1] -0.560475647 -0.230177489  1.558708314  0.070508391  0.129287735
[6]  1.715064987

# Média e desvio padrão amostrais
mean(z_simulada)

[1] 0.016127866

sd(z_simulada)

[1] 0.99169498

Visualização da Normal Padronizada

Função dnorm()

`dnorm(0)` = $f(0) = 0.4$

Interpretação

dnorm(0) retorna o valor de $f(x)$ no ponto $x = 0$, não uma probabilidade!

Função pnorm()

pnorm(0) = $P(Z \leq 0) = 0.5$

Interpretação

pnorm(0) calcula: “Qual a probabilidade de Z ser menor ou igual a 0?”

pnorm(1) = $P(Z \leq 1) = 0.84$

Interpretação

pnorm(1) responde: “Qual a probabilidade de Z ser menor ou igual a 1?”

1 - pnorm(0) = $P(Z > 0) = 0.5$

Interpretação

1 - pnorm(0) responde: “Qual a probabilidade de Z ser maior que 0?”

Caso Comum: Probabilidade entre Dois Valores

\[ \begin{align} P(-0.98 \leq Z \leq 0.14) &= P(Z \leq 0.14) - P(Z \leq -0.98) \\ &= F(0.14) - F(-0.98) \\ & = \text{pnorm}(0.14) - \text{pnorm}(-0.98) \\ & = 0.5557 - 0.1635 \\ & = 0.3922 \end{align} \]

Explicação

A probabilidade de Z estar entre -0.98 e 0.14 é a diferença entre as probabilidades acumuladas até esses pontos.

Função qnorm()

qnorm(0.5) = $\Phi^{-1}(0.5) = 0$

Interpretação

qnorm(0.5) calcula: “Qual quantil $Z$ deixa 50% da distribuição à sua esquerda?” Ou seja, $P(Z \leq q) = 0.5$.

qnorm(0.9) = $\Phi^{-1}(0.9) = 1.28$

Interpretação

qnorm(0.9) calcula: “Qual valor $Z$ deixa 90% da probabilidade à sua esquerda?”

Score Padronizado (Z-Score)

Voltando ao Score Padronizado

Além dos cálculos de probabilidade…

O score padronizado (z-score) tem aplicações importantes no dia a dia profissional:

\[z = \frac{x - \mu}{\sigma}\]

Por que é útil?

O z-score nos permite comparar valores que estão em escalas completamente diferentes, transformando-os em uma medida comum e interpretável.

Interpretação:

$z = 0$: valor igual à média
$z = 1$: valor 1 desvio-padrão acima da média
$z = -2$: valor 2 desvios-padrão abaixo da média

Aplicação 1: Sistemas de Avaliação

Comparando desempenho em escalas diferentes

Situações comuns:

Concursos públicos: Como comparar notas de Matemática (0-100) com Redação (0-10)?
Avaliação escolar: Como criar um ranking justo entre diferentes disciplinas?
Processos seletivos: Como ponderar adequadamente critérios diversos?

Solução: O z-score padroniza todas as medidas, permitindo comparação direta.

Exemplo:

João: 80 em Matemática (média=70, dp=10) → z = 1.0
João: 8 em Redação (média=6, dp=1) → z = 2.0
Conclusão: João teve melhor desempenho relativo em Redação

Aplicação 2: Ciência de Dados e Machine Learning

Preparação e análise de dados

Principais usos:

Normalização de variáveis: Algoritmos como KNN, SVM e redes neurais são sensíveis à escala dos dados. O z-score coloca todas as variáveis na mesma escala.
Detecção de outliers: Valores com |z| > 2 (ou 3) são considerados atípicos e podem indicar:
- Erros de digitação
- Observações genuinamente extremas
- Insights importantes sobre o processo
Análise exploratória: Facilita a identificação de padrões e anomalias nos dados.

Exemplo em R:

# Detectar outliers usando z-score
dados <- c(10, 12, 13, 11, 14, 45, 12, 11)
z_scores <- scale(dados)
outliers <- abs(z_scores) > 2
dados[outliers]

[1] 45

Exemplo - Análise de Notas

Avaliação Relativa da Turma - 19 Alunos

Situação: Após uma avaliação, você deseja fornecer aos alunos uma análise do desempenho relativo de cada um em relação à turma.

Dados da avaliação:

Média da turma: 55 pontos (de 100)
Desvio padrão: 12 pontos
Amplitude: notas de 38 a 85 pontos

Objetivo: Utilizar o score padronizado para:

Mostrar a posição relativa de cada aluno
Calcular o percentil de cada aluno
Facilitar a interpretação do desempenho individual

Avaliação Relativa da Turma

Simula as notas de cada aluno

# Simulando notas de uma turma de 19 alunos
# Fixa a semente para reprodutibilidade
set.seed(2024)

# Simula notas com média 55 e desvio padrão 12
notas_turma <- round(rnorm(19, mean = 55, sd = 12))

# Limita as notas entre 38 e 85
notas_turma <- pmax(38, pmin(85, notas_turma)) 

# Visualiza as notas simuladas
head(notas_turma, 19)

 [1] 67 61 54 52 69 71 61 53 40 42 38 61 65 59 38 53 44 60 38

Avaliação Relativa da Turma

Cálculo das Notas Relativas

# Cria a data frame analise_relativa
analise_relativa <- data.frame(alunos = 1:19, notas = notas_turma) %>%
  # Calcula o z-score e nota relativa
  mutate(
    z_score = scale(notas),              # calcula o z-score
    z_score_arred = round(z_score, 1),   # arredonda o z-score
    nota_relativa = round(pnorm(z_score) * 100, 1)  # percentil
  ) %>%
  # Remove coluna intermediária
  select(-z_score)
  
# Visualiza os dados
head(analise_relativa, 19)

   alunos notas z_score_arred nota_relativa
1       1    67           1.2          87.9
2       2    61           0.6          73.5
3       3    54           0.0          50.0
4       4    52          -0.2          42.9
5       5    69           1.3          91.1
6       6    71           1.5          93.7
7       7    61           0.6          73.5
8       8    53          -0.1          46.4
9       9    40          -1.3          10.4
10     10    42          -1.1          14.0
11     11    38          -1.4           7.5
12     12    61           0.6          73.5
13     13    65           1.0          83.9
14     14    59           0.4          67.4
15     15    38          -1.4           7.5
16     16    53          -0.1          46.4
17     17    44          -0.9          18.4
18     18    60           0.5          70.5
19     19    38          -1.4           7.5

Interpretação dos Resultados

Como ler a tabela de análise relativa

Colunas da tabela:

notas: Nota original do aluno (0-100)
z_score_arred: Quantos desvios-padrão acima/abaixo da média
- Valores negativos: abaixo da média da turma
- Valores positivos: acima da média da turma
nota_relativa: Percentil do aluno na turma (0-100)
- Interpretação: “Este aluno superou X% dos colegas”

Exemplos de interpretação:

Aluno 6 (nota 71): z = 1.5, percentil 93.7
- Está 1.5 desvios-padrão acima da média
- Nota superior a 93.7% das notas da turma
Aluno 11 (nota 38): z = -1.4, percentil 7.5
- Está 1.4 desvios-padrão abaixo da média
- Apenas 7.5% dos colegas tiveram nota inferior

Vantagem: A função pnorm() converte automaticamente cada z-score no percentil correspondente

Exercício: Análise de Investimentos

Exercício 1

Cenário: A distribuição dos retornos mensais de uma ação segue aproximadamente uma distribuição normal com média de 1% e desvio-padrão de 3% ($R \sim N(\mu = 0.01, \sigma = 0.03)$).

Qual a probabilidade de sofrer uma perda mensal superior a 4%? Ou seja, encontre $P(R < -0.04)$.
Qual a probabilidade de obter um retorno positivo no próximo mês? Ou seja, encontre $P(R > 0)$.
Qual a probabilidade de obter um retorno superior a 5%? Ou seja, encontre $P(R > 0.05)$.

Exercício: Vendas e Previsão

Exercício 2

Cenário: As vendas diárias de um produto seguem distribuição normal com média de R$ 12.000 e desvio-padrão de R$ 2.500 ($V \sim N(\mu = 12000, \sigma = 2500)$).

Qual a probabilidade de que em um dia as vendas excedam R$ 15.000? Ou seja, encontre $P(V > 15000)$.
Para garantir estoque em 95% dos dias, qual deveria ser o valor mínimo de vendas para preparação? Encontre $y$ tal que $P(V < y) = 0.95$.
Qual o valor mínimo de vendas esperado com 90% de probabilidade? Encontre $x$ tal que $P(V > x) = 0.90$.

Valor Esperado

Características das Distribuições

Descrevendo Distribuições Matematicamente

Para entender completamente uma distribuição, precisamos de várias medidas:

1. Medidas de tendência central: O “centro” da distribuição

Valor esperado (média) - foco de hoje
Mediana e quartis

2. Medidas de dispersão: A variabilidade dos dados

Variância e desvio-padrão (próxima aula)

3. Medidas de forma: O formato da distribuição

Assimetria (skewness)
Curtose (kurtosis)

Aplicação em finanças: Fundamentais para modelar retornos, precificar ativos e quantificar riscos

Valor Esperado: Conceito Intuitivo

A “Média Ponderada pelas Probabilidades”

Definição intuitiva: O valor esperado é o resultado médio que obteríamos se repetíssemos um processo aleatório infinitas vezes

Analogia física: É o “centro de massa” da distribuição de probabilidade

Em termos práticos:

Em jogos: o ganho/perda médio por jogada a longo prazo
Em investimentos: o retorno médio esperado
Em seguros: o valor médio de sinistros

Notação: $E[X]$, $\mu_X$ ou simplesmente $\mu$

Aplicações principais:

Base para tomada de decisão racional
Precificação justa de ativos e contratos
Avaliação de projetos e investimentos

Valor Esperado: Definição Formal

Definição Matemática

Para uma VA Discreta: \[E[X] = \mu_X = \sum_{i} x_i \cdot P(X = x_i)\]

Para uma VA Contínua: \[E[X] = \mu_X = \int_{-\infty}^{\infty} x \cdot f(x) \, dx\]

Exemplo: Lançamento de um dado honesto

\[ \begin{align} E[X] &= \sum_{i=1}^{6} x_i \cdot P(X = x_i) \\ &= 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + ... + 6 \cdot \frac{1}{6}\\ &= \frac{1}{6}(1 + 2 + 3 + 4 + 5 + 6) \\ &= \frac{21}{6} = 3.5 \end{align} \]

Interpretação: Em média, esperamos obter 3.5 se lançarmos um dado muitas vezes.

Amostra Aleatória Simples

Função sample() em R

A função sample() executa amostragem aleatória simples (AAS), útil em simulações e auditoria.

Exemplo: Auditoria de Faturas

Uma empresa emitiu 10.000 faturas. O auditor calculou que uma amostra de 20 é suficiente:

# Fixa a semente do gerador de números aleatórios
set.seed(123)

# Listagem da população de faturas
listagem_populacao <- 1:10000

# Extrai uma AAS com n = 20 da população, sem reposição
faturas_selecionadas <- sample(listagem_populacao, 20)
faturas_selecionadas

 [1] 2463 2511 8718 2986 1842 9334 3371 4761 6746 9819 2757 5107 9145 9209 2888
[16] 6170 2567 9642 9982 2980

Resultado: O auditor deve examinar as faturas com os números mostrados acima.

Valor Esperado: Simulação em R

Verificação empírica via simulação

# Definir o número de lançamentos
n_lancamentos <- 10000

# Simular os lançamentos do dado
set.seed(123)  # Para reprodutibilidade
dado <- 1:6
resultados <- sample(dado, n_lancamentos, replace = TRUE)

# Calcular a média empírica após os lançamentos
media_empirica <- mean(resultados)
media_empirica

[1] 3.4697

Lei dos Grandes Números: À medida que aumentamos o número de lançamentos (AAS), a média empírica converge para o valor esperado teórico.

Valor Esperado em Finanças

Exemplo 1: Análise de Investimento

Um investimento tem os seguintes retornos possíveis:

Cenário	Retorno	Probabilidade
Recessão	-5%	20%
Normal	10%	50%
Expansão	25%	30%

Cálculo do retorno esperado:

\[ \begin{aligned} E[R] &= (-5\%) \times 0.2 + 10\% \times 0.5 + 25\% \times 0.3 \\ &= -1\% + 5\% + 7.5\% \\ &= 11.5\% \end{aligned} \]

Interpretação: O retorno médio esperado deste investimento é 11.5% ao ano.

Valor Esperado em Finanças

Exemplo 2: Retorno Esperado de Investimento

Uma empresa analisa um investimento com os seguintes cenários:

Cenário	Retorno (R$)	Probabilidade
Pessimista	-50.000	0.2
Moderado	100.000	0.5
Otimista	300.000	0.3

Cálculo do Valor Esperado: \[ \begin{align} E[X] &= -50.000 \times 0.2 + 100.000 \times 0.5 + 300.000 \times 0.3 \\ &= -10.000 + 50.000 + 90.000 \\ &= 130.000 \end{align} \]

Decisão: Com retorno esperado de R$ 130.000, o projeto parece atrativo.

Implementação e Simulação

# Definir os dados do investimento
retornos <- c(-50000, 100000, 300000)
probabilidades <- c(0.2, 0.5, 0.3)

# Cálculo teórico do valor esperado
valor_esperado <- sum(retornos * probabilidades)
valor_esperado

[1] 130000

# Simulação para verificação
set.seed(123)
n_simulacoes <- 10000

# Simular investimentos
indices <- sample(1:3, n_simulacoes, prob = probabilidades, replace = TRUE)
retornos_simulados <- retornos[indices]

# Média empírica
media_empirica <- mean(retornos_simulados)
media_empirica

[1] 130645

# Visualiza distribuição dos resultados
table(retornos_simulados) / n_simulacoes

retornos_simulados
-50000 100000 300000 
0.1949 0.5057 0.2994

Explicação da Simulação

Como funciona a simulação?

Objetivo: Reproduzir virtualmente o investimento milhares de vezes

Processo passo a passo:

Preparação: Definimos retornos possíveis e suas probabilidades
Sorteio de índices:
- sample(1:3, ...) sorteia posições no vetor de retornos
- Índice 1 (20% chance) → Retorno de -50.000
- Índice 2 (50% chance) → Retorno de 100.000
- Índice 3 (30% chance) → Retorno de 300.000
Acesso aos valores: retornos[indices] converte índices em valores
Lei dos Grandes Números: Com 10.000 simulações, a média converge para o valor esperado teórico

Importância: Permite “experimentar” o investimento virtualmente e observar não apenas a média, mas toda a distribuição de resultados possíveis.

Aplicações do Valor Esperado

Aplicação: Mercado de Seguros

Como as seguradoras precificam apólices?

Exemplo: Seguro de Automóvel

Dados históricos da seguradora:

Probabilidade de sinistro por ano: 2% (0.02)
Indenização média por sinistro: R$ 20.000

Passo 1: Calcular o valor esperado de indenizações

\[E[X] = P(\text{sinistro}) \times \text{Indenização média}\] \[E[X] = 0.02 \times 20.000 = R\$ 400\]

Passo 2: Adicionar margem para custos e lucro (20%)

\[\text{Prêmio} = E[X] \times (1 + \text{margem})\] \[\text{Prêmio} = 400 \times 1.20 = R\$ 480\]

Conclusão: A seguradora deve cobrar R$ 480/ano por apólice

Lei dos Grandes Números em Seguros

Por que o modelo de seguros funciona?

Lei dos Grandes Números (LGN):

\[\lim_{n \to \infty} P(|\bar{X}_n - \mu| < \epsilon) = 1\]

Implicações práticas:

Previsibilidade com escala:
- 100 segurados: alta variabilidade
- 10.000 segurados: resultados previsíveis
- 1.000.000 segurados: convergência quase perfeita
Princípio da mutualidade:
- O prejuízo de poucos é diluído entre muitos
- Funciona porque a média converge para o valor esperado
Consequências para o negócio:
- Seguradoras pequenas = prêmios maiores (maior incerteza)
- Necessidade de resseguros para eventos extremos
- Diversificação geográfica e por tipo de risco

Limitação: Eventos catastróficos (pandemias, desastres naturais) violam a independência

Exemplo Prático: Seguro Residencial

Exercício Guiado

Contexto: Seguradora oferece proteção contra incêndios residenciais

Dados históricos:

Probabilidade anual de incêndio de uma casa: 1% (0.01)
Indenização média por incêndio: R$ 150.000
Margem desejada: 25%

Perguntas:

Calcule o valor esperado de indenizações por residência
Determine o prêmio anual a ser cobrado
Implemente a solução em R

Solução: Seguro Residencial

Resolução passo a passo

# Definir os parâmetros
prob_incendio <- 0.01
valor_indenizacao <- 150000
margem <- 0.25

# a) Valor esperado das indenizações
valor_esperado <- prob_incendio * valor_indenizacao
valor_esperado

[1] 1500

# b) Prêmio anual com margem
premio_anual <- valor_esperado * (1 + margem)
premio_anual

[1] 1875

# c) Simulação para verificar
set.seed(123)
n_casas <- 10000
sinistros <- sample(c(0, valor_indenizacao), n_casas, 
                   prob = c(0.99, 0.01), replace = TRUE)

# Calcula a média dos sinistros
media_sinistros <- mean(sinistros)
media_sinistros

[1] 1515

# Calcula o número de incêndios
num_incendios <- sum(sinistros > 0)
num_incendios

[1] 101

Propriedades do Valor Esperado

Propriedades Matemáticas Fundamentais

1. Linearidade: $E[aX + bY] = aE[X] + bE[Y]$

Exemplo - Portfólio de Investimentos:

30% em ações (retorno esperado: 12%)
70% em renda fixa (retorno esperado: 5%)

\[E[R_{portfolio}] = 0.3 \times 12\% + 0.7 \times 5\% = 7.1\%\]

2. Valor esperado de constante: $E[c] = c$

3. Independência: Se X e Y independentes, $E[XY] = E[X] \cdot E[Y]$

4. Função não-linear: $E[g(X)] \neq g(E[X])$ em geral

Aplicação: Estas propriedades simplificam cálculos complexos em finanças

Limitações do Valor Esperado

Por que o valor esperado não é suficiente?

Problema: Investimentos com mesmo valor esperado

Investimento A:

50% chance: ganhar R$ 100
50% chance: ganhar R$ 0
$E[A] = R\$ 50$

Investimento B:

50% chance: ganhar R$ 200
50% chance: perder R$ 100
$E[B] = R\$ 50$

Mesma média, riscos diferentes!

Outras limitações:

Ignora eventos extremos (caudas)
Utilidade marginal decrescente

Solução: Precisamos de medidas de dispersão/variabilidade (próxima aula)

Utilidade Marginal Decrescente

Limitação do Valor Esperado

Problema: O valor esperado ignora como avaliamos ganhos e perdas

Princípio da Utilidade Marginal Decrescente:

Cada real adicional gera menor satisfação que o anterior
Perder R$ 100 causa mais “dor” que o “prazer” de ganhar R$ 100
O impacto psicológico não é linear

Exemplo prático com os Investimentos A e B:

Investimento A: Máxima perda = R$ 0 (sem risco real)
Investimento B: Máxima perda = R$ 100 (risco significativo)
Para alguém com R$ 1.000 de patrimônio, perder R$ 100 é muito mais impactante que para alguém com R$ 100.000

Consequência: Investidores racionais podem preferir menor valor esperado se houver menor risco, especialmente quando as perdas potenciais são significativas em relação ao patrimônio total.

Implicação: O valor esperado deve ser complementado com análise de risco e consideração da situação financeira individual.

Exercício Final

Análise Comparativa de Projetos

Situação: Sua empresa deve escolher entre dois projetos de investimento:

Projeto A (Conservador):

Investimento: R$ 200.000
Retornos possíveis:
- Baixo: R$ 220.000 (prob. 0.3)
- Médio: R$ 280.000 (prob. 0.4)
- Alto: R$ 320.000 (prob. 0.3)

Projeto B (Arriscado):

Investimento: R$ 200.000
Retornos possíveis:
- Baixo: R$ 180.000 (prob. 0.2)
- Médio: R$ 260.000 (prob. 0.5)
- Alto: R$ 400.000 (prob. 0.3)

Tarefas:

Calcule o lucro esperado de cada projeto
Qual projeto escolheria baseado apenas no valor esperado?
Que informações adicionais seriam úteis para decidir?

Atualizando os Repositórios

Instruções

No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:

git status

Você pode adicionar todos os arquivos de uma vez com:

git add .

Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):

git status

Se tudo estiver em verde, faça um commit com uma mensagem descritiva:

git commit -m "atualizacoes aula 16"

Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:

git add relatorios/04-relatorio/04-relatorio.qmd

Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:

git commit -m "atualizacoes aula 16"

Envie o repositório local atualizado para o GitHub:

git push origin main

Introdução à Ciência de Dados

Diário de Bordo

Nesta Aula

Arquivo para esta Aula (16)

Incerteza e Probabilidade

Distribuição Normal

Função de Densidade de Probabilidade

Função de Densidade Normal

Distribuição Normal Padronizada

Distribuição Normal Padronizada

Distribuição Normal: Efeito da Média

Distribuição Normal: Efeito da Variância

Funções R para Distribuição Normal

A Distribuição Normal em R

Exemplos:

Função rnorm()

Simulação de uma VA com Distribuição Normal

Visualização dos Dados Simulados

Simulação de uma VA com Distribuição Normal Padronizada

Visualização da Normal Padronizada

Função dnorm()

dnorm(0) = \(f(0) = 0.4\)

Função pnorm()

pnorm(0) = \(P(Z \leq 0) = 0.5\)

pnorm(1) = \(P(Z \leq 1) = 0.84\)

1 - pnorm(0) = \(P(Z > 0) = 0.5\)

Caso Comum: Probabilidade entre Dois Valores

Função qnorm()

qnorm(0.5) = \(\Phi^{-1}(0.5) = 0\)

qnorm(0.9) = \(\Phi^{-1}(0.9) = 1.28\)

Score Padronizado (Z-Score)

Voltando ao Score Padronizado

Aplicação 1: Sistemas de Avaliação

Aplicação 2: Ciência de Dados e Machine Learning

Exemplo - Análise de Notas

Avaliação Relativa da Turma

Avaliação Relativa da Turma

Interpretação dos Resultados

Exercício: Análise de Investimentos

Exercício: Vendas e Previsão

Valor Esperado

Características das Distribuições

Valor Esperado: Conceito Intuitivo

Valor Esperado: Definição Formal

Amostra Aleatória Simples

Valor Esperado: Simulação em R

Valor Esperado em Finanças

Valor Esperado em Finanças

Implementação e Simulação

Explicação da Simulação

Aplicações do Valor Esperado

Aplicação: Mercado de Seguros

Lei dos Grandes Números em Seguros

Exemplo Prático: Seguro Residencial

Solução: Seguro Residencial

Propriedades do Valor Esperado

Limitações do Valor Esperado

Utilidade Marginal Decrescente

Exercício Final

Atualizando os Repositórios

`dnorm(0)` = \(f(0) = 0.4\)