Fundamentos de Probabilidade para Decisões - Parte 1
IFMG - Campus Formiga
21 de maio de 2025
O que vimos até hoje?
Aula 1 ✅
Aula 2 ✅
Metodologia CRISP-DM ✅
Tipos de Análise ✅
Configurações: Git/GitHub ✅
Aula 3 ✅
Introdução ao RStudio ✅
Aula 4 ✅
Introdução ao Git e GitHub ✅
Aula 5 ✅
Breve Revisão do IDE RStudio ✅
Introdução ao Sistema de Publicação Quarto ✅
Sessão Prática Guiada com Relatório 1 ✅
Aula 6 ✅
Parte I ✅
Parte II ✅
Aula 7 ✅
Introdução ao sistema Quarto (continuação) ✅
Introdução à Linguagem R (continuação) ✅
Aula 8 ✅
Início do estudo do pacote dplyr para manipulação de dados ✅
Aula 9 ✅
Aula 10 ✅
Aula 11 ✅
Aula 12 ✅
Aula 13 ✅
Aula 14 ✅
Tópicos
Fundamentos de Probabilidade para Decisões - Parte 1
Instruções
Abra o RStudio e o seu Projeto da Disciplina
Crie a subpasta 08-relatorio dentro da pasta relatorios.
Acesse o site da disciplina e baixe o arquivo 08-relatorio.zip
Descompacte o arquivo, copie/recorte o arquivo 08-relatorio.qmd
e cole dentro da subpasta 08-relatorio.
Diretrizes para Aulas Mais Produtivas
🔊 Mantenha conversas em volume baixo
⌨️ Código com método:
95% dos erros são evitáveis com:
🤝 Inteligência colaborativa:
💪 Capacidade de Resolver Problemas
Cada erro resolvido é uma evolução da sua habilidade analítica
Contexto de Negócios
Decidir sob condições de incerteza é inevitável
Transformando incerteza em risco gerenciável
Modelos probabilísticos como ferramenta de decisão
A Ponte entre Incerteza e Modelagem Matemática
Problema: Como modelar matematicamente eventos incertos?
Solução: Variáveis aleatórias - a ferramenta matemática fundamental para:
Definição intuitiva: Uma variável cujo valor resulta de um processo com resultados incertos
Aplicações na Administração:
Definição Formal
Variável Aleatória: é uma função que associa um valor numérico a cada resultado possível de um processo aleatório.
Em termos simples: Um resultado numérico que depende do acaso:
Notação matemática: Geralmente representada por letras maiúsculas \((X, Y, Z)\)
Exemplo simples: Lançamento de um dado
Discretas vs. Contínuas
Variáveis Aleatórias Discretas:
Assumem valores discretos (geralmente contáveis)
Espaço amostral finito ou infinito contável
Exemplos em negócios:
Variáveis Aleatórias Contínuas:
Podem assumir qualquer valor dentro de um intervalo
Espaço amostral infinito não-contável
Exemplos em negócios:
Importância da distinção: O tipo de variável aleatória determina como calculamos probabilidades e valores esperados
Exemplos
“A aleatoriedade é inerente a praticamente todos os processos de negócios. Modelá-la adequadamente é o primeiro passo para decisões mais informadas.”
Definição Formal
Seja \(S\) o espaço amostral de um processo aleatório, variável aleatária é qualquer função que associa um número a um resultado em \(S\), cujo domínio é o espaço amostral e a imagem são números.
Discretas: os valores possíveis são discretos. Ex: Número de empresas que fazem uso de técnicas de orçamento de capital.
Contínuas: infinitos (pelo menos teoricamente) e incontáveis valores possíveis. Ex: Medidas (Peso, massa, preço, retorno, taxa de juros etc.)
Variável Aleatória Discreta
A funçao de probabilidade de uma VA discreta X é a função \(f: \mathbb{R} \rightarrow [0,1]\) definda por:
\[ p(X = x) = p(x) \]
Condições:
\[ \begin{align*} p(x) &\geq 0, \\ \sum p(x) &= 1 \end{align*} \]
estas condições implicam que \(0 \leq p(x) \leq 1\)
A função densidade de probabilidade de uma VA contínua X é a função \(f: \mathbb{R} \rightarrow \mathbb{R}\) definda por: \[ \begin{equation*} p(a \leq X \leq b) = \int_{a}^{b} f(x)dx \end{equation*} \]
Condições:
\[ \begin{align*} f(x) &\geq 0, \\ \int_{-\infty}^{+\infty} f(x) &= 1 \end{align*} \]
É uma função definida para todo \(y\) (resultado possível de uma variável aleatória)
atribui probabilidades para todo \(y\) (ou intervalo de \(y\)) possível.
Por que os Mercados Financeiros Exemplificam a Aleatoriedade
Distinção entre Incerteza e Risco
Incerteza: Situação em que eventos futuros são desconhecidos e não quantificáveis
Risco: Situação em que eventos futuros são desconhecidos, mas quantificáveis através de probabilidades
Na prática financeira:
Decisões de investimento buscam transformar incertezas em riscos mensuráveis
Para isso, modelos probabílisticos sofisticados são usados para quantificar e gerenciar o risco
Processos Aleatórios em Finanças
Retornos de ações:
Variações de taxas de juros:
Preços de opções:
Tempo até default:
Aleatoriedade nos Preços
Operadores Matemáticos e Suas Implementações
Operador Somatório (\(\sum\)):
sum(x)
para soma total ou cumsum(x)
para soma acumuladac(3, 7, 2)
:
sum(c(3, 7, 2))
retorna 12
(3+7+2)cumsum(c(3, 7, 2))
retorna c(3, 10, 12)
(3, 3+7, 3+7+2)Operador Produtório (\(\prod\)):
prod(x)
para produto total ou cumprod(x)
para produto acumuladoc(2, 3, 4)
:
prod(c(2, 3, 4))
retorna 24
(2×3×4)cumprod(c(2, 3, 4))
retorna c(2, 6, 24)
(2, 2×3, 2×3×4)Fundamentos Matemáticos e Simulação
Definição básica: Um passeio aleatório (random walk) é um processo onde cada passo é determinado por uma variável aleatória independente dos passos anteriores.
Passeio aleatório multiplicativo para preços financeiros:
\[ P_n = P_0 \times \prod_{i=1}^{n} (1 + \epsilon_i) \]
\(P_n\) é o preço da ação após \(n\) períodos
\(P_0\) é o preço inicial da ação
\(\epsilon_i\) são as variáveis aleatórias que representam os retornos percentuais em cada período
\(\prod\) representa o produto acumulado (similar a como \(\sum\) representa soma acumulada)
Em palavras simples:
Por que multiplicativo?:
# Fixamos uma semente para tornar os resultados reproduzíveis
# (isso nos permitirá obter os mesmos valores "aleatórios" em cada execução)
set.seed(42)
# Número de períodos a simular
dias <- 500
# Geramos os epsilon (ε_i) - as variáveis aleatórias que representam retornos diários
# Na versão multiplicativa, cada epsilon representa uma variação percentual do preço
# Usamos valores menores que na versão aditiva, pois agora representam percentuais
epsilon <- rnorm(dias, mean = 0.0005, sd = 0.01) # média de 0.05% e desvio-padrão de 1%
# Preço inicial (P_0 na fórmula matemática)
preco_inicial <- 100
# Calculamos o passeio aleatório multiplicativo: P_n = P_0 * ∏(1 + ε_i)
# Onde ∏ representa o produto acumulado (assim como ∑ representa soma acumulada)
# A função cumprod() calcula esse produto acumulado: (1+ε₁), (1+ε₁)*(1+ε₂), etc.
precos <- preco_inicial * cumprod(1 + epsilon)
# Organizamos os dados para visualização
dados_precos <- tibble(
dia = 1:dias,
preco = precos
)
# Visualizamos a trajetória do passeio aleatório multiplicativo
ggplot(dados_precos, aes(x = dia, y = preco)) +
geom_line(color = "blue", size = 1) +
labs(title = "Simulação de Preço de Ativo: Passeio Aleatório Multiplicativo",
x = "Dias de Negociação",
y = "Preço (R$)") +
theme_minimal()
# Carrega o pacote yfR (Yahoo Finance in R)
# facilita o download de dados financeiros do Yahoo Finance
library(yfR)
# Configura os parâmetros da consulta:
# Ticker: código da ação na bolsa (PETR4.SA = Petrobras ações preferenciais)
# Período: define intervalo de 1000 dias até hoje usando função Sys.Date()
meu_ticker <- c('PETR4.SA')
first_date <- Sys.Date() - 1000 # Data inicial (1000 dias atrás)
last_date <- Sys.Date() # Data final (hoje)
# Obtém os dados históricos da ação utilizando a API do Yahoo Finance
# Retorna dataframe com preços, volumes e outras informações
df_petro <- yf_get(tickers = meu_ticker,
first_date = first_date,
last_date = last_date)
# Cria gráfico de linha da série temporal de preços ajustados
ggplot(df_petro, aes(x = ref_date, y = price_adjusted)) +
geom_line(color = "blue", size = 1) +
labs(title = "Preços Diários da Ação da Petrobrás - PETR4.SA",
subtitle = "Período: Últimos 1000 dias",
caption = "Fonte: Yahoo Finance",
x = NULL,
y = "Preço") +
theme_minimal()
Você considera que o preço desta ação segue, aproximadamente, um passeio aleatório? Resp: Sim.
Vantagens Práticas e Teóricas
Comparabilidade entre ativos:
Propriedades estatísticas mais convenientes:
Tipos de retornos:
Retorno simples: \(R_t = \frac{P_t - P_{t-1}}{P_{t-1}}\) (interpretação: percentual de ganho)
Retorno logarítmico: \(r_t = \ln\left(\frac{P_t}{P_{t-1}}\right)\) (vantagem matemática: aditividade)
Aplicação prática: Análise de carteiras de investimento e avaliação de desempenho.
Identificando Variáveis Aleatórias em Contextos Empresariais
Para cada uma das situações abaixo, identifique a variável aleatória descrita, classifique-a como discreta ou contínua:
O número mensal de cancelamentos de assinaturas em uma plataforma de streaming
O tempo de entrega (em horas) para pedidos online de uma loja de e-commerce
A variação percentual diária no preço das ações de uma empresa
O número de unidades vendidas de um novo produto no primeiro mês após seu lançamento
Análise de Preços de Ações Brasileiras
Seguindo o exemplo apresentado na aula sobre o preço da ação da Petrobrás (PETR4.SA), realize uma análise semelhante para outra empresa brasileira de sua escolha. Utilize o pacote yfR conforme demonstrado para baixar os dados dos últimos 200 dias de negociação.
Instruções:
Escolha uma empresa brasileira listada na B3 e descubra seu ticker (símbolo da ação)
Utilize o código apresentado na aula como referência para baixar os dados históricos de preços usando o pacote yfR.
Crie um gráfico da série de preços ajustados ao longo do tempo.
Conceito
Uma distribuição de probabilidade fornece:
os valores possíveis de uma variável aleatória;
as probabilidades associadas a cada um desses valores.
As distribuições de probabilidade podem ser discretas ou contínuas:
Para uma VA Discreta, uma distribuiçõa de probabilidade pode ser representada por uma tabela, ou por uma função matemática.
Para uma VA contínua, uma distribuição de probabilidade pode ser representada pela área abaixo da curva de função contínua.
Cada tipo tem sua própria forma de distribuição de probabilidade.
\(X\) | \(P(X) \geq 0\) |
---|---|
1 | 0.1 |
2 | 0.3 |
3 | 0.4 |
4 | 0.2 |
\(\sum_{i=1}^4 P(X = x_i)\) | 1.0 |
\[ P(X = x) = \begin{cases} 0.1 & \text{se } x = 1 \\ 0.3 & \text{se } x = 2 \\ 0.4 & \text{se } x = 3 \\ 0.2 & \text{se } x = 4 \\ 0 & \text{caso contrário} \end{cases} \]
Definição Formal
Uma distribuição de probabilidade é uma descrição matemática do comportamento aleatório de uma variável aleatória.
Para variáveis aleatórias discretas:
A função de probabilidade (ou função massa de probabilidade) \(p(x)\) deve satisfazer:
\(p(x) \geq 0 \text{ para todo } x\)
\(\sum_{x \in S} p(x) = 1\)
Para variáveis aleatórias contínuas:
A função densidade de probabilidade \(f(x)\) deve satisfazer:
\[ P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx \]
Com as propriedades:
\(f(x) \geq 0 \text{ para todo } x\) e
\[ \int_{-\infty}^{\infty} f(x) \, dx = 1 \]
A função de distribuição acumulada é definida para ambos os tipos:
\(F(x) = P(X \leq x)\)
Para variáveis discretas: \(F(x) = \sum_{t \leq x} p(t)\)
Para variáveis contínuas: \(F(x) = \int_{-\infty}^{x} f(t) \, dt\)
Representação Matemática da Distribuição
Para variáveis aleatórias discretas: Usamos a função de probabilidade \(P(X = x)\)
Para variáveis aleatórias contínuas: Usamos a função densidade de probabilidade \(f(x)\)
A chave para entender distribuições:
Definição
A função de distribuição acumulada \(F(\cdot)\) de uma VA \(X\) é a função \(F:\mathbb{R} \rightarrow [0,1]\) definida por:
\[ F(a) = P(X \leq a)\,\,\, \text{para} \,\, -\infty \leq a \leq \infty \]
Aplicações Práticas por Área
A Importância da Distribuição Normal
Fundamentos Teóricos:
Em Mercados Financeiros:
Limitações Importantes:
Por que ainda a usamos?
Características da Distribuição Normal
Considere uma VA \(X\) com as seguintes características:
Distribuição Simétrica: \(X\) segue uma distribuição que é simétrica em torno da sua média.
Média e Desvio-Padrão: A distribuição normal é definida por dois parâmetros: a média (\(\mu\)) e o desvio-padrão (\(\sigma\)).
Curva em Forma de Sinos: A distribuição normal é conhecida por sua característica “curva em forma de sino”, onde a maior parte dos dados se concentra em torno da média.
Regra Empírica: Aproximadamente 68% dos dados estão dentro de um desvio-padrão da média, 95% dentro de dois desvios-padrão, e 99,7% dentro de três desvios-padrão.
Interpretação Prática da Regra 68-95-99,7%
Em Análise de Investimentos:
No Gerenciamento de Riscos:
Origem da Distribuição Normal
A distribuição normal é frequentemente associada ao matemático alemão Carl Friedrich Gauss (1777-1855), que fez contribuições significativas ao estudo da distribuição dos erros de medição em astronomia. Por essa razão, a distribuição normal também é conhecida como “distribuição gaussiana”.
Gauss utilizou essa distribuição para descrever os erros de medições astronômicas, baseando-se no princípio de que a maioria dos erros seria pequena, enquanto erros grandes seriam raros.
O termo “normal” foi popularizado posteriormente pelo estatístico britânico Francis Galton (1822-1911). Galton utilizou o termo “normal” para descrever a distribuição de características humanas, como altura e peso, que frequentemente seguem uma forma simétrica em torno de uma média. Ele usou o termo “normal” no sentido de “norma” ou “padrão”, sugerindo que essa distribuição era comum ou típica em muitos fenômenos naturais.
Embora Gauss tenha trabalhado com a distribuição no contexto de erros de medição, foi o trabalho de Galton e outros que consolidou a ideia de que essa distribuição é “normal” ou típica em muitos contextos, incluindo características biológicas e fenômenos sociais, e assim o termo “distribuição normal” tornou-se amplamente aceito.
Importância em Estatística
Modelagem Direta: Embora muitos processos aleatórios em Administração envolvam variáveis discretas ou condições que não atendem perfeitamente aos requisitos da normalidade (como a simetria da distribuição), a distribuição normal ainda pode servir como uma aproximação útil em diversos contextos.
Teorema Central do Limite (TCL): A importância principal da distribuição normal é teórica. O TCL afirma que a soma ou média de um grande número de variáveis aleatórias independentes tende a seguir uma distribuição normal, independentemente da distribuição original, o que fundamenta sua ampla aplicação.
Aplicação Prática: O TCL permite a construção e uso de métodos estatísticos baseados na normalidade, mesmo quando os dados originais não seguem uma distribuição normal.
O que é o Teorema Central do Limite?
Para um grande número de \(n\) observações independentes de uma distribuição da população que tenha média \(\mu\) e desvio-padrão finito \(\sigma\), a média amostral tem uma função de probabilbidade que converge para o função de probabilidade de uma distribuição normal padrão à medida que \(n \rightarrow \infty\).
\[ \bar{Y}\overset{d}{\longrightarrow} N(\mu, \frac{\sigma}{n}) \]
Independente da forma da distribuição da populaçào, na medida que \(n\) aumenta, a Distribuição Amostral de \(\bar{Y}\) converge para uma distribuição normal
A Função de Densidade de Probabilidade (PDF)
\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
Explicação:
A função é simétrica em torno da média \(\mu\).
O valor máximo da função ocorre em \(x = \mu\).
A área sob a curva da função é igual a 1, representando a totalidade das probabilidades.
Momentos:
Valor Esperado (Média): \(E[X] = \mu\)
Variância: \(V[X] = \sigma^2\)
A Função de Densidade de Probabilidade (PDF)
Distribuição normal padronizada: \(Z_i = \frac{y_i - \mu}{\sigma} \sim N(\mu = 0, \sigma = 1)\)
\[ \phi(z) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}z^2} \]
Momentos:
\[ E(Y) = 0 \]
\[ V(X) = \sigma^2 = 1 \] \[ \sigma = 1 \]
Efeito de Alterar \(E(X) = \mu\) (média)
Efeito de alterar \(\sigma^2\) (variância)
Instruções
Prof. Washington Silva - Introdução à Ciência de Dados