[1] 0.9148060 0.9370754 0.2861395 0.8304476 0.6417455 0.5190959 0.7365883
[8] 0.1346666 0.6569923 0.7050648
Mestrado Profissional em Administração
IFMG - Campus Formiga
5 de junho de 2025
O que vimos até aqui?
Aula 1 ✅
Aula 2 ✅
Aula 3 ✅
Aula 4 ✅
Conceitos de Variáveis e Observações em Estatística ✅
Conceito de Dados Organizados (Tidy Data) ✅
Tipos atômicos e classes principais de dados da linguagem R ✅
Tipos de Dados Tradicionais em Finanças: ✅
Importação e Preparação de Dados Típicos de Finanças com exemplos práticos ✅
Aula 5 ✅
Aula 6 ✅
Aula 7 ✅
Tópicos - Fundamentos de Probabilidade e Simulação
Modelos
Conceitos Fundamentais de Probabilidade
Distribuições de Probabilidade de VA Discretas
Distribuição de Bernoulli
Características de uma Distribuição de Probabilidade
Distribuição Binomial
Distribuições de Probabilidade de VA Contínuas
Aplicação
Diretrizes para Aulas Mais Produtivas
⌨️ Código com método:
95% dos erros são evitáveis com:
🤝 Inteligência colaborativa:
💪 Capacidade de Resolver Problemas
Cada erro resolvido é uma evolução da sua habilidade analítica
O que é a Distribuição Uniforme Contínua?
A distribuição uniforme contínua no intervalo [0, 1], denotada \(Y \sim U(0,1)\), descreve um fenômeno onde todos os valores do intervalo são igualmente prováveis.
🔹 Propriedades Fundamentais
\[ Y \in [0, 1] \]
\[ f(y) = \begin{cases} 1, & \text{se } 0 \leq y \leq 1 \\ 0, & \text{caso contrário} \end{cases} \]
A área sob a curva é 1 (como toda função densidade de probabilidade):
\[ \int_0^1 f(y) \, dy = 1 \]
Probabilidades são proporcionais ao comprimento do intervalo:
\[ P(Y \in [a, b]) = b - a, \quad \text{para } 0 \leq a < b \leq 1 \]
📌 Por que ela é importante?
A distribuição \(U(0,1)\) é a base de quase todos os algoritmos de geração de números pseudoaleatórios.
💡 Ideia central: geradores de números aleatórios (como runif()
em R) produzem amostras de \(U(0,1)\), e a partir delas é possível gerar amostras de outras distribuições (normal, exponencial, binomial…) por transformações adequadas.
💻 Exemplo em R
➤ Gerando 10 números uniformes no intervalo [0,1]:
[1] 0.9148060 0.9370754 0.2861395 0.8304476 0.6417455 0.5190959 0.7365883
[8] 0.1346666 0.6569923 0.7050648
➤ Visualizando a distribuição com um histograma:
amostra <- runif(10000)
hist(amostra, breaks = 20, col = "steelblue", main = "Distribuição Uniforme U(0,1)",
xlab = "Amostra gerada", probability = TRUE)
➤ Aproximando \(P(0.2 < Y < 0.5)\):
📐 Valor exato: \(P(0.2 < Y < 0.5) = 0.5 - 0.2 = 0.3\)
Aplicações
De \(U(0,1)\) para qualquer distribuição
Se \(U \sim U(0,1)\), podemos gerar uma variável aleatória \(X\) com distribuição desejada \(F_X\) (distribuição acumulada) usando:
\[ X = F_X^{-1}(U) \]
Esse método é chamado de Transformação Inversa da CDF (ou “inverse transform sampling”).
🔹 Exemplo 1: Gerando variável Exponencial a partir de \(U(0,1)\)
Queremos gerar uma variável \(X \sim \text{Exponencial}(\lambda)\), cuja função de distribuição acumulada (CDF) é:
\[ F_X(x) = 1 - e^{-\lambda x}, \quad x \geq 0 \]
O método da inversa da CDF nos diz que podemos gerar amostras de \(X\) se:
\[ X = F_X^{-1}(U), \quad \text{com } U \sim \mathcal{U}(0,1) \]
📐 Invertendo a CDF:
Começamos com:
\[ u = F_X(x) = 1 - e^{-\lambda x} \]
Resolvendo para \(x\):
\[ e^{-\lambda x} = 1 - u \Rightarrow -\lambda x = \ln(1 - u) \Rightarrow x = -\frac{1}{\lambda} \ln(1 - u) \]
🧠 Mas por que usamos \(\ln(U)\) em vez de \(\ln(1 - U)\)?
Como \(U \sim U(0,1)\), então também \(1 - U \sim U(0,1)\). A distribuição é simétrica em torno de 0.5, então qualquer transformação baseada em uma variável uniforme tem a mesma distribuição se feita sobre \(U\) ou \(1 - U\).
💡 Portanto, por conveniência computacional, usamos:
\[ X = -\frac{1}{\lambda} \ln(U) \]
Esse valor segue a mesma distribuição exponencial.
💻 Em R:
# Gerando 10.000 valores da Exponencial(λ) com λ = 2
set.seed(42)
u <- runif(10000) # Uniforme(0,1)
lambda <- 2
x <- -log(u) / lambda # Exponencial(λ)
# Visualizando a distribuição
hist(x, breaks = 30, col = "orange", probability = TRUE,
main = "Exponencial(λ = 2) gerada a partir de U(0,1)",
xlab = "x")
# Comparando com densidade teórica
curve(dexp(x, rate = lambda), add = TRUE, col = "blue", lwd = 2)
legend("topright", legend = c("Histograma simulado", "Densidade teórica"),
fill = c("orange", NA), border = NA, lty = c(NA, 1), col = c(NA, "blue"))
✅ Conclusão
Gerar variáveis exponenciais a partir da uniforme é um exemplo clássico da transformação pela inversa da CDF
Esse método é uma pedra fundamental dos geradores de variáveis aleatórias na prática
Essa abordagem é generalizável para outras distribuições, como log-normal, Weibull e até normal (com outras técnicas)
🔹 Exemplo 2: Geração de Normal Padrão
Não existe inversa analítica simples para a CDF da dist. normal padronizada \(\Phi(x)\), mas:
qnorm()
em R):z <- qnorm(runif(10000)) # Z ~ N(0,1)
hist(z, breaks = 30, col = "skyblue", probability = TRUE,
main = "Normal padrão gerada com qnorm(runif())")
curve(dnorm(x), add = TRUE, col = "darkblue", lwd = 2)
🔹 Conclusão
✅ A distribuição \(U(0,1)\) serve como matéria-prima universal para gerar variáveis aleatórias com qualquer distribuição, via:
qnorm()
)Origem da Distribuição Normal
A distribuição normal é frequentemente associada ao matemático alemão Carl Friedrich Gauss (1777-1855), que fez contribuições significativas ao estudo da distribuição dos erros de medição em astronomia. Por essa razão, a distribuição normal também é conhecida como “distribuição gaussiana”.
Gauss utilizou essa distribuição para descrever os erros de medições astronômicas, baseando-se no princípio de que a maioria dos erros seria pequena, enquanto erros grandes seriam raros.
O termo “normal” foi popularizado posteriormente pelo estatístico britânico Francis Galton (1822-1911). Galton utilizou o termo “normal” para descrever a distribuição de características humanas, como altura e peso, que frequentemente seguem uma forma simétrica em torno de uma média. Ele usou o termo “normal” no sentido de “norma” ou “padrão”, sugerindo que essa distribuição era comum ou típica em muitos fenômenos naturais.
Embora Gauss tenha trabalhado com a distribuição no contexto de erros de medição, foi o trabalho de Galton e outros que consolidou a ideia de que essa distribuição é “normal” ou típica em muitos contextos, incluindo características biológicas e fenômenos sociais, e assim o termo “distribuição normal” tornou-se amplamente aceito.
Importância em Estatística
Modelagem Direta: Embora muitos processos aleatórios em Administração envolvam variáveis discretas ou condições que não atendem perfeitamente aos requisitos da normalidade (como a simetria da distribuição), a distribuição normal ainda pode servir como uma aproximação útil em diversos contextos.
Teorema Central do Limite (TCL): A importância principal da distribuição normal é teórica. O TCL afirma que a soma ou média de um grande número de variáveis aleatórias independentes tende a seguir uma distribuição normal, independentemente da distribuição original, o que fundamenta sua ampla aplicação.
Aplicação Prática: O TCL permite a construção e uso de métodos estatísticos baseados na normalidade, mesmo quando os dados originais não seguem uma distribuição normal.
Princípios Fundamentais
Seja \(X_1,\ldots,X_n\) uma sequência de variáveis aleatórias independentes com distribuição de probabilidade arbitrária com média \(\mu_i\) e variância finita \(\sigma_{i}^2\). Então:
\[ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \overset{d}{\to} N(0,1) \,\,(n \rightarrow \infty) \]
Independente da forma da distribuição da populaçào, na medida que \(n\) aumenta, a Distribuição Amostral de \(\bar{Y}\) converge para uma distribuição normal
Qual a diferença entre LGN e TCL?
Embora ambos envolvam médias amostrais de variáveis aleatórias, eles respondem a perguntas diferentes.
🔹 Lei dos Grandes Números (LGN)
📌 Foco: Convergência da média amostral para o valor esperado.
“Se repetirmos um experimento muitas vezes, a média observada se aproxima da média verdadeira.”
✏️ Matematicamente:
Se \(X_1, \dots, X_n \sim \text{i.i.d.}\) com \(\mu = \mathbb{E}[X_i]\), então:
\[ \bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i \xrightarrow[]{n \to \infty} \mu \]
✅ Resultado determinístico assintótico: aproximação da média.
🔹 Teorema Central do Limite (TCL)
📌 Foco: Forma da distribuição da média amostral quando \(n\) cresce.
“Mesmo que os dados não sejam normais, a distribuição da média amostral se aproxima da normal.”
✏️ Matematicamente:
Se \(X_1, \dots, X_n \sim \text{i.i.d.}\) com \(\mu\) e \(\sigma^2 < \infty\), então:
\[ \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow[]{d} \mathcal{N}(0,1) \]
✅ Resultado probabilístico: aproximação da forma da distribuição.
🧠 Analogia
LGN: Diz que a média amostral converge para o valor esperado (média populacional) quando repetimos o processo aleatório muitas vezes.
TCL: Diz como se comporta a **distribuição* das médias ao longo dessas repetições
💻 Exemplo em R
set.seed(42)
media <- numeric(1000)
for (i in 1:1000) {
amostra <- rexp(30, rate = 1) # amostras da exponencial (não normal)
media[i] <- mean(amostra)
}
hist(media, breaks = 30, probability = TRUE,
main = "Distribuição da média amostral (~Normal, pelo TCL)",
col = "lightblue", xlab = "Média das amostras")
curve(dnorm(x, mean = 1, sd = 1/sqrt(30)), col = "darkblue", lwd = 2, add = TRUE)
legend("topright", legend = c("Simulação", "Normal teórica"),
fill = c("lightblue", NA), border = NA, lty = c(NA, 1), col = c(NA, "darkblue"))
✅ Resumo
Conceito | LGN | TCL |
---|---|---|
Objetivo | Média converge para valor esperado | Distribuição da média tende à normal |
Tipo de convergência | Quase certa / em probabilidade | Em distribuição |
Importância | Estabilidade da média | Inferência e testes estatísticos |
A Distribuição Normal
Definição: Uma variável aleatória (VA) \(X\) que segue uma distribuição normal tem sua função de densidade de probabilidade dada por:
\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
Características principais:
Parâmetros (Momentos):
Notação: \(X \sim N(\mu, \sigma^2)\)
Padronização: Simplificando os Cálculos
Transformação: Para qualquer \(X \sim N(\mu, \sigma^2)\), podemos criar:
\[Z = \frac{X - \mu}{\sigma} \sim N(0, 1)\]
Função de densidade da Normal Padronizada: \[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}z^2} \]
Parâmetros:
Por que padronizar?
Efeito de Alterar \(E[X] = \mu\) (média)
Observação
Alterar a média desloca a distribuição horizontalmente sem mudar sua forma
Efeito de alterar \(\sigma^2\) (variância)
Observação
Maior variância = distribuição mais “dispersa” (maior incerteza)
Funções para a Distribuição Normal
Função | Resultado |
---|---|
rnorm(n, mean=0, sd=1) |
Simula n valores |
dnorm(x, mean = 0, sd = 1) |
Densidade f(x) no ponto x |
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE) |
\(P(X \leq q)\) |
qnorm(p, mean = 0, sd = 1, lower.tail = TRUE) |
Quantil: \(\Phi^{-1}(p)\) |
Simulando \(X \sim N(\mu = 3, \sigma = 1)\)
Objetivo: Verificar empiricamente as propriedades da distribuição normal
Procedimento:
Lei dos Grandes Números em Ação
Com 1000 observações, a média amostral (≈3.02) está muito próxima da média teórica (3.0)
Simulando \(Z \sim N(0, 1)\)
Agora vamos simular a distribuição normal padronizada:
dnorm(0)
= \(f(0) = 0.4\)
Interpretação
dnorm(0) retorna o valor de \(f(x)\) no ponto \(x = 0\), não uma probabilidade!
Interpretação
pnorm(0) calcula: “Qual a probabilidade de Z ser menor ou igual a 0?”
Interpretação
pnorm(1) responde: “Qual a probabilidade de Z ser menor ou igual a 1?”
Interpretação
1 - pnorm(0) responde: “Qual a probabilidade de Z ser maior que 0?”
\[ \begin{align} P(-0.98 \leq Z \leq 0.14) &= P(Z \leq 0.14) - P(Z \leq -0.98) \\ &= F(0.14) - F(-0.98) \\ & = \text{pnorm}(0.14) - \text{pnorm}(-0.98) \\ & = 0.5557 - 0.1635 \\ & = 0.3922 \end{align} \]
Explicação
A probabilidade de Z estar entre -0.98 e 0.14 é a diferença entre as probabilidades acumuladas até esses pontos.
Interpretação
qnorm(0.5) calcula: “Qual quantil \(Z\) deixa 50% da distribuição à sua esquerda?” Ou seja, \(P(Z \leq q) = 0.5\).
Interpretação
qnorm(0.9) calcula: “Qual valor \(Z\) deixa 90% da probabilidade à sua esquerda?”
Calcule as seguintes probabilidades associadas a uma distribuição normal padronizada.
\(P(Z <= 1.25)\)
\(P(Z > 1.25)\)
\(P(Z <= - .25)\)
\(P(-0.8 <= Z <= 1..25)\)
Distribuicao Normal: Calcule os quantis associados às seguintes probabilidades
\(P(Z < q)\) = 0.9798
\(P(Z < q)\) = 0.2546
\(P(Z > q)\) = 0.1075
\(P(Z > q)\) = 0.9418
O que são Métodos de Monte Carlo?
Em termos gerais, métodos de Monte Carlo consistem em resolver problemas numéricos usando simulações baseadas em amostragem aleatória — isto é, com auxílio de números (pseudo-)aleatórios.
São úteis especialmente quando o problema é de alta complexidade ou dimensionalidade, tornando inviável uma solução analítica ou mesmo métodos numéricos determinísticos convencionais.
Eles permitem estudar o comportamento médio de sistemas aleatórios ou aproximar integrais, probabilidades e soluções de equações diferenciais, por meio de repetições estocásticas.
O nome foi cunhado na década de 1940 por Stanislaw Ulam e John von Neumann, inspirado nos jogos de azar do Cassino de Monte Carlo, enquanto trabalhavam no Projeto Manhattan.
Por que o Método de Monte Carlo funciona?
A ideia fundamental por trás do método é a Lei dos Grandes Números (LGN): dada uma sequência de variáveis aleatórias independentes e identicamente distribuídas, a média amostral converge (quase certamente) para o valor esperado da distribuição.
Suponha que estamos interessados em estimar a probabilidade de um evento \(A\). Podemos definir uma variável aleatória indicadora para cada repetição:
\[ X_k = \begin{cases} 1, & \text{se o evento } A \text{ ocorre na } k\text{-ésima simulação} \\ 0, & \text{caso contrário} \end{cases} \]
\[ \hat{P}_n = \frac{1}{n} \sum_{k=1}^{n} X_k \]
é um estimador não-viesado de \(P(A)\), pois \(\mathbb{E}[X_k] = P(A)\) para cada \(k\). Pela Lei dos Grandes Números, temos:
\[ \hat{P}_n \xrightarrow[]{n \to \infty} P(A) \]
com alta probabilidade (ou quase certamente, dependendo da versão da LGN usada).
Etapas de uma Simulação de Monte Carlo
Modelagem: Modelar o “experimento” aleatório no computador com o uso de variáveis pseudo-aleatórias.
Critério de Sucesso: Determinar se o evento de interesse \(A\) ocorreu em cada simulação.
Repetição: Repetir esse processo \(n\) vezes e calcular a proporção (média) dos “sucessos” e assim estimar a probabilidade.
Exemplo 1: Probabilidade de obter “cara” em lançamentos de uma moeda honesta
Vamos simular \(n\) lançamentos e estimar \(P(\text{cara})\):
[1] 0.3
[1] 0.51
[1] 0.476
[1] 0.4975
0
representa “coroa” e 1
representa “cara”.
A função mean()
fornece a proporção de caras, que é uma estimativa de \(P(\text{cara}) = 0.5\).
Exemplo 2 Probabilidade de obter três “caras” em três lançamentos
n <- 10000
vetor_simulacoes <- numeric(n)
for (i in 1:n) {
teste <- sample(0:1, 3, replace = TRUE)
vetor_simulacoes[i] <- as.numeric(sum(teste) == 3)
}
mean(vetor_simulacoes)
[1] 0.1272
Conclusão
Métodos de Monte Carlo baseiam-se na ideia de que, ao repetir um experimento aleatório muitas vezes, a média dos resultados converge para o valor esperado do fenômeno modelado — uma consequência direta da Lei dos Grandes Números. Isso os torna ferramentas poderosas para resolver problemas onde abordagens determinísticas são impraticáveis.
O que é Integração de Monte Carlo?
Considere a integral definida de uma função real e limitada \(f\):
\[ I = \int_{a}^{b} f(x) \, dx \]
Essa integral pode ser interpretada como o valor esperado de \(f\) sob uma variável aleatória \(U \sim U(a, b)\), isto é, uma distribuição uniforme no intervalo \([a, b]\).
Sabemos que:
\[ E[f(U)] = \int_{a}^{b} f(x) \cdot \frac{1}{b - a} \, dx \]
Multiplicando ambos os lados por \((b - a)\), obtemos:
\[ \int_{a}^{b} f(x) \, dx = (b - a) \cdot E[f(U)] \]
Essa igualdade fornece a base teórica para a integração via Monte Carlo.
Como funciona?
Se \(U_1, \dots, U_N \sim U(a, b)\) forem amostras independentes e identicamente distribuídas (i.i.d), então:
\[ \hat{I}_N = \frac{b - a}{N} \sum_{i=1}^{N} f(U_i) \]
é um estimador não-viesado da integral ( I ), e pela Lei dos Grandes Números:
\[ \hat{I}_N \xrightarrow[]{n \to \infty} \int_a^b f(x) dx \]
Caso particular: Intervalo \([0, 1]\)
Quando \(a = 0\) e \(b = 1\), o fator \((b - a) = 1\), e temos:
\[ \int_{0}^{1} f(x) dx = E[f(U)], \quad \text{com } U \sim U(0,1) \]
Estimamos a integral com:
\[ \hat{I}_N = \frac{1}{N} \sum_{i=1}^{N} f(U_i) \]
Exemplo 1
Para resolver a seguinte integral definida via simulação de Monte Carlo:
\[ \int_{2}^{5} \sin(x)dx \]
basta fazermos:
# fixando a semente do algoritmo
set.seed(2023)
# integracao via SMC
## Gerando amostras uniformes no intervalo [2, 5]
u <- runif(100000, min = 2, max = 5)
## Calculando a média/valor esperado da função seno
(5 - 2)*mean(sin(u))
[1] -0.6999126
Resolvendo analiticamente a integral, verifica-se que o valor exato é -0,7.
Exemplo 2:
Considere a integral:
\[ \int_{0}^{1} \frac{\sin(x(1 - x))}{1 + x + \sqrt{x}} \, dx \]
Esta integral pode ser estimada por Monte Carlo amostrando \(U_i \sim \mathcal{U}(0,1)\) e calculando a média:
# Semente para reprodutibilidade
set.seed(2023)
# Função de interesse
f <- function(x) sin(x*(1 - x)) / (1 + x + sqrt(x))
# Integração via Monte Carlo
u <- runif(100000)
mean(f(u)) # Estimativa da integral
[1] 0.07867095
Podemos comparar com o valor exato (numérico) da integral usando o método adaptativo de quadratura:
Conclusão
A integração de Monte Carlo transforma um problema determinístico (uma integral) em um problema probabilístico (cálculo de um valor esperado).
Os limites de integração determinam o intervalo da distribuição uniforme usada para gerar amostras.
A precisão aumenta com o número de amostras, graças à Lei dos Grandes Números.
Simulação versus Cálculo Exato
Simule 1.000 realizações de uma variável aleatória (\(Z\)) que segue uma distribuição normal padronizada (\(Z \sim N(\mu = 0, \sigma = 1)\)) e use sua amostra simulada para estimar as seguintes probabilidades:
Compare os dois resultados com o valor exato que pode ser obtido com a função pnorm()
.
Resolvendo Integrais por Simulação de Monte Carlo
Use Simulação de Monte Carlo para estimar as seguintes integrais utilizando 1000 repetições. Compare com a resposta exata, a qual pode ser obtida com a função integrate()
da linguagem R.
\(\int_{1}^{3} x^2dx\).
\(\int_{0}^{\pi} sin(x)dx\)
O que é uma Distribuição Conjunta?
Uma distribuição conjunta descreve a probabilidade de diferentes combinações de valores para duas variáveis aleatórias \(X\) e \(Y\):
Propriedades:
\(f(x, y) \geq 0\) para todo \((x, y)\)
\(\sum_x \sum_y f(x, y) = 1\) (no caso discreto)
Distribuições Marginais
As distribuições marginais mostram o comportamento de uma única variável.
São obtidas a partir da distribuição conjunta somando (ou integrando) sobre a outra variável:
Para \(X\):
\[ f_1(x) = \sum_y f(x, y) \quad \text{ou} \quad f_1(x) = \int f(x, y)\,dy \]
Para \(Y\):
\[ f_2(y) = \sum_x f(x, y) \quad \text{ou} \quad f_2(y) = \int f(x, y)\,dx \]
Analogia
Pense em uma planilha eletrônica com:
👉 A distribuição marginal de \(X\) é obtida somando as células linha por linha.
👉 A marginal de \(Y\), somando coluna por coluna.
Assim como na planilha, você pode ver o total de uma linha sem olhar os detalhes da coluna — isso é uma marginal.
Descrição
A distribuição condicional de \(Y\) dado \(X = x\) é:
\[ f(y \mid x) = \frac{f(x, y)}{f_1(x)} \quad \text{(se } f_1(x) > 0\text{)} \]
Ela representa a probabilidade de \(Y = y\) dado que (ou condicional a) \(X = x\).
Renda vs. Felicidade
Tabela de contingência (distribuição conjunta empírica) entre faixa de renda e felicidade:
Felicidade \ Renda | Baixa | Média | Alta | Total |
---|---|---|---|---|
Pouca | 20 | 10 | 5 | 35 |
Moderada | 30 | 40 | 25 | 95 |
Muita | 10 | 30 | 30 | 70 |
Total | 60 | 80 | 60 | 200 |
Podemos obter:
Distribuição conjunta: \(P(X = \text{Média} \cap Y = \text{Muita}) = \frac{30}{200} = 0.15\)
Marginais: \(P(X = \text{Alta}) = \frac{60}{200} = 0.30\)
Condicional: \(P(Y = \text{Muita} \mid X = \text{Alta}) = \frac{30}{60} = 0.50\)
Analogia Intuitiva
Esta tabela é como uma planilha populacional:
Cada célula mostra quantas pessoas estão em uma combinação de renda e felicidade.
A soma das células mostra o todo (200 pessoas).
Se fixarmos uma coluna (ex: “Alta Renda”), estamos condicionando.
Se as proporções da felicidade forem semelhantes em todas as rendas, podemos suspeitar de independência.
Independência de Variáveis Aleatórias
\(X\) e \(Y\) são independentes se:
\[ f(x, y) = f_1(x) \cdot f_2(y) \]
ou seja:
\[ f(y \mid x) = f_2(y), \quad \text{e} \quad f(x \mid y) = f_1(x) \]
Nesse caso, saber o valor de uma variável não altera a distribuição da outra.
Se \(X\) = “renda” e \(Y\) = “felicidade”, independência significa que conhecer a renda de alguém não diz nada sobre sua felicidade, e vice-versa.
Correlação
Quando as variáveis aleatórias \(X\) e \(Y\) não são independentes, certos valores de \(X\) tendem a estar associados a certos valores de \(Y\). Ou seja, existe uma relação ou associação entre elas.
Ao amostrarmos aleatoriamente pares \((X, Y)\) de sua distribuição conjunta de probabilidade, com médias marginais \(\mu_X\) e \(\mu_Y\), dizemos que há uma associação positiva se, em média, o valor de \((X - \mu_X)(Y - \mu_Y)\) é positivo.
Em outras palavras:
Já uma associação negativa ocorre se, em média, o produto \((X - \mu_X)(Y - \mu_Y)\) assume valores negativos — isto é, quando \(X\) está acima da média (\(X > \mu_X\)), tende-se a observar \(Y < \mu_Y\), e vice-versa.
Covariância
A covariância entre duas variáveis aleatórias \(X\) e \(Y\) tendo \(E(X) = \mu_X\) e \(E(Y) = \mu_Y\) é definida como:
\[ \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = E(XY) - E(X)E(Y) \]
Propriedades:
A covariância é como a média dos produtos de desvios conjuntos.
Definição Correlação
A correlação entre uma variável aleatória \(X\), tendo \(E(X) = \mu_X\) e desvio padrão \(\sigma_X\), e uma variável aleatória \(Y\), tendo \(E(Y) = \mu_Y\) e desvio padrão \(\sigma_Y\), é definida como:
\[ \text{Cor}(X, Y) = E\left[ \left( \frac{X - \mu_X}{\sigma_X} \right)\left( \frac{Y - \mu_Y}{\sigma_Y} \right) \right] = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]
A correlação padroniza a covariância, removendo as unidades e está confinada ao intervalo \([-1, 1]\), podendo fornecer uma medida da força da relação linear entre \(X\) e \(Y\).
Propriedades:
\(\text{Cor}(X, Y) \in [-1, 1]\)
\(\pm1\) indica relação linear perfeita
\(0\) indica ausência de relação linear (mas pode haver relação não linear)
Adimensional e invariante a transformações lineares de escala
Covariância fornece a direção da relação linear entre \(X\) e \(Y\), enq
Correlação mede quão fortemente seus desempenhos se alinham em termos relativos.
É como comparar os desvios padronizados: ambos estão acima da média? quanto?
Padrões Identificáveis em Gráficos de Dispersão
Variabilidade, Força da Correlação, Relação Não-Linear:
Fórmula da Variância da Soma
Sejam \(X\) e \(Y\) variáveis aleatórias com variâncias finitas:
\[ Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) \]
Demonstração
Por definição \(V(X) = E(X - E(X))^2\), portanto:
\[ Var(X + Y) = E\left[(X + Y) - E(X + Y))^2 \right] \]
Sabemos que:
\[ E(X + Y) = E(X) + E(Y) \]
Logo:
\[ \begin{aligned} ((X + Y) - E(X + Y))^2 &= (X - E(X) + Y - E(Y))^2 \\ &= (X - E(X))^2 + (Y - E(Y))^2 + 2(X - E(X))(Y - E(Y)) \end{aligned} \]
Tomando o valor esperado:
\[ \begin{aligned} Var(X + Y) &= E[(X - E(X))^2] + E[(Y - E(Y))^2] + 2E[(X - E(X))(Y - E(Y))] \\ &= Var(X) + Var(Y) + 2Cov(X, Y) \end{aligned} \]
Se \(X\) e \(Y\) têm desvios padrão \(\sigma_X\) e \(\sigma_Y\), e correlação \(\rho_{XY}\):
\[ Var(X + Y) = \sigma_X^2 + \sigma_Y^2 + 2\,\rho_{XY} \sigma_X \sigma_Y \]
Demonstração
Se \(X\) e \(Y\) são independentes, então sua densidade conjunta fatoriza:
\[ f(x, y) = f_1(x) f_2(y) \]
Então:
\[ E(XY) = \iint xy f(x, y) \, dx \, dy = \left( \int x f_1(x)\, dx \right) \left( \int y f_2(y)\, dy \right) = E(X) E(Y) \]
Portanto:
\[ \text{cov}(X, Y) = E(XY) - E(X)E(Y) = 0 \]
Logo:
\[ \text{corr}(X, Y) = \frac{\text{cov}(X, Y)}{\sigma_X \sigma_Y} = 0 \]
Por que Correlação Zero Não Garante Independência?
A correlação entre \(X\) e \(Y\) mede a associação linear entre elas:
\[ \rho_{XY} = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y} \]
Se \(\rho_{XY} = 0\), então não há relação linear entre \(X\) e \(Y\).
Mas isso não exclui a possibilidade de dependência não linear.
\(X\) e \(Y\) são independentes quando:
\[ f(x, y) = f_1(x) \cdot f_2(y) \quad \text{para todo } x, y \]
Ou seja, qualquer conhecimento sobre \(X\) não altera a distribuição de \(Y\) e vice-versa:
\[ P(Y \mid X) = P(Y) \]
Essa condição elimina toda forma de dependência, linear ou não.
Seja \(X \sim U(-1, 1)\) e \(Y = X^2\)
Esse é um caso de dependência não linear invisível à correlação.
Instruções
Prof. Washington Silva - Introdução à Ciência de Dados