# cria uma função linear
funcao_linear <- function(x) {
return(2*x + 1)
}
# calculo de f(2)
funcao_linear(2)
[1] 5
Mestrado Profissional em Administração
IFMG - Campus Formiga
3 de julho de 2025
O que vimos até aqui?
Aula 1 ✅
Aula 2 ✅
Aula 3 ✅
Aula 4 ✅
Conceitos de Variáveis e Observações em Estatística ✅
Conceito de Dados Organizados (Tidy Data) ✅
Tipos atômicos e classes principais de dados da linguagem R ✅
Tipos de Dados Tradicionais em Finanças: ✅
Importação e Preparação de Dados Típicos de Finanças com exemplos práticos ✅
Aula 5 ✅
Aula 6 ✅
Aula 7 ✅
Aula 8 ✅
Modelos ✅
Conceitos Fundamentais de Probabilidade ✅
Distribuições de Probabilidade de VA Discretas ✅
Distribuição de Bernoulli ✅
Características de uma Distribuição de Probabilidade ✅
Distribuição Binomial ✅
Distribuições de Probabilidade de VA Contínuas ✅
Aula 10 ✅
Simulação de Monte Carlo - Aplicações ✅
Aplicação - Valor-em-Risco (VaR) ✅
Aplicação - ES/CVaR ✅
Tópicos - Fundamentos de Estatística e Simulação
Revisão de Matemática
Estatística, Probabilidade e Simulação
Parâmetro, Estimador/Estatística, Estimativa
Métodos de Inferência Estatística
Estimação Pontual de Parâmetros Populacionais
Diretrizes para Aulas Mais Produtivas
⌨️ Código com método:
95% dos erros são evitáveis com:
🤝 Inteligência colaborativa:
💪 Capacidade de Resolver Problemas
Cada erro resolvido é uma evolução da sua habilidade analítica
Definição
Uma função matemática é uma relação entre dois conjuntos, onde cada elemento do primeiro conjunto (chamado de domínio) está associado a exatamente um elemento do segundo conjunto (chamado de imagem).
Formalmente, uma função \(f\) de um conjunto \(X\) para um conjunto \(Y\) é uma regra que atribui a cada elemento \(x \in X\) um único elemento \(y \in Y\), denotado por \(f(x)\).
Podemos escrever:
\[ f: X \to Y \]
onde \(f(x)\) é o valor de \(f\) em \(x\).
\[ f(x) = 2x + 1, \quad x \in \mathbb{R} \]
\[ f(x) = -x^2 + x + 2, \quad x \in \mathbb{R} \]
\[ f(x) = x^3 - 2x - 5, \quad x \in \mathbb{R} \]
\[ f(x) = e^{3x}, \quad x \in \mathbb{R} \]
\[ f(x) = \ln(x), \quad x \in (0, \infty) \]
Definição
A função curve()
de R permite que você crie gráficos de funções matemáticas de forma simples.
Definição
As raízes de uma função matemática são os valores de \(x\) para os quais a função \(f(x)\) é igual a zero. Formalmente, se \(f\) é uma função de \(x\), então os valores de \(x\) que satisfazem a equação
\[ f(x) = 0 \]
são chamados de raízes da função \(f\). Em outras palavras, as raízes são os pontos onde a curva da função intersepta o eixo \(x\).
Definição
A função uniroot
da base R encontra raízes de funções contínuas reais de uma variável, utilizando o método da bisseção.
Definição
A função fzero
do pacote pracma encontra as raízes de funções contínuas de funções de uma variável
fzero()
e uniroot()
Comparação entre as funções
Função | Pacote | Método usado | Intervalo obrigatório? | Comentário |
---|---|---|---|---|
fzero() |
pracma |
Método híbrido (Newton-Raphson, secante, etc.) | Não – pode iniciar com ponto único ou intervalo | Mais flexível, mas depende do pacote externo |
uniroot() |
Base R | Bisseção | Sim – exige intervalo com mudança de sinal \(f(a) \cdot f(b) < 0\) | Mais robusto e confiável, mas menos flexível |
fzero()
aceita ponto inicial e escolhe o melhor método.uniroot()
requer que você garanta a mudança de sinal no intervalo fornecido.O que é a Derivada Primeira?
A derivada primeira de uma função em um ponto é a taxa de variação instantânea da função nesse ponto.
Imagine que você está dirigindo um carro. Se \(f(t)\) representa a posição do carro ao longo do tempo, então:
Isso é como olhar no velocímetro do carro naquele segundo.
Se você tem uma curva de uma função \(f(x)\), a derivada \(f'(x_0)\) representa a inclinação da reta tangente à curva no ponto \(x_0\).
\[ f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h} \]
Esse limite calcula a inclinação da reta secante entre dois pontos muito próximos.
Quando \(h \to 0\), essa secante vira a reta tangente à curva no ponto.
Derivada de Função Polinomial
A regra para calcular a derivada de uma função polinomial é dada por:
\[ f(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0 \]
então a derivada \(f'(x)\) é:
\[ f'(x) = n a_n x^{n-1} + (n-1) a_{n-1} x^{n-2} + \cdots + 1 a_1 \]
Dada a função:
\[ f(x) = 3x^2 \]
A derivada primeira de \(f(x)\) é calculada da seguinte forma:
\[ f'(x) = \frac{d}{dx}(3x^2) \]
Usando a regra da potência, temos:
\[ f'(x) = 3 \cdot 2x^{2-1} \]
Simplificando, obtemos:
\[ f'(x) = 6x \]
Portanto, a derivada primeira de \(f(x) = 3x^2\) é:
\[ f'(x) = 6x \]
Descrição
Vimos que a primeira derivada de \(f(x) = 3x^2\) é \(f^{'}(x) = 6x\).
Qual o valor de \(f^{'}(2)\)?
\[ f^{'}(2) = 6 \times 2 = 12 \]
O que é a Derivada Segunda?
A derivada segunda de uma função é a derivada da derivada primeira.
Se a derivada primeira mede a velocidade de variação da função, a derivada segunda mede a aceleração ou a curvatura — ou seja, o quanto a taxa de variação está mudando.
Exemplo:
Se \(f(x) = 3x^2\), então:
\[ f'(x) = 6x \]
\[ f''(x) = \frac{d}{dx}(6x) = 6 \]
Ou seja, a taxa de variação de \(f(x)\) (a derivada primeira) cresce a uma taxa constante de 6.
Regra Geral
Se a função polinomial for:
\[ f(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0 \]
A derivada primeira é:
\[ f'(x) = n a_n x^{n-1} + (n-1)a_{n-1}x^{n-2} + \cdots + a_1 \]
E a derivada segunda é:
\[ f''(x) = n(n-1) a_n x^{n-2} + (n-1)(n-2) a_{n-1} x^{n-3} + \cdots \]
Exemplo: Para \(f(x) = 3x^2\), temos:
Derivada Segunda Numérica
Vamos calcular numericamente a derivada segunda de \(f(x) = 3x^2\) no ponto \(x = 2\).
Lembrando:
\[ f''(x) = 6 \]
Nota
A derivada segunda indica se a curva está:
No caso de $f(x) = 3x^2$, temos:
Função tem Mínimo
Função tem Máximo
Ponto de Inflexão
Função sem Concavidade/Curvatura
Procedimento
Para encontrar máximos ou mínimos de uma função, siga os passos:
Quando \(f'(x) = 0\) e \(f''(x) < 0\), a função está no topo de uma colina — um máximo local.
Exemplo
Considere \(f(x) = -x^2 + x + 2\). Vamos aplicar o procedimento:
\[ f'(x) = \frac{d}{dx}(-x^2 + x + 2) = -2x + 1 \]
\[ -2x + 1 = 0 \Rightarrow x = \frac{1}{2} \]
\[ f''(x) = \frac{d^2}{dx^2}(-x^2 + x + 2) = -2 \]
Como \(f''\left(\frac{1}{2}\right) = -2 < 0\), temos um máximo local.
Valor máximo:
\[ f\left(\frac{1}{2}\right) = -\frac{1}{4} + \frac{1}{2} + 2 = \frac{9}{4} \]
optimize()
em RComo encontrar o máximo de uma função?
A função optimize()
do R é projetada para minimizar funções reais de uma variável. Para maximizar uma função \(f(x)\), usamos a equivalência:
\[ \max f(x) = \min [-f(x)] \]
Ou seja, maximizamos \(f(x)\) minimizando \(-f(x)\).
Vamos aplicar isso à função:
\[ f(x) = -x^2 + x + 2 \]
# Define a função original
f <- function(x) {-x^2 + x + 2}
# Maximização via minimização de -f(x)
resultado <- optimize(function(x) -f(x), interval = c(-1, 2))
# Recupera os resultados
x_max <- resultado$minimum # ponto de máximo
f_max <- -resultado$objective # (-1)xf(x_max)
# Exibe os resultados
list(x_max = x_max, f_max = f_max)
$x_max
[1] 0.5
$f_max
[1] 2.25
Resumo:
optimize()
encontra o ponto que minimiza a função fornecida.
Para obter um máximo, forneça \(-f(x)\) e depois inverta o sinal do resultado para \(f(x)\)
Resultado final:
A função \(f(x) = -x^2 + x + 2\) atinge seu máximo em \(x = 0,5\).
O valor da função no ponto de máximo é:
\[ f(0{,}5) = 2,25 \]
optimize()
em RPor que multiplicar por -1?
A função optimize()
do R minimiza funções por padrão.
\[ \max f(x) \;\equiv\; \min [-f(x)] \]
Resumo: Maximizar \(f(x)\) é o mesmo que minimizar \(-f(x)\).
Maximização de Função com optimize()
Vamos encontrar o máximo da função:
\[ f(x) = -x^2 + x + 2 \]
no intervalo \([-1,; 2]\).
Como optimize()
minimiza funções, usamos:
Ou seja, minimizamos \(-f(x)\) para encontrar o máximo de \(f(x)\).
O valor de resultado$maximum
será o ponto onde \(f(x)\) atinge o máximo.
resultado$objective
será \(-f(x)\) nesse ponto. Para recuperar \(f(x)\), basta multiplicar por -1.
Visualização
A curva azul representa \(f(x)\) (a função que queremos maximizar).
A curva vermelha representa \(-f(x)\).
O optimize()
encontra o mínimo da curva vermelha, que ocorre no mesmo ponto em que a curva azul atinge o máximo.
Portanto, maximizar \(f(x)\) é equivalente a minimizar \(-f(x)\).
Exercício 1
Utilizando a criação de funções matemáticas e a função curve
, crie os gráficos das seguintes funcões:
A função de demanda linear é definida como: \(f(x) = 50 - 2x\) onde \(x\) é a quantidade demandada e \(f(x)\) é o preço.
A função de utilidade Cobb-Douglas é definida como: \(f(x) = 10x^{0.5}\), onde \(x\) é a quantidade de um bem e \(f(x)\) é a utilidade.
A função de crescimento logístico é definida como: \(f(x) = \frac{100}{1 + e^{-0.1(x - 50)}}\) onde \(x\) é o tempo.
Exercício 2
Utilizando a função optimize
da linguagem R. Encontre o valor de \(x\) que maximiza a seguinte função quadrática:
\[ f(x) = -2x^2 + 4x + 1 \]
Modelos Probabilísticos = Distribuições de Probabilidade
Característica da Distribuição de Probabilidade de uma VA:
Média ponderada de todos os valores possíveis que \(Y\) pode assumir, ponderada pelas suas respectivas probabilidades:
\[ E[Y] = \sum_{y} y \cdot P(Y = y) \quad \text{(variáveis discretas)} \] \[ E[Y] = \int_{-\infty}^{\infty} y \cdot f(y) \, dy \quad \text{(variáveis contínuas)} \]
A variância de uma variável aleatória mede a variabilidade dos valores de \(Y\) em torno do seu valor esperado.
\[ \text{Var}(Y) = E[(Y - E[Y])^2] = E[Y^2] - (E[Y])^2 \]
O desvio-padrão é a raiz quadrada da variância, fornecendo uma medida de variabilidade que está na mesma unidade de Y.
\[ \sqrt{\text{Var}(X)} = \sigma \]
Os quantis são valores que particionam a distribuição de modo que há uma probabilidade específica de que a variável aleatória seja menor que o quantil. Por exemplo, o quantil de 0.25 (ou o primeiro quartil) é o valor abaixo do qual 25% dos dados podem ser encontrados.
Mede a assimetria de uma distribuição. Uma distribuição perfeitamente simétrica, como a distribuição normal, possui coeficeinte de assimetria igual a zero.
\[ \text{Assimetria} = E\left[\left(\frac{Y - E[Y]}{\sigma_Y}\right)^3\right] \]
É uma medida do achatamento ou da concentração de valores no centro da distribuição comparado a uma distribuição normal. Um distribuição normal tem curtose igual a 3.
\[ \text{Curtose} = E\left[\left(\frac{Y - E[Y]}{\sigma_Y}\right)^4\right] - 3 \]
Distribuição de Diversas Variáveis Aleatórias
A distribuição conjunta de duas variáveis aleatórias X e Y é a função de densidade de probabilidade que descreve a probabilidade de X e Y assumirem valores específicos simultaneamente.
As distribuições marginais mostram o comportamento de uma única variável.
São obtidas a partir da distribuição conjunta somando (ou integrando) sobre a outra variável:
Para \(X\):
\[ f_1(x) = \sum_y f(x, y) \quad \text{ou} \quad f_1(x) = \int f(x, y)\,dy \]
A distribuição condicional de \(Y\) dado \(X = x\) é:
\[ f(y \mid x) = \frac{f(x, y)}{f_1(x)} \quad \text{(se } f_1(x) > 0\text{)} \]
\(X\) e \(Y\) são independentes se:
\[ f(x, y) = f_1(x) \cdot f_2(y) \]
A covariância entre duas variáveis aleatórias X e Y é uma medida da direção da relação linear entre elas.
\[ \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = E(XY) - E(X)E(Y) \]
A correlação é a covariância normalizada pelos desvios-padrão de X e Y, fornece uma medida da relação linear entre as variáveis que varia entre -1 e +1.
\[ \text{Cor}(X, Y) = E\left[ \left( \frac{X - \mu_X}{\sigma_X} \right)\left( \frac{Y - \mu_Y}{\sigma_Y} \right) \right] = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]
Aplicações
Simulação é usada para:
Processo Gerador dos Dados
Processo Gerador dos Dados
Mais especificamente, qual membro da classe de distribuições de probabilidade assumida deu origem aos dados?
O que precisamos conhecer de uma Distribuição Normal para calcular probabilidades?
Descrição
Assume que os dados são gerados por um modelo probabilístico conhecido (PGD), expresso como uma função matemática com parâmetros desconhecidos (i.e., distribuição de probababilidade).
Objetivo: Estimar os parâmetros do modelo a partir dos dados disponíveis.
Métodos Típicos:
Foco: Inferência sobre os parâmetros para entender o processo subjacente.
Exemplos de Questões de Interesse em Finanças
Quais são os fatores fundamentais que determinam os preços dos ativos e como esses fatores podem ser modelados para avaliar adequadamente o valor de um ativo?
Como os retornos dos ativos financeiros, como ações ou títulos, são afetados por fatores macroeconômicos, mudanças na política monetária, ou eventos de mercado?
Como estimar e prever a volatilidade dos mercados financeiros ou de ativos específicos?
Os preços dos ativos refletem todas as informações disponíveis e, portanto, os mercados são informacionalmente “eficientes”?
Descrição
População | Amostra | |
---|---|---|
Símbolos | \(\mu\), \(\sigma\), \(p\), \(\rho\) | \(\bar{x}\), \(s\), \(\hat{p}\), \(r\) |
Fixo ou aleatório? | Fixo (desconhecido) | Aleatório |
Obtido por | Censo/dados históricos | Amostragem |
Objetivo | Verdade a descobrir | Instrumento de inferência |
Descrição
Estimador | Fórmula | O que faz |
---|---|---|
Média amostral | \(\bar{X} = \frac{\sum_{i=1}^{n} X_i}{n}\) | Estima \(\mu\) |
Desvio amostral | \(s = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}\) | Estima \(\sigma\) |
Proporção amostral | \(\hat{p} = \frac{X}{n}\) | Estima \(p\) |
Correlação amostral | \(r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1)S_X S_Y}\) | Estima \(\rho\) |
Estimador, Estatística e Estimativa
Estimador: Fórmula que aplicamos aos dados da amostra para obter um valor que estima uma parâmetro populacional.
Estatística: É qualquer função dos dados da amostra. Todo estimador é uma estatística, mas nem toda estatística é um bom estimador.
Estimativas: Resultados numéricos obtidos ao aplicar os estimadores
Identifique: Parâmetro, Estimador/Estatística ou Estimativa?
Uma empresa de e-commerce analisa seus pedidos:
Respostas
Definição
Permite inferir características da população a partir da amostra, como médias, variâncias, proporções, etc.
Estimar parâmetros populacionais, testar hipóteses e fazer previsões sobre a população com base em dados amostrais.
Na maioria das vezes, não é possível coletar dados de toda a população, então usamos amostras para fazer inferências sobre a população como um todo.
Tipos
Os métodos clássicos de Inferência Estatística podem ser divididos em:
Estimação Pontual: Procura fornecer o melhor valor único para um parâmetro desconhecido.
Estimação Intervalar: Fornece um intervalo de valores que, com uma certa confiança, inclui o valor do parâmetro desconhecido.
Procedimentos para testar se uma afirmação sobre uma característica da população é verdadeira.
Definição
Os métodos estatísticos paramétricos são um conjunto de técnicas de análise estatística que assumem que os dados amostrais vêm de uma população que pode ser adequadamente descrita por uma distribuição de probabilidade que é completamente especificada por um conjunto finito de parâmetros.
Esses métodos são fundamentados na hipótese de que a forma funcional da distribuição subjacente aos dados pode ser conhecida, e o objetivo principal é estimar os valores dos parâmetros dessa distribuição.
Características
Utilizam modelos probabílisticos (dist. de probabilidade) que especificam uma forma funcional exata para a distribuição dos dados, como as distribuições normal, log-normal, binomial, Poisson, entre muitas outras.
Envolve a determinação dos valores dos parâmetros da distribuição que melhor se ajustam aos dados observados, geralmente através de métodos como o de máxima verossimilhança, método dos momentos, bayesiano.
Há estimadores pontuais e intervalares para os parâmetros.
Quando as hipóteses do modelo estão corretas, os métodos paramétricos são geralmente mais eficientes (ou seja, têm menor variância) do que os métodos não paramétricos, proporcionando estimativas mais precisas e testes estatísticos mais poderosos.
Os modelos e estimativas dos parâmetros são interpretáveis e, muitas vezes, fundamentados em teorias da área de aplicação.
Estimação Pontual
Em Estatística, a Estimação Pontual envolve o uso de dados amostrais para estimar um parâmetro “populacional”.
Um Estimador é uma função matemática dos dados da amostra.
Estimadores pontuais são construídos para estimar parâmetros populacionais.
Uma Estimativa é um valor específico de um estimador obtido com dados de uma amostra.
Estimação Pontual
\(\bar{x} = \frac{\sum{x_i}}{n}\) é um estimador de \(E(Y) = \mu\).
\(\bar{x} = 3.14\) é uma estimativa de \(E(Y) = \mu\).
Alguns dos Principais Métodos
Definição
O Método da Máxima Verossimilhança (MLE, do inglês Maximum Likelihood Estimation) é um método amplamente utilizado em estatística para a estimação de parâmetros de modelos probabilísticos.
Este método baseia-se no princípio de determinar os valores dos parâmetros que maximizam a função de verossimilhança, que representa a probabilidade de observar os dados amostrais dados os parâmetros do modelo.
Função de Verossimilhança
Considerando amostra \((X_1, X_2, \dots, X_n)\) de dados independentes e identicamente distribuídos de uma distribuição com vetor de parâmetros \(\theta\), a função de verossimilhança \(\mathcal{L}(\theta)\) é definida como:
\[ L(\theta) = \prod_{i=1}^n f(x_i \mid \theta) \] sendo \(f(x_i \mid \theta)\) função de probabilidade de \(x_i\) condicionada a \(\theta\).
Função de Log-Verossimilhança
A função log-verossimilhança, denotada por \(\ell(\theta)\), é utilizada para simplificar a otimização, sendo expressa por:
\[ \ell(\theta|y) = \log L(\theta|y) = \sum_{i=1}^n \log f(x_i \mid \theta) \]
Um problmea de Otimização
Os parâmetros são estimados maximizando a função de log-verossimilhança (\(\ell(\theta)\)), envolvendo a resolução das equações:
\[ \frac{\partial \ell(\theta|y)}{\partial \theta_j} = 0 \quad \text{para todo } j \]
A solução dessas equações fornece os estimadores de máxima verossimilhança \(\hat{\theta}\).
Um problmea de Otimização
Objetivo: Encontrar os valores de \(\theta = \{\theta_1,...\theta_k\}\) que maximizam \(\ell(\theta)\)
Analíticamente: Ás vezes é possível.
\[ \Biggl|\frac{\partial \ell(\theta|y)}{\partial \theta_j}\Biggr| = 0 \] - Se possível, resolva para \(\theta\) e chame de \(\hat{\theta}\)
Numericamente: Maioria das vezes.
Deixe o computador fazer o trabalho usando um método de otimização numérico.
Função de (log-)Verossimilhança
Esta curva resume todas as informações que os dados fornecem sobre o vetor de parâmetros \(\theta\), assumindo o modelo.
EMV dos Parâmetros de uma Distribuição Normal
Seja \(X \sim N(\mu,\sigma^2)\), a função densidade de probabilidade (fdp) é:
\[ f(x)={\frac {1}{{\sqrt {2\pi \sigma ^{2}}}\ }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right) \]
A correspondente fpd Para uma amostra i.i.d (indepentente e identicamente distribuída) é dada por:
\[ f(x_{1},\ldots ,x_{n})=\prod _{i=1}^{n}f(x_{i})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right) \]
Esta classe de distribuições tem dois parâmetros: \(\theta = (\mu, \sigma)\); então maximizamos a função de verossimilhança \(L(\mu ,\sigma) = f(x_1,\ldots,x_n ∣\mu,\sigma)\) em relação aos dois parâmetros simultaneamente ou, se possível, individualmente.
EMV dos Parâmetros de uma Distribuição Normal
Seja \(X_1, X_2, \dots, X_n \overset{\text{iid}}{\sim} \mathcal{N}(\mu, \sigma^2)\). A função de verossimilhança conjunta é:
\[ L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) \]
A log-verossimilhança é dada por:
\[ \log L(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]
Para obter o estimador de máxima verossimilhança de \(\mu\), mantemos \(\sigma^2\) fixo e derivamos:
\[ \begin{aligned} \frac{\partial}{\partial \mu} \log L(\mu, \sigma^2) &= \frac{\partial}{\partial \mu} \left[ -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right] \\ &= -\frac{1}{2\sigma^2} \cdot \sum_{i=1}^n \frac{\partial}{\partial \mu} (x_i - \mu)^2 \\ &= -\frac{1}{2\sigma^2} \cdot \sum_{i=1}^n [-2(x_i - \mu)] \\ &= \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) \end{aligned} \]
Igualando a zero e resolvendo:
\[ \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0 \;\Rightarrow\; \sum_{i=1}^n (x_i - \mu) = 0 \;\Rightarrow\; n\bar{x} - n\mu = 0 \;\Rightarrow\; \boxed{\widehat{\mu} = \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i} \]
Esse estimador é não-viesado:
\[ E(\widehat{\mu}) = E(\bar{x}) = \mu \]
e sua variância e desvio-padrão são:
\[ \mathrm{Var}(\bar{x}) = \frac{\sigma^2}{n}, \quad \mathrm{DP}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]
Para encontrar o EMV de \(\sigma^2\), derivamos a log-verossimilhança em relação a \(\sigma^2\), mantendo \(\mu = \bar{x}\):
\[ \begin{aligned} \frac{\partial}{\partial \sigma^2} \log L(\mu, \sigma^2) &= -\frac{n}{2} \cdot \frac{1}{\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 \\ &= -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \bar{x})^2 \end{aligned} \]
Igualando a zero:
\[ -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \bar{x})^2 = 0 \]
Multiplicando ambos os lados por \(2\sigma^4\):
\[ -n\sigma^2 + \sum_{i=1}^n (x_i - \bar{x})^2 = 0 \;\Rightarrow\; \boxed{\widehat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2} \]
Mas por que não usamos esse estimador?
Porque o estimador de máxima verossimilhança é viesado, especialmente para amostras pequenas. Por isso, usamos como estimador não-viesado da variância populacional:
\[ \boxed{s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2} \]
Esse divisor \(n-1\) corrige o viés, pois reflete o fato de que \(\bar{x}\) é uma estimativa empírica usada no cálculo da variância.
Estimador Não Viesado
Um estimador \(\hat{\theta}\) é dito não viesado para um parâmetro \(\theta\) se o valor esperado do estimador é igual ao valor verdadeiro do parâmetro. Matematicamente:
\[ \mathbb{E}(\hat{\theta}) = \theta \]
Propriedades do Valor Esperado de Variáveis Aleatórias
\[ \begin{align} E[X_1 + X_2 + \ldots + X_n ] &= E[X_1] + E[X_2] + \ldots + E[X_N] \\ E\left[\sum_{i=1}^n X_i\right] &= \sum_{i=1}^n E[X_i] \end{align} \]
\[ E[c] = c \rightarrow E[cX] = cE[X] \]
\[ E[X_1 X_2] = E[X_1]E[X_2] \]
Estimador não-viesado (ou não tendencioso)
\[ \begin{align} E[\bar{x}] &= E\left[\frac{\sum_{i=1}^n x_i}{n}\right] \\ &= \frac{1}{n} \sum_{i=1}^n E[x_i] \\ &= \frac{1}{n} \sum_{i=1}^n \mu \\ &= \frac{1}{n} \cdot n\mu \\ &= \mu \end{align} \]
Estimador viesado corrigido
O estimador de máxima verossimilhança da variância \((\sigma^2)\) de uma distribuição normal é viesado:
\[ \begin{align} E[\hat{\sigma}^2] &= E\left[\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\right] \\ &= \frac{n-1}{n}\sigma^2 \end{align} \]
Isso mostra que \(\hat{\sigma}^2\) é viesado.
Para corrigir esse viés, multiplicamos o estimador por \[\frac{n}{n-1}\], obtendo o estimador corrigido:
\[ \boxed{s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2} \] Esse estimador é não viesado, pois \(E[s^2] = \sigma^2\).
Estimador Eficiente
Um estimador é considerado eficiente dentro de uma classe de estimadores se ele possui a menor variância possível entre todos os estimadores não viesados dessa classe para o parâmetro estimado.
Se \(\hat{\theta}\) é um estimador não viesado, então é eficiente se:
\[ \text{Var}(\hat{\theta}) \leq \text{Var}(\tilde{\theta}) \quad \forall \tilde{\theta} \text{ não viesados} \]
onde \(\tilde{\theta}\) é qualquer outro estimador não viesado do parâmetro \(\theta\).
Estimador Consistente
Um estimador \(\hat{\theta}_n\) é consistente para \(\theta\) se, à medida que o tamanho da amostra \(n\) aumenta, o estimador converge em probabilidade para o valor verdadeiro do parâmetro.
Matematicamente:
\[ \hat{\theta}_n \xrightarrow{P} \theta \quad \text{quando} \quad n \to \infty \]
Ou, de forma equivalente, a variância do estimador converge a zero e o viés converge a zero conforme \(n\) aumenta:
\[ \lim_{n \to \infty} \text{Var}(\hat{\theta}_n) = 0 \quad \text{e} \quad \lim_{n \to \infty} \mathbb{E}(\hat{\theta}_n - \theta) = 0 \]
Os estimadores obtidos pelo método da máxima verossimilhança possuem propriedades assintóticas desejáveis, assumindo que o modelo é correto:
\(\hat{\theta}\) converge em probabilidade para \(\theta\) quando o tamanho da amostra aumenta.
\[ \hat{\theta}_n \xrightarrow{p} \theta \quad \text{quando} \quad n \to \infty \]
\(\hat{\theta}\) é assintoticamente o estimador com a menor variância possível.
A distribuição de \(\hat{\theta}\) aproxima-se de distribuição unormal à medida que o tamanho da amostra aumenta.
\[ \sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, I(\theta)^{-1}) \]
# fixando a média e o desvio-padrão de uma VA normal padronizada
mu <- 0
sigma <- 1
# n é tamanho de cada amostra.
# T é o número de simulacoes de cada amostra
n0 <- 10
n1 <- 100
n2 <- 1000
n3 <- 10000
T <- 1000
# fixa a semente do gerador de numeros aleatorios
set.seed(999)
# simula 1000 amostras (linhas) de tamanho 10 (colunas)
amostras0 <- rnorm(n0 * T, mu, sigma)
amostras0 <- matrix(amostras0, nrow = T, ncol = n0)
dim(amostras0)
# simula 1000 amostras de tamanho 100
amostras1 <- rnorm(n1 * T, mu, sigma)
amostras1 <- matrix(amostras1, nrow = T, ncol = n1)
dim(amostras1) # dim retorna n. de linhas x n. de colunas
# simula 1000 amostras de tamanho 1000
amostras2 <- rnorm(n2 * T, mu, sigma)
amostras2 <- matrix(amostras2, nrow = T, ncol = n2)
dim(amostras2)
# simula 1000 amostras de tamanho 10000
amostras3 <- rnorm(n3 * T, mu, sigma)
amostras3 <- matrix(amostras3, nrow = T, ncol = n3)
dim(amostras3)
## aqui, os EMV são:
# 1000 médias calculadas de 1000 amostras de tamanho 10
xbar0 <- apply(amostras0, 1, mean)
# 1000 médias calculadas de 1000 amostras de tamanho 100
xbar1 <- apply(amostras1, 1, mean)
# 1000 médias calculadas de 1000 amostras de tamanho 1000
xbar2 <- apply(amostras2, 1, mean)
# 1000 médias calculadas de 10000 amostras de tamanho 10000
xbar3 <- apply(amostras3, 1, mean)
## mostra a normalidade assintótica
hist(xbar0)
hist(xbar1)
hist(xbar2)
hist(xbar3)
## graficos quantil-quantil para testar a normalidade
qqnorm(xbar0)
qqnorm(xbar1)
qqnorm(xbar2)
qqnorm(xbar3)
# calcula o viés dos EMV
vies0 = xbar0 - mu
vies1 = xbar1 - mu
vies2 = xbar2 - mu
vies3 = xbar3 - mu
# viés médio
mean(vies0)
mean(vies1)
mean(vies2)
mean(vies3)
Os resultados da simulação mostram que quanto maior for \(n\), mais próximos os vieses médios de \(\bar{x}\) estão de 0.
Isso mostra que o EMV da média da distribuição normal é não viesado, assintoticamente.
Também mostram que o EMV da média da distribuição normal converge em probabilidade para o valor verdadeiro, 0 no caso, e que, portanto, é assintoticamente consistente.
Verificação de Viés e Consistência de Estimadores
Considere uma variável aleatória Y para a qual:
\(E[Y_i] = \mu\)
Os \(Y_i\) são independentes.
Utilizando as propriedades do valor experado e do somatório de uma constante (\(\sum_{i=1}^n c = nc\)).
\[ a = \frac{1}{n} \sum_{i=1}^{n} Y_i + 1.5 \]
\[ b = \frac{1}{n} \sum_{i=1}^{n} Y_i + \sum_{i=1}^{5} \frac{Y_i}{n} \]
EMV de \(p\) em uma Distribuição Binomial
Considere um experimento binomial com:
A função de probabilidade da distribuição binomial é:
\[ P(X = x) = \binom{n}{x} p^x (1 - p)^{n - x} \]
Sabemos que \(n\) é conhecido, mas \(p\) é desconhecido. Seu objetivo é encontrar uma estimativa de Máxima Verossimilhança (EMV) de \(p\).
Suponha que, em 10 experimentos binomiais independentes com \(n = 5\) tentativas cada, observamos os seguintes números de sucessos:
Instruções
Prof. Washington Silva - Introdução à Ciência de Dados