Estimação por Máxima Verossimilhança I
Este é um exemplo apresentado por Hansen (2022). Ele é relevante (e complicado) por apresentar um caso no qual a derivação do estimador de máxima verossimilhança é difícil, pelo fato de a função de log-verossimilhança não ser diferenciável no ponto de máximo. Assim, é um caso didático importante. A intenção desta nota é fornecer mais detalhes sobre o exemplo para fins didáticos.
Seja X \sim U[0,\theta], qual o estimador de MV de \theta?
Se X \sim U[0,\theta], sabemos que sua função densidade de probabilidade é:
f(x|\theta) = \begin{cases} \frac{1}{\theta}, & 0 \leq x \leq \theta \\ 0, & \text{caso contrário} \end{cases}
A Fig. 1 ilustra a fdp de X. Pela análise, percebemos que a densidade de X depende do suporte definido por \theta: se alguma realização x_i estiver fora do intervalo permitido, tanto a densidade de X quanto a função de verossimilhança podem ser nulas.
Para uma amostra aleatória de X, a função de verossimilhança é:
\begin{align*} L(\theta) &= \prod_{i=1}^n f(x_i|\theta) \\ &= \prod_{i=1}^n \frac{1}{\theta} \\ &= \Bigl(\frac{1}{\theta}\Bigr)^n \\ &= \frac{1}{\theta^n} \end{align*}
Conforme notamos, se algum x_i > \theta, então f(x_i|\theta) = 0, o que implica L(\theta) = 0.
A função de log-verossimilhança (l(\theta) = \log L(\theta)) é:
\begin{align*} l(\theta) &= \log L(\theta) \\ &= \log \Bigl(\frac{1}{\theta^n}\Bigr) \\ &= -n \log(\theta) \end{align*}
Seja M_n = \max_{i \leq n} X_i (o máximo, i.e., a n-ésima estatística de ordem da amostra aleatória). Note que a única restrição que importa em relação ao suporte de X é:
\theta \geq M_n,
pois \theta precisa ser maior ou igual ao maior valor observado na amostra para que todos os x_i estejam no suporte da distribuição. Portanto:
- Se \theta \geq M_n, todos os dados (x_i) estarão no suporte de X:
L(\theta) = \frac{1}{\theta^n}, \quad l(\theta) = -n \log \theta.
- Se \theta < M_n, pelo menos um dado estará fora do suporte de X:
L(\theta)=0 \;\;\Rightarrow\;\; l(\theta) = -\infty.
Assim, podemos escrever a função de log-verossimilhança como:
l(\theta) = \begin{cases} -n \log(\theta), & M_n \leq \theta \\ -\infty, & \text{caso contrário} \end{cases}
A Fig. 2 ilustra a função de log-verossimilhança.
Conforme Hansen (2022), esta é uma função de log-verossimilhança de formato incomum. Para \theta < M_n ela é infinita negativa e, como vimos, é finita (l(\theta) = -n \log \theta) e negativamente inclinada (estritamente decrescente) para \theta \geq M_n. E a função atinge seu máximo em M_n. Portanto, o estimador de máxima verossimilhança de \theta é máximo (a n-ésima estatística de ordem) da amostra.
\hat{\theta} = \max_{i \leq n} X_i = \max\{X_1, X_2, \dots, X_n\}.
Ainda segundo o autor, talvez isso não seja surpreendente. Ao definir \hat{\theta} = \max_{i \leq n} X_i, a densidade U[0,\hat \theta] é consistente com os dados observados. Entre todas as densidades consistentes com os dados observados, esta densidade tem a maior densidade, que atinge a maior verossimilhança, assim como o estimador de máxima verossimilhança.
A Fig. 3 ilustra a consistência da densidade U[0,\hat \theta] com os dados. A densidade uniforme de X só é válida se cobrir todos os dados. Entre as opções consistentes (\theta \geq M_n), a escolha \theta = M_n tem a maior altura e, portanto, maximiza a verossimilhança.
Hansen (2022) argumenta que uma característica “interessante e diferente” (traduzo como chata e confusa) dessa função de log-verossimilhança é que ela não é diferenciável no máximo. P ortanto, o estimador de MV não satisfaz a condição de primeira ordem e, por implicação, o estimador de MV não pode ser encontrado resolvendo condições de primeira ordem.