Introdução à Ciência de Dados

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

3 de julho de 2025

Diário de Bordo

O que vimos até aqui?

Aula 1 ✅
- Apresentação da Disciplina ✅
- Introdução e Contextualização ✅
- O que é Ciência de Dados? ✅
- Pesquisa Reproduzível e Ciência de Dados ✅
- Papéis Profissionais ✅
- Aplicações ✅
- Habilidades Interpessoais e Analíticas ✅
- Apresentação da Disciplina ✅
- Configurações: Git/GitHub ✅
Aula 2 ✅
- Metodologia CRISP-DM ✅
- Tipos de Análise de Dados ✅
- Introdução ao RStudio e criação do seu Projeto da Disciplina ✅
- Introdução ao Sistema de Publicação Quarto ✅
- Introdução ao Git e GitHub: controle de versão e criação do seu repositório no GitHub ✅
Aula 3 ✅
- Breve Revisão sobre o RStudio ✅
- Sistema de Publicação Quarto: (Cont.) ✅
- Introdução ao Git e GitHub: (Cont.) ✅
- Sessão Prática: Fluxo de trabalho integrando RStudio/Quarto/R/Git/GitHub ✅
Aula 4 ✅
- Conceitos de Variáveis e Observações em Estatística ✅
- Conceito de Dados Organizados (Tidy Data) ✅
- Tipos atômicos e classes principais de dados da linguagem R ✅
- Tipos de Dados Tradicionais em Finanças: ✅
  - Dados em Secção-Cruzada (ou Transversal) (Cross-Section Data) ✅
  - Dados em Secções-Cruzadas Combinadas (Pooled Cross-Section Data) ✅
  - Dados em Séries Temporais (Time Series Data) ✅
  - Dados em Painel (ou Longitudinais) (Panel Data) ✅
- Importação e Preparação de Dados Típicos de Finanças com exemplos práticos ✅
Aula 5 ✅
- Metodologia CRISP-DM: Fases 2 e 3 ✅
- Revisão sobre Dados Organizados (Tidy Data) ✅
- Introdução ao Pacote tidyr: função pivot_longer() ✅
- Introdução ao Pacote dplyr: funções select() e filter() ✅
- Exercícios ✅
Aula 6 ✅
- Função mutate ✅
- Funções group_by e summarize ✅
- Exercícios ✅
Aula 7 ✅
- Introdução ao Pacote dplyr: Tipos Básicos de joins ✅
- Exercícios ✅
Aula 8 ✅
- Modelos ✅
- Conceitos Fundamentais de Probabilidade ✅
  - O que é Probabilidade? ✅
  - Probabilidade Condicional e Independência ✅
  - Amostra Aleatória ✅
  - Variáveis Aleatórias e Funções de Probabilidade ✅
  - Função de Distribuição Acumulada ✅
  - Lei dos Grandes Números ✅
- Distribuições de Probabilidade de VA Discretas ✅
  - Distribuição de Bernoulli ✅
  - Características de uma Distribuição de Probabilidade ✅
    - Valor Esperado ✅
    - Variância e Desvio-Padrão ✅
    - Assimetria e Curtose ✅
- Distribuição Binomial ✅
- Distribuições de Probabilidade de VA Contínuas ✅
  - Teorema Central do Limite ✅
  - Distribuição Normal ✅
Aula 10 ✅
- Simulação de Monte Carlo - Aplicações ✅
- Aplicação - Valor-em-Risco (VaR) ✅
  - Pacote tidyquant, Séries de Preços e de Rretornos de Acões ✅
  - Método Paramétrico ✅
  - Método Histórico ✅
  - Método de Simulação de Monte Carlo ✅
- Aplicação - ES/CVaR ✅

Nesta Aula

Tópicos - Fundamentos de Estatística e Simulação

Revisão de Matemática
Estatística, Probabilidade e Simulação
Parâmetro, Estimador/Estatística, Estimativa
Métodos de Inferência Estatística
Estimação Pontual de Parâmetros Populacionais
- Método da Máxima Verossimilhança
- Propriedades de Estimadores

Diretrizes para Aulas Mais Produtivas

⌨️ Código com método:

95% dos erros são evitáveis com:

Atenção na digitação
Respeitar a sequência lógica de etapas
Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

Compartilhe conhecimento
Resolva questões técnicas simples com colegas próximos
Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Funções Matemáticas em R

Função Matemática

Definição

Uma função matemática é uma relação entre dois conjuntos, onde cada elemento do primeiro conjunto (chamado de domínio) está associado a exatamente um elemento do segundo conjunto (chamado de imagem).

Formalmente, uma função $f$ de um conjunto $X$ para um conjunto $Y$ é uma regra que atribui a cada elemento $x \in X$ um único elemento $y \in Y$, denotado por $f(x)$.

Podemos escrever:

\[ f: X \to Y \]

onde $f(x)$ é o valor de $f$ em $x$.

Criando Funções Matemáticas Simples em R

Função Linear

\[ f(x) = 2x + 1, \quad x \in \mathbb{R} \]

# cria uma função linear
funcao_linear <- function(x) {
  return(2*x + 1)
}

# calculo de f(2)
funcao_linear(2)

[1] 5

Função Quadrática

\[ f(x) = -x^2 + x + 2, \quad x \in \mathbb{R} \]

# cria uma função quadrática
funcao_quadratica <- function(x) {
  return(-x^2 + x + 2)
}

# calculo de f(2)
funcao_quadratica(2)

[1] 0

Função Cúbica

\[ f(x) = x^3 - 2x - 5, \quad x \in \mathbb{R} \]

# cria uma função cúbica
funcao_cubica <- function(x) {
  return(x^3 - 2*x - 5)
}

# calculo de f(2)
funcao_cubica(2)

[1] -1

Função Exponencial

\[ f(x) = e^{3x}, \quad x \in \mathbb{R} \]

# cria uma função exponencial
funcao_exponencial <- function(x) {
  return(exp(3*x))
}

# calculo de f(2)
funcao_exponencial(2)

[1] 403.43

Função Logaritmo

\[ f(x) = \ln(x), \quad x \in (0, \infty) \]

# cria uma função logaritmo
funcao_logaritmo <- function(x) {
  return(log(x))
}

# calculo de f(2)
funcao_logaritmo(2)

[1] 0.69315

Gráficos de Funções Matemáticas em R

Função curve()

Definição

A função curve() de R permite que você crie gráficos de funções matemáticas de forma simples.

Função Linear

Gráfico: Função Linear

\[ f(x) = 2x + 1 \]

curve(funcao_linear, 
      from = -2, 
      to = 2, 
      ylab = "f(x)", 
      main = "Função Linear: f(x) = 2x + 1"
      )
abline(h = 0)
abline(v = 0)

Função Quadrática

Gráfico: Função Quadrática

\[ f(x) = x^2 - x - 2 \]

curve(funcao_quadratica, 
      from = -3, 
      to = 3, 
      ylab = "f(x)", 
      main = "Função Quadrática: f(x) = x^2 - x - 2"
      )
abline(h = 0)
abline(v = 0)

Função Cubica

Gráfico: Função Cubica

\[ f(x) = x^3 - 2x - 5 \]

curve(funcao_cubica, 
      from = -3, 
      to = 3, 
      ylab = "f(x)", 
      main = "Função Cúbica: f(x) = x^3 - 2x - 5"
      )
abline(h = 0)
abline(v = 0)

Função Exponencial

Gráfico: Função Exponencial

\[ f(x) = e^{3x} \]

curve(funcao_exponencial, 
      from = -1, 
      to = 1, 
      ylab = "f(x)", 
      main = "Função Exponencial: f(x) = exp(x)"
     )
abline(h = 0)
abline(v = 0)

Função Logaritmica

Gráfico: Função Logaritmica

\[ f(x) = \ln(x) \quad (x > 0) \]

curve(funcao_logaritmo, 
      from = 0.1, 
      to = 10, 
      ylab = "f(x)", 
      main = "Função Logaritmica: f(x) = ln(x)"
     ) 
abline(h = 0)
abline(v = 0)

Raízes de Funções Matemáticas em R

Raízes de uma Função

Definição

As raízes de uma função matemática são os valores de $x$ para os quais a função $f(x)$ é igual a zero. Formalmente, se $f$ é uma função de $x$, então os valores de $x$ que satisfazem a equação

\[ f(x) = 0 \]

são chamados de raízes da função $f$. Em outras palavras, as raízes são os pontos onde a curva da função intersepta o eixo $x$.

Função uniroot de R Base

Definição

A função uniroot da base R encontra raízes de funções contínuas reais de uma variável, utilizando o método da bisseção.

Raiz de uma Função Cúbica

# Definindo a função cúbica
cubica <- function(x) {
  x^3 - 2*x - 5
}

# Encontrando uma raiz no intervalo [2, 3]
uniroot(cubica, interval = c(2, 3))

$root
[1] 2.0945

$f.root
[1] -0.0001147

$iter
[1] 5

$init.it
[1] NA

$estim.prec
[1] 0.000061035

Função fzero do Pacote pracma

Definição

A função fzero do pacote pracma encontra as raízes de funções contínuas de funções de uma variável

Raízes de uma Função Cúbica

library(pracma)

# Definindo a função quadrática
fcubica <- function(x) {
  return(x^3 - 2*x - 5)
}

# Encontrando uma raiz no intervalo [-10, 10]
fzero(fcubica, c(2, 3))

$x
[1] 2.0946

$fval
[1] -0.00000000000000088818

Diferença entre `fzero()` e `uniroot()`

Comparação entre as funções

Função	Pacote	Método usado	Intervalo obrigatório?	Comentário
`fzero()`	`pracma`	Método híbrido (Newton-Raphson, secante, etc.)	Não – pode iniciar com ponto único ou intervalo	Mais flexível, mas depende do pacote externo
`uniroot()`	Base R	Bisseção	Sim – exige intervalo com mudança de sinal $f(a) \cdot f(b) < 0$	Mais robusto e confiável, mas menos flexível

fzero() aceita ponto inicial e escolhe o melhor método.
uniroot() requer que você garanta a mudança de sinal no intervalo fornecido.

Derivadas de Funções

Derivada Primeira

O que é a Derivada Primeira?

A derivada primeira de uma função em um ponto é a taxa de variação instantânea da função nesse ponto.

Intuição 1: Taxa de Variação

Imagine que você está dirigindo um carro. Se $f(t)$ representa a posição do carro ao longo do tempo, então:

A derivada $f'(t)$ representa a velocidade instantânea — ou seja, quão rápido a posição está mudando naquele exato instante.

Isso é como olhar no velocímetro do carro naquele segundo.

Intuição 2: Inclinação da Reta Tangente

Se você tem uma curva de uma função $f(x)$, a derivada $f'(x_0)$ representa a inclinação da reta tangente à curva no ponto $x_0$.

Se $f'(x_0) > 0$: a curva está subindo nesse ponto.
Se $f'(x_0) < 0$: a curva está descendo nesse ponto.
Se $f'(x_0) = 0$: a curva tem uma reta horizontal naquele ponto (possível máximo ou mínimo).

Definição Formal

\[ f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h} \]

Esse limite calcula a inclinação da reta secante entre dois pontos muito próximos.

Quando $h \to 0$, essa secante vira a reta tangente à curva no ponto.

Função Polinomial

Derivada de Função Polinomial

A regra para calcular a derivada de uma função polinomial é dada por:

\[ f(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0 \]

então a derivada $f'(x)$ é:

\[ f'(x) = n a_n x^{n-1} + (n-1) a_{n-1} x^{n-2} + \cdots + 1 a_1 \]

Dada a função:

\[ f(x) = 3x^2 \]

A derivada primeira de $f(x)$ é calculada da seguinte forma:

\[ f'(x) = \frac{d}{dx}(3x^2) \]

Usando a regra da potência, temos:

\[ f'(x) = 3 \cdot 2x^{2-1} \]

Simplificando, obtemos:

\[ f'(x) = 6x \]

Portanto, a derivada primeira de $f(x) = 3x^2$ é:

\[ f'(x) = 6x \]

Pacote Deriv para Derivadas Simbólicas

# ativa o pacote
library(Deriv)

# primeira derivada de uma função quadrática
primeira_derivada <- Deriv(~ 3*x^2, "x")
primeira_derivada

6 * x

Pacote Deriv para Derivadas Simbólicas

Encontrando a primeira derivada de $fx) = x^2 - 4*x + 4$

# ativa o pacote
library(Deriv)

# primeira derivada de uma função quadrática
primeira_derivada <- Deriv(~ x^2 - 4 * x + 4, "x")
primeira_derivada

2 * x - 4

$f(x) = -xˆ2$ - Primeiras Derivadas

Pacote numDeriv para Derivadas Numéricas

Descrição

Vimos que a primeira derivada de $f(x) = 3x^2$ é $f^{'}(x) = 6x$.

Qual o valor de $f^{'}(2)$?

\[ f^{'}(2) = 6 \times 2 = 12 \]

# carrega o pacote
library(numDeriv)

# define a função quadrática
funcao <- function (x) {return(3*x^2)}

# Derivada numérica da função quadrática
primeira_derivada_numerica <- grad(funcao, x = 2)
primeira_derivada_numerica

[1] 12

Derivada Segunda de Funções

O que é a Derivada Segunda?

A derivada segunda de uma função é a derivada da derivada primeira.

Se a derivada primeira mede a velocidade de variação da função, a derivada segunda mede a aceleração ou a curvatura — ou seja, o quanto a taxa de variação está mudando.

Exemplo:

Se $f(x) = 3x^2$, então:

Derivada primeira:

\[ f'(x) = 6x \]

Derivada segunda:

\[ f''(x) = \frac{d}{dx}(6x) = 6 \]

Ou seja, a taxa de variação de $f(x)$ (a derivada primeira) cresce a uma taxa constante de 6.

Derivada Segunda

Regra Geral

Se a função polinomial for:

\[ f(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0 \]

A derivada primeira é:

\[ f'(x) = n a_n x^{n-1} + (n-1)a_{n-1}x^{n-2} + \cdots + a_1 \]

E a derivada segunda é:

\[ f''(x) = n(n-1) a_n x^{n-2} + (n-1)(n-2) a_{n-1} x^{n-3} + \cdots \]

Repare que o grau da função cai duas vezes, e os coeficientes são multiplicados por dois fatores consecutivos decrescentes.

Exemplo: Para $f(x) = 3x^2$, temos:

$f'(x) = 6x$
$f''(x) = 6$

Derivada Segunda com o Pacote Deriv

library(Deriv)

# define a função
f <- function(x) {3*x^2}

# primeira derivada
derivada_primeira <- Deriv(f)

# segunda derivada
derivada_segunda <- Deriv(derivada_primeira)
derivada_segunda

function (x) 
6

Derivada Segunda - Exemplo

# define a função
f <- function(x) {x^2 - 4*x + 4}

# primeira derivada
derivada_primeira <- Deriv(f)

# segunda derivada
derivada_segunda <- Deriv(derivada_primeira)
derivada_segunda

function (x) 
2

Derivada Segunda com numDeriv

Derivada Segunda Numérica

Vamos calcular numericamente a derivada segunda de $f(x) = 3x^2$ no ponto $x = 2$.

Lembrando:

\[ f''(x) = 6 \]

library(numDeriv)

# função original
f <- function(x) {3*x^2}

# derivada segunda usando função hessian
segunda_derivada_numerica <- hessian(f, x = 2)
segunda_derivada_numerica

     [,1]
[1,]    6

Interpretação Geométrica da Derivada Segunda

Nota

A derivada segunda indica se a curva está:

Concava para cima ($f''(x) > 0$): como um $\cup$
Concava para baixo ($f''(x) < 0$): como um $\cap$
Reta (sem curvatura) ($f''(x) = 0$)

No caso de $f(x) = 3x^2$, temos:

Derivada segunda constante: $f''(x) = 6$
Isso significa que a curva tem concavidade para cima constante, como um “U” aberto.

Interpretação Geométrica da Derivada Segunda

Função tem Mínimo

Interpretação Geométrica da Derivada Segunda

Função tem Máximo

Interpretação Geométrica da Derivada Segunda

Ponto de Inflexão

Interpretação Geométrica da Derivada Segunda

Função sem Concavidade/Curvatura

Encontrando Máximos ou Mínimos de Funções

Encontrando o Máximo (ou Mínimo) de uma Função

Procedimento

Para encontrar máximos ou mínimos de uma função, siga os passos:

Encontre a primeira derivada da função $f(x)$, denotada por $f'(x)$.
Resolva $f'(x) = 0$ para encontrar os pontos críticos.
Calcule a segunda derivada $f''(x)$.
Avalie $f''(x)$ em cada ponto crítico:
- Se $f''(x) < 0$, há um máximo local.
- Se $f''(x) > 0$, há um mínimo local.
- Se $f''(x) = 0$, o teste é inconclusivo.

Quando $f'(x) = 0$ e $f''(x) < 0$, a função está no topo de uma colina — um máximo local.

Maximizando uma Função

Exemplo

Considere $f(x) = -x^2 + x + 2$. Vamos aplicar o procedimento:

Primeira derivada:

\[ f'(x) = \frac{d}{dx}(-x^2 + x + 2) = -2x + 1 \]

Pontos críticos:

\[ -2x + 1 = 0 \Rightarrow x = \frac{1}{2} \]

Segunda derivada:

\[ f''(x) = \frac{d^2}{dx^2}(-x^2 + x + 2) = -2 \]

Como $f''\left(\frac{1}{2}\right) = -2 < 0$, temos um máximo local.
Valor máximo:

\[ f\left(\frac{1}{2}\right) = -\frac{1}{4} + \frac{1}{2} + 2 = \frac{9}{4} \]

Resultado: máximo local em $x = \frac{1}{2}$, sendo o valor da função neste ponto $f(1/2) = \frac{9}{4}$

Gráfico: $f(x) = -x^2 + x + 2$

Função `optimize()` em R

Como encontrar o máximo de uma função?

A função optimize() do R é projetada para minimizar funções reais de uma variável. Para maximizar uma função $f(x)$, usamos a equivalência:

\[ \max f(x) = \min [-f(x)] \]

Ou seja, maximizamos $f(x)$ minimizando $-f(x)$.

Vamos aplicar isso à função:

\[ f(x) = -x^2 + x + 2 \]

# Define a função original
f <- function(x) {-x^2 + x + 2}

# Maximização via minimização de -f(x)
resultado <- optimize(function(x) -f(x), interval = c(-1, 2))

# Recupera os resultados
x_max <- resultado$minimum            # ponto de máximo
f_max <- -resultado$objective         # (-1)xf(x_max)

# Exibe os resultados
list(x_max = x_max, f_max = f_max)

$x_max
[1] 0.5

$f_max
[1] 2.25

Resumo:

optimize() encontra o ponto que minimiza a função fornecida.
Para obter um máximo, forneça $-f(x)$ e depois inverta o sinal do resultado para $f(x)$

Resultado final:

A função $f(x) = -x^2 + x + 2$ atinge seu máximo em $x = 0,5$.
O valor da função no ponto de máximo é:

\[ f(0{,}5) = 2,25 \]

Encontrando Máximos com `optimize()` em R

Por que multiplicar por -1?

A função optimize() do R minimiza funções por padrão.

Se queremos maximizar uma função $f(x)$, precisamos transformar o problema:

\[ \max f(x) \;\equiv\; \min [-f(x)] \]

Assim, usamos:

optimize(function(x) -f(x), interval = c(a, b))

O valor retornado será o máximo de $f(x)$.

Resumo: Maximizar $f(x)$ é o mesmo que minimizar $-f(x)$.

Exemplo

Maximização de Função com optimize()

Vamos encontrar o máximo da função:

\[ f(x) = -x^2 + x + 2 \]

no intervalo $[-1,; 2]$.

Como optimize() minimiza funções, usamos:

resultado <- optimize(function(x) -f(x), interval = c(-1, 2))

Ou seja, minimizamos $-f(x)$ para encontrar o máximo de $f(x)$.

O valor de resultado$maximum será o ponto onde $f(x)$ atinge o máximo.
resultado$objective será $-f(x)$ nesse ponto. Para recuperar $f(x)$, basta multiplicar por -1.

Visualização: Maximizar $f(x)$ = Minimizar $-f(x)$

Interpretação

Visualização

A curva azul representa $f(x)$ (a função que queremos maximizar).
A curva vermelha representa $-f(x)$.
O optimize() encontra o mínimo da curva vermelha, que ocorre no mesmo ponto em que a curva azul atinge o máximo.
Portanto, maximizar $f(x)$ é equivalente a minimizar $-f(x)$.

Exercícios

Exercício 1

Utilizando a criação de funções matemáticas e a função curve, crie os gráficos das seguintes funcões:

A função de demanda linear é definida como: $f(x) = 50 - 2x$ onde $x$ é a quantidade demandada e $f(x)$ é o preço.
A função de utilidade Cobb-Douglas é definida como: $f(x) = 10x^{0.5}$, onde $x$ é a quantidade de um bem e $f(x)$ é a utilidade.
A função de crescimento logístico é definida como: $f(x) = \frac{100}{1 + e^{-0.1(x - 50)}}$ onde $x$ é o tempo.

Exercícios

Exercício 2

Utilizando a função optimize da linguagem R. Encontre o valor de $x$ que maximiza a seguinte função quadrática:

\[ f(x) = -2x^2 + 4x + 1 \]

Fundamentos de Probabilidade, Estatística e Simulação

Recaptulando: Teoria da Probabilidade

Modelos Probabilísticos = Distribuições de Probabilidade

Recaptulando: Teoria da Probabilidade

Característica da Distribuição de Probabilidade de uma VA:

Valor Esperado ou Média = $E(Y)$

Média ponderada de todos os valores possíveis que $Y$ pode assumir, ponderada pelas suas respectivas probabilidades:

\[ E[Y] = \sum_{y} y \cdot P(Y = y) \quad \text{(variáveis discretas)} \] \[ E[Y] = \int_{-\infty}^{\infty} y \cdot f(y) \, dy \quad \text{(variáveis contínuas)} \]

Variância = $V(Y)$ = $\sigma^2$

A variância de uma variável aleatória mede a variabilidade dos valores de $Y$ em torno do seu valor esperado.

\[ \text{Var}(Y) = E[(Y - E[Y])^2] = E[Y^2] - (E[Y])^2 \]

Desvio-Padrão = $\sqrt{V(Y)}$ = $\sigma$

O desvio-padrão é a raiz quadrada da variância, fornecendo uma medida de variabilidade que está na mesma unidade de Y.

\[ \sqrt{\text{Var}(X)} = \sigma \]

Quantis

Os quantis são valores que particionam a distribuição de modo que há uma probabilidade específica de que a variável aleatória seja menor que o quantil. Por exemplo, o quantil de 0.25 (ou o primeiro quartil) é o valor abaixo do qual 25% dos dados podem ser encontrados.

Coeficiente de Assimetria

Mede a assimetria de uma distribuição. Uma distribuição perfeitamente simétrica, como a distribuição normal, possui coeficeinte de assimetria igual a zero.

\[ \text{Assimetria} = E\left[\left(\frac{Y - E[Y]}{\sigma_Y}\right)^3\right] \]

Coeficiente de Curtose

É uma medida do achatamento ou da concentração de valores no centro da distribuição comparado a uma distribuição normal. Um distribuição normal tem curtose igual a 3.

\[ \text{Curtose} = E\left[\left(\frac{Y - E[Y]}{\sigma_Y}\right)^4\right] - 3 \]

Recaptulando: Teoria da Probabilidade

Distribuição de Diversas Variáveis Aleatórias

Distribuição Conjunta: $f_{X,Y}(x,y)$

A distribuição conjunta de duas variáveis aleatórias X e Y é a função de densidade de probabilidade que descreve a probabilidade de X e Y assumirem valores específicos simultaneamente.

Discreta: $f(x, y) = P(X = x \cap Y = y)$
Contínua: $f(x, y)$ é uma densidade tal que \[ \iint f(x, y)\,dx\,dy = 1 \]

Distribuição Marginal: $f_X(x)$ e $f_Y(y)$

As distribuições marginais mostram o comportamento de uma única variável.

São obtidas a partir da distribuição conjunta somando (ou integrando) sobre a outra variável:

Para $X$:

\[ f_1(x) = \sum_y f(x, y) \quad \text{ou} \quad f_1(x) = \int f(x, y)\,dy \]

Distribuição Condicional: $f_{X|Y}(x|y)$

A distribuição condicional de $Y$ dado $X = x$ é:

\[ f(y \mid x) = \frac{f(x, y)}{f_1(x)} \quad \text{(se } f_1(x) > 0\text{)} \]

Independência de Variáveis Aleatórias

$X$ e $Y$ são independentes se:

\[ f(x, y) = f_1(x) \cdot f_2(y) \]

Covariância: $Cov(X, Y)$

A covariância entre duas variáveis aleatórias X e Y é uma medida da direção da relação linear entre elas.

\[ \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = E(XY) - E(X)E(Y) \]

Correlação: $\rho_{X, Y}$

A correlação é a covariância normalizada pelos desvios-padrão de X e Y, fornece uma medida da relação linear entre as variáveis que varia entre -1 e +1.

\[ \text{Cor}(X, Y) = E\left[ \left( \frac{X - \mu_X}{\sigma_X} \right)\left( \frac{Y - \mu_Y}{\sigma_Y} \right) \right] = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} \]

Simulação (Método) de Monte Carlo

Aplicações

Simulação é usada para:

Entender o Processo Gerador dos Dados assumido ✅
Resolver problemas envolvendo probabilidades (i.e., estimar probabilidades) ✅
Calcular características de funções densidade de probabilidade ✅
Transformar resultados estatísticos em quantidades de interesse ✅
Obter uma resposta correta: mais fácil que cálculos matemáticos ✅
Avaliar estimadores de parâmetros (hoje)

Como Aprender o Processo Gerador a partir dos Dados?

Processo Gerador dos Dados

Teoria da Probabilidade: Assume o Processo Gerador dos Dados ✅
Inferência Estatística: Aprende o Processo Gerador dos Dados a partir dos dados disponíveis

Como aprender o Processo Gerador a partir dos Dados?

Como Aprender o Processo Gerador a partir dos Dados?

Processo Gerador dos Dados

Mais especificamente, qual membro da classe de distribuições de probabilidade assumida deu origem aos dados?
O que precisamos conhecer de uma Distribuição Normal para calcular probabilidades?
- Os parâmetros da distribuição.
- $E(Y) = \mu$ e $V(Y) = \sigma^2$ (ou $\sqrt{\sigma^2} = \sigma$)

Análise Estatística Tradicional

Descrição

Assume que os dados são gerados por um modelo probabilístico conhecido (PGD), expresso como uma função matemática com parâmetros desconhecidos (i.e., distribuição de probababilidade).
Objetivo: Estimar os parâmetros do modelo a partir dos dados disponíveis.
Métodos Típicos:
- Modelos de Regressão linear
- Modelos de Regressão Não Linear (probit, logit, etc.)
- Modelos para Séries Temporais (ARIMA, GARCH, VAR, etc.)
- Modelos de Regressão para Dados em Painel (Efeitos Fixos, Efeitos Aleatórios, etc.)
Foco: Inferência sobre os parâmetros para entender o processo subjacente.

Questões de Interesse e Estatística Tradicional

Exemplos de Questões de Interesse em Finanças

Quais são os fatores fundamentais que determinam os preços dos ativos e como esses fatores podem ser modelados para avaliar adequadamente o valor de um ativo?
Como os retornos dos ativos financeiros, como ações ou títulos, são afetados por fatores macroeconômicos, mudanças na política monetária, ou eventos de mercado?
Como estimar e prever a volatilidade dos mercados financeiros ou de ativos específicos?
Os preços dos ativos refletem todas as informações disponíveis e, portanto, os mercados são informacionalmente “eficientes”?

Parâmetro, Estimador, Estatística e Estimativa

Notação e Conceitos

Descrição

	População	Amostra
Símbolos	$\mu$, $\sigma$, $p$, $\rho$	$\bar{x}$, $s$, $\hat{p}$, $r$
Fixo ou aleatório?	Fixo (desconhecido)	Aleatório
Obtido por	Censo/dados históricos	Amostragem
Objetivo	Verdade a descobrir	Instrumento de inferência

Estimador Pontual (Fórmula)

Descrição

Estimador	Fórmula	O que faz
Média amostral	$\bar{X} = \frac{\sum_{i=1}^{n} X_i}{n}$	Estima $\mu$
Desvio amostral	$s = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}$	Estima $\sigma$
Proporção amostral	$\hat{p} = \frac{X}{n}$	Estima $p$
Correlação amostral	$r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1)S_X S_Y}$	Estima $\rho$

Conceitos Centrais

Estimador, Estatística e Estimativa

Estimador: Fórmula que aplicamos aos dados da amostra para obter um valor que estima uma parâmetro populacional.
Estatística: É qualquer função dos dados da amostra. Todo estimador é uma estatística, mas nem toda estatística é um bom estimador.
Estimativas: Resultados numéricos obtidos ao aplicar os estimadores

Distinção Fundamental

Estatística e Estimador

São variáveis aleatórias
Natureza: Função dos dados
Varia: Entre amostras
Exemplo: $\bar{X} = \frac{\sum X_i}{n}$
Distribuição: Tem sua própria distribuição (distribuição amostral)

Estimativa

É: Um número fixo
Natureza: Valor calculado
Fixo: Para uma amostra específica
Exemplo: $\bar{x} = 7.82$
Interpretação: Realização de um estimador ou estatística

Quiz

Identifique: Parâmetro, Estimador/Estatística ou Estimativa?

Uma empresa de e-commerce analisa seus pedidos:

A fórmula $s^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}$ para calcular variância
O valor R$ 127,50 calculado como média de 1.000 pedidos
A verdadeira proporção de clientes satisfeitos (nota $\geq$ 8)
$\hat{p} = \frac{\sum_{i=1}^{n} Xi}{n}$ = proporção amostral de clientes satisfeitos
O desvio-padrão ($\sigma$) = R$ 45,00 de todos os pedidos históricos

Quiz

Respostas

Estimador/Estatística (fórmula/método para estimar $\sigma^2$)
Estimativa (valor numérico específico de $\bar{X}$)
Parâmetro ($p$ - proporção populacional)
Estimador/Estatística (variável aleatória)
Parâmetro ($\sigma$ - desvio padrão populacional)

Métodos de Inferência Estatística

Inferência Estatística

Definição

Inferência Estatística:

Permite inferir características da população a partir da amostra, como médias, variâncias, proporções, etc.

Objetivo:

Estimar parâmetros populacionais, testar hipóteses e fazer previsões sobre a população com base em dados amostrais.

Por que é necessária?:

Na maioria das vezes, não é possível coletar dados de toda a população, então usamos amostras para fazer inferências sobre a população como um todo.

Métodos de Inferência Estatística

Tipos

Os métodos clássicos de Inferência Estatística podem ser divididos em:

Métodos de Estimação de Parâmetros:

Estimação Pontual: Procura fornecer o melhor valor único para um parâmetro desconhecido.
Estimação Intervalar: Fornece um intervalo de valores que, com uma certa confiança, inclui o valor do parâmetro desconhecido.

Testes de Hipóteses:

Procedimentos para testar se uma afirmação sobre uma característica da população é verdadeira.

Hoje, trataremos do Métodos de Estimação Pontual de parâmetros.

Métodos Paramétricos

Definição

Os métodos estatísticos paramétricos são um conjunto de técnicas de análise estatística que assumem que os dados amostrais vêm de uma população que pode ser adequadamente descrita por uma distribuição de probabilidade que é completamente especificada por um conjunto finito de parâmetros.
Esses métodos são fundamentados na hipótese de que a forma funcional da distribuição subjacente aos dados pode ser conhecida, e o objetivo principal é estimar os valores dos parâmetros dessa distribuição.

Métodos Paramétricos

Características

Modelagem Baseada em Distribuição Conhecida:

Utilizam modelos probabílisticos (dist. de probabilidade) que especificam uma forma funcional exata para a distribuição dos dados, como as distribuições normal, log-normal, binomial, Poisson, entre muitas outras.

Estimação de Parâmetros:

Envolve a determinação dos valores dos parâmetros da distribuição que melhor se ajustam aos dados observados, geralmente através de métodos como o de máxima verossimilhança, método dos momentos, bayesiano.

Há estimadores pontuais e intervalares para os parâmetros.

Eficiência com Suposições Corretas:

Quando as hipóteses do modelo estão corretas, os métodos paramétricos são geralmente mais eficientes (ou seja, têm menor variância) do que os métodos não paramétricos, proporcionando estimativas mais precisas e testes estatísticos mais poderosos.

Modelos Interpretáveis:

Os modelos e estimativas dos parâmetros são interpretáveis e, muitas vezes, fundamentados em teorias da área de aplicação.

Métodos de Estimação Pontual de Parâmetros

Estimação Pontual

Estimação Pontual

Em Estatística, a Estimação Pontual envolve o uso de dados amostrais para estimar um parâmetro “populacional”.
Um Estimador é uma função matemática dos dados da amostra.
Estimadores pontuais são construídos para estimar parâmetros populacionais.
Uma Estimativa é um valor específico de um estimador obtido com dados de uma amostra.

Métodos de Estimação Pontual de Parâmetros

Estimação Pontual

$\bar{x} = \frac{\sum{x_i}}{n}$ é um estimador de $E(Y) = \mu$.
$\bar{x} = 3.14$ é uma estimativa de $E(Y) = \mu$.
- É possível obter diversos estimadores para um parâmetro populacional, assim, o trabalho do estatístico é construir bons estimadores.

Métodos de Estimação

Alguns dos Principais Métodos

Método da Máxima Verossimilhança
Método Bayesiano
Método dos Momentos
Método dos Momentos Generalizados
…

Método da Máxima Verossimilhança

Definição

O Método da Máxima Verossimilhança (MLE, do inglês Maximum Likelihood Estimation) é um método amplamente utilizado em estatística para a estimação de parâmetros de modelos probabilísticos.
Este método baseia-se no princípio de determinar os valores dos parâmetros que maximizam a função de verossimilhança, que representa a probabilidade de observar os dados amostrais dados os parâmetros do modelo.

Método da Máxima Verossimilhança

Função de Verossimilhança

Considerando amostra $(X_1, X_2, \dots, X_n)$ de dados independentes e identicamente distribuídos de uma distribuição com vetor de parâmetros $\theta$, a função de verossimilhança $\mathcal{L}(\theta)$ é definida como:

\[ L(\theta) = \prod_{i=1}^n f(x_i \mid \theta) \] sendo $f(x_i \mid \theta)$ função de probabilidade de $x_i$ condicionada a $\theta$.

Função de Log-Verossimilhança

A função log-verossimilhança, denotada por $\ell(\theta)$, é utilizada para simplificar a otimização, sendo expressa por:

\[ \ell(\theta|y) = \log L(\theta|y) = \sum_{i=1}^n \log f(x_i \mid \theta) \]

Método da Máxima Verossimilhança

Um problmea de Otimização

Os parâmetros são estimados maximizando a função de log-verossimilhança ($\ell(\theta)$), envolvendo a resolução das equações:

\[ \frac{\partial \ell(\theta|y)}{\partial \theta_j} = 0 \quad \text{para todo } j \]

A solução dessas equações fornece os estimadores de máxima verossimilhança $\hat{\theta}$.

Como Encontrar o Máximo?

Um problmea de Otimização

Objetivo: Encontrar os valores de $\theta = \{\theta_1,...\theta_k\}$ que maximizam $\ell(\theta)$

Analíticamente: Ás vezes é possível.

Tome a derivada parcial de $\ell(\theta)$ em relação à $\theta$.
Iguale a derivada parcial a zero:

\[ \Biggl|\frac{\partial \ell(\theta|y)}{\partial \theta_j}\Biggr| = 0 \] - Se possível, resolva para $\theta$ e chame de $\hat{\theta}$

Verifique as condiçòes de segunda ordem para um máximo: a derivada parcial de segunda ordem em relação à $\theta$ é negativa?

Numericamente: Maioria das vezes.

Deixe o computador fazer o trabalho usando um método de otimização numérico.

Função de (log-)Verossimilhança

Função de (log-)Verossimilhança

Esta curva resume todas as informações que os dados fornecem sobre o vetor de parâmetros $\theta$, assumindo o modelo.

Método da Máxima Verossimilhança

EMV dos Parâmetros de uma Distribuição Normal

Seja $X \sim N(\mu,\sigma^2)$, a função densidade de probabilidade (fdp) é:

\[ f(x)={\frac {1}{{\sqrt {2\pi \sigma ^{2}}}\ }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right) \]

A correspondente fpd Para uma amostra i.i.d (indepentente e identicamente distribuída) é dada por:

\[ f(x_{1},\ldots ,x_{n})=\prod _{i=1}^{n}f(x_{i})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}\right) \]

Esta classe de distribuições tem dois parâmetros: $\theta = (\mu, \sigma)$; então maximizamos a função de verossimilhança $L(\mu ,\sigma) = f(x_1,\ldots,x_n ∣\mu,\sigma)$ em relação aos dois parâmetros simultaneamente ou, se possível, individualmente.

Método da Máxima Verossimilhança

EMV dos Parâmetros de uma Distribuição Normal

Seja $X_1, X_2, \dots, X_n \overset{\text{iid}}{\sim} \mathcal{N}(\mu, \sigma^2)$. A função de verossimilhança conjunta é:

\[ L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x_i - \mu)^2}{2\sigma^2} \right) \]

A log-verossimilhança é dada por:

\[ \log L(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]

Para obter o estimador de máxima verossimilhança de $\mu$, mantemos $\sigma^2$ fixo e derivamos:

\[ \begin{aligned} \frac{\partial}{\partial \mu} \log L(\mu, \sigma^2) &= \frac{\partial}{\partial \mu} \left[ -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right] \\ &= -\frac{1}{2\sigma^2} \cdot \sum_{i=1}^n \frac{\partial}{\partial \mu} (x_i - \mu)^2 \\ &= -\frac{1}{2\sigma^2} \cdot \sum_{i=1}^n [-2(x_i - \mu)] \\ &= \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) \end{aligned} \]

Igualando a zero e resolvendo:

\[ \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0 \;\Rightarrow\; \sum_{i=1}^n (x_i - \mu) = 0 \;\Rightarrow\; n\bar{x} - n\mu = 0 \;\Rightarrow\; \boxed{\widehat{\mu} = \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i} \]

Esse estimador é não-viesado:

\[ E(\widehat{\mu}) = E(\bar{x}) = \mu \]

e sua variância e desvio-padrão são:

\[ \mathrm{Var}(\bar{x}) = \frac{\sigma^2}{n}, \quad \mathrm{DP}(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]

Para encontrar o EMV de $\sigma^2$, derivamos a log-verossimilhança em relação a $\sigma^2$, mantendo $\mu = \bar{x}$:

\[ \begin{aligned} \frac{\partial}{\partial \sigma^2} \log L(\mu, \sigma^2) &= -\frac{n}{2} \cdot \frac{1}{\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 \\ &= -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \bar{x})^2 \end{aligned} \]

Igualando a zero:

\[ -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \bar{x})^2 = 0 \]

Multiplicando ambos os lados por $2\sigma^4$:

\[ -n\sigma^2 + \sum_{i=1}^n (x_i - \bar{x})^2 = 0 \;\Rightarrow\; \boxed{\widehat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2} \]

Mas por que não usamos esse estimador?

Porque o estimador de máxima verossimilhança é viesado, especialmente para amostras pequenas. Por isso, usamos como estimador não-viesado da variância populacional:

\[ \boxed{s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2} \]

Esse divisor $n-1$ corrige o viés, pois reflete o fato de que $\bar{x}$ é uma estimativa empírica usada no cálculo da variância.

Propriedades de Estimadores Pontuais

Propriedades de Estimadores

Estimador Não Viesado

Um estimador $\hat{\theta}$ é dito não viesado para um parâmetro $\theta$ se o valor esperado do estimador é igual ao valor verdadeiro do parâmetro. Matematicamente:

\[ \mathbb{E}(\hat{\theta}) = \theta \]

Propriedades dos Estimadores de MV de $\mu$ e $\sigma$

Propriedades do Valor Esperado de Variáveis Aleatórias

Linearidade:

\[ \begin{align} E[X_1 + X_2 + \ldots + X_n ] &= E[X_1] + E[X_2] + \ldots + E[X_N] \\ E\left[\sum_{i=1}^n X_i\right] &= \sum_{i=1}^n E[X_i] \end{align} \]

Valor Esperado de uma Constante:

\[ E[c] = c \rightarrow E[cX] = cE[X] \]

Valor Esperado do Produto de Variáveis Independentes

\[ E[X_1 X_2] = E[X_1]E[X_2] \]

Propriedade do Estimador de MV de $\mu$ e $\sigma$

Estimador não-viesado (ou não tendencioso)

\[ \begin{align} E[\bar{x}] &= E\left[\frac{\sum_{i=1}^n x_i}{n}\right] \\ &= \frac{1}{n} \sum_{i=1}^n E[x_i] \\ &= \frac{1}{n} \sum_{i=1}^n \mu \\ &= \frac{1}{n} \cdot n\mu \\ &= \mu \end{align} \]

Propriedade do Estimador de MV de $\sigma$

Estimador viesado corrigido

O estimador de máxima verossimilhança da variância $(\sigma^2)$ de uma distribuição normal é viesado:

\[ \begin{align} E[\hat{\sigma}^2] &= E\left[\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\right] \\ &= \frac{n-1}{n}\sigma^2 \end{align} \]

Isso mostra que $\hat{\sigma}^2$ é viesado.

Para corrigir esse viés, multiplicamos o estimador por \[\frac{n}{n-1}\], obtendo o estimador corrigido:

\[ \boxed{s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2} \] Esse estimador é não viesado, pois $E[s^2] = \sigma^2$.

Propriedades de Estimadores

Estimador Eficiente

Um estimador é considerado eficiente dentro de uma classe de estimadores se ele possui a menor variância possível entre todos os estimadores não viesados dessa classe para o parâmetro estimado.

Se $\hat{\theta}$ é um estimador não viesado, então é eficiente se:

\[ \text{Var}(\hat{\theta}) \leq \text{Var}(\tilde{\theta}) \quad \forall \tilde{\theta} \text{ não viesados} \]

onde $\tilde{\theta}$ é qualquer outro estimador não viesado do parâmetro $\theta$.

Acurácia e Precisão de Estimadores

Algumas Propriedades Assintóticas dos EMV

Estimador Consistente

Um estimador $\hat{\theta}_n$ é consistente para $\theta$ se, à medida que o tamanho da amostra $n$ aumenta, o estimador converge em probabilidade para o valor verdadeiro do parâmetro.

Matematicamente:

\[ \hat{\theta}_n \xrightarrow{P} \theta \quad \text{quando} \quad n \to \infty \]

Ou, de forma equivalente, a variância do estimador converge a zero e o viés converge a zero conforme $n$ aumenta:

\[ \lim_{n \to \infty} \text{Var}(\hat{\theta}_n) = 0 \quad \text{e} \quad \lim_{n \to \infty} \mathbb{E}(\hat{\theta}_n - \theta) = 0 \]

Propriedades dos Estimadores de Máxima Verossimilhança

Os estimadores obtidos pelo método da máxima verossimilhança possuem propriedades assintóticas desejáveis, assumindo que o modelo é correto:

Consistência Assintótica

$\hat{\theta}$ converge em probabilidade para $\theta$ quando o tamanho da amostra aumenta.

\[ \hat{\theta}_n \xrightarrow{p} \theta \quad \text{quando} \quad n \to \infty \]

Eficiência Assintótica

$\hat{\theta}$ é assintoticamente o estimador com a menor variância possível.

Normalidade Assintótica

A distribuição de $\hat{\theta}$ aproxima-se de distribuição unormal à medida que o tamanho da amostra aumenta.

\[ \sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N(0, I(\theta)^{-1}) \]

Propriedades dos EMV via Simulação de MC

# fixando a média e o desvio-padrão de uma VA normal padronizada
mu <- 0
sigma <- 1

# n é tamanho de cada amostra. 
# T é o número de simulacoes de cada amostra

n0 <- 10 
n1 <- 100
n2 <- 1000
n3 <- 10000
T <- 1000

# fixa a semente do gerador de numeros aleatorios
set.seed(999)

# simula 1000 amostras (linhas) de tamanho 10 (colunas)
amostras0 <- rnorm(n0 * T, mu, sigma)
amostras0 <- matrix(amostras0, nrow = T, ncol = n0)
dim(amostras0)

# simula 1000 amostras de tamanho 100
amostras1 <- rnorm(n1 * T, mu, sigma)
amostras1 <- matrix(amostras1, nrow = T, ncol = n1)
dim(amostras1) # dim retorna n. de linhas x n. de colunas

# simula 1000 amostras de tamanho 1000
amostras2 <- rnorm(n2 * T, mu, sigma)
amostras2 <- matrix(amostras2, nrow = T, ncol = n2)
dim(amostras2)

# simula 1000 amostras de tamanho 10000
amostras3 <- rnorm(n3 * T, mu, sigma)
amostras3 <- matrix(amostras3, nrow = T, ncol = n3)
dim(amostras3)


## aqui, os EMV são:

# 1000 médias calculadas de 1000 amostras de tamanho 10
xbar0 <- apply(amostras0, 1, mean)

# 1000 médias calculadas de 1000 amostras de tamanho 100
xbar1 <- apply(amostras1, 1, mean)

# 1000 médias calculadas de 1000 amostras de tamanho 1000
xbar2 <- apply(amostras2, 1, mean)

# 1000 médias calculadas de 10000 amostras de tamanho 10000
xbar3 <- apply(amostras3, 1, mean)


## mostra a normalidade assintótica
hist(xbar0)
hist(xbar1)
hist(xbar2)
hist(xbar3)

## graficos quantil-quantil para testar a normalidade
qqnorm(xbar0)
qqnorm(xbar1)
qqnorm(xbar2)
qqnorm(xbar3)

# calcula o viés dos EMV
vies0 = xbar0 - mu
vies1 = xbar1 - mu
vies2 = xbar2 - mu
vies3 = xbar3 - mu

# viés médio 
mean(vies0)
mean(vies1)
mean(vies2)
mean(vies3)

Demonstração de Propriedades via Simulação de MC

Os resultados da simulação mostram que quanto maior for $n$, mais próximos os vieses médios de $\bar{x}$ estão de 0.
Isso mostra que o EMV da média da distribuição normal é não viesado, assintoticamente.
Também mostram que o EMV da média da distribuição normal converge em probabilidade para o valor verdadeiro, 0 no caso, e que, portanto, é assintoticamente consistente.

Exercício 1

Verificação de Viés e Consistência de Estimadores

Considere uma variável aleatória Y para a qual:

$E[Y_i] = \mu$
Os $Y_i$ são independentes.

Utilizando as propriedades do valor experado e do somatório de uma constante ($\sum_{i=1}^n c = nc$).

Verique se os seguintes estimadores de $\mu$ são não viesados.

\[ a = \frac{1}{n} \sum_{i=1}^{n} Y_i + 1.5 \]

\[ b = \frac{1}{n} \sum_{i=1}^{n} Y_i + \sum_{i=1}^{5} \frac{Y_i}{n} \]

Pelos resultados do item a, você consegue avaliar se os estimadores são consistentes? Isto é, se cada estimador converge para $\mu$ à medida que $n \rightarrow \infty$

Exercício 2

EMV de $p$ em uma Distribuição Binomial

Considere um experimento binomial com:

Número de ensaios: $n$
Probabilidade de sucesso: $\theta$
Número de sucessos: $x$

A função de probabilidade da distribuição binomial é:

\[ P(X = x) = \binom{n}{x} p^x (1 - p)^{n - x} \]

Sabemos que $n$ é conhecido, mas $p$ é desconhecido. Seu objetivo é encontrar uma estimativa de Máxima Verossimilhança (EMV) de $p$.

Dados

Suponha que, em 10 experimentos binomiais independentes com $n = 5$ tentativas cada, observamos os seguintes números de sucessos:

dados <- c(3, 2, 4, 3, 2, 5, 1, 2, 3, 4)

Referências

Atualizando os Repositórios

Instruções

No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:

git status

Você pode adicionar todos os arquivos de uma vez com:

git add .

Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):

git status

Se tudo estiver em verde, faça um commit com uma mensagem descritiva:

git commit -m "atualizacoes aula 11"

Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:

git add relatorios/09-relatorio/09-relatorio.qmd

Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:

git commit -m "atualizacoes aula 11"

Envie o repositório local atualizado para o GitHub:

git push origin main

Estimador	Fórmula	O que faz
Média amostral	\(\bar{X} = \frac{\sum_{i=1}^{n} X_i}{n}\)	Estima \(\mu\)
Desvio amostral	\(s = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}\)	Estima \(\sigma\)
Proporção amostral	\(\hat{p} = \frac{X}{n}\)	Estima \(p\)
Correlação amostral	\(r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1)S_X S_Y}\)	Estima \(\rho\)

	População	Amostra
Símbolos	\(\mu\), \(\sigma\), \(p\), \(\rho\)	\(\bar{x}\), \(s\), \(\hat{p}\), \(r\)
Fixo ou aleatório?	Fixo (desconhecido)	Aleatório
Obtido por	Censo/dados históricos	Amostragem
Objetivo	Verdade a descobrir	Instrumento de inferência

Introdução à Ciência de Dados

Diário de Bordo

Nesta Aula

Funções Matemáticas em R

Função Matemática

Criando Funções Matemáticas Simples em R

Função Quadrática

Função Cúbica

Função Exponencial

Função Logaritmo

Gráficos de Funções Matemáticas em R

Função curve()

Função Linear

Função Quadrática

Função Cubica

Função Exponencial

Função Logaritmica

Raízes de Funções Matemáticas em R

Raízes de uma Função

Função uniroot de R Base

Função fzero do Pacote pracma

Diferença entre fzero() e uniroot()

Derivadas de Funções

Derivada Primeira

Intuição 1: Taxa de Variação

Intuição 2: Inclinação da Reta Tangente

Definição Formal

Função Polinomial

Pacote Deriv para Derivadas Simbólicas

Pacote Deriv para Derivadas Simbólicas

\(f(x) = -xˆ2\) - Primeiras Derivadas

Pacote numDeriv para Derivadas Numéricas

Derivada Segunda de Funções

Derivada Segunda

Derivada Segunda com o Pacote Deriv

Derivada Segunda - Exemplo

Derivada Segunda com numDeriv

Interpretação Geométrica da Derivada Segunda

Interpretação Geométrica da Derivada Segunda

Interpretação Geométrica da Derivada Segunda

Interpretação Geométrica da Derivada Segunda

Interpretação Geométrica da Derivada Segunda

Encontrando Máximos ou Mínimos de Funções

Encontrando o Máximo (ou Mínimo) de uma Função

Maximizando uma Função

Gráfico: \(f(x) = -x^2 + x + 2\)

Função optimize() em R

Encontrando Máximos com optimize() em R

Exemplo

Visualização: Maximizar \(f(x)\) = Minimizar \(-f(x)\)

Interpretação

Exercícios

Exercícios

Fundamentos de Probabilidade, Estatística e Simulação

Recaptulando: Teoria da Probabilidade

Recaptulando: Teoria da Probabilidade

Valor Esperado ou Média = \(E(Y)\)

Variância = \(V(Y)\) = \(\sigma^2\)

Desvio-Padrão = \(\sqrt{V(Y)}\) = \(\sigma\)

Quantis

Coeficiente de Assimetria

Coeficiente de Curtose

Recaptulando: Teoria da Probabilidade

Distribuição Conjunta: \(f_{X,Y}(x,y)\)

Distribuição Marginal: \(f_X(x)\) e \(f_Y(y)\)

Distribuição Condicional: \(f_{X|Y}(x|y)\)

Independência de Variáveis Aleatórias

Covariância: \(Cov(X, Y)\)

Correlação: \(\rho_{X, Y}\)

Simulação (Método) de Monte Carlo

Como Aprender o Processo Gerador a partir dos Dados?

Como aprender o Processo Gerador a partir dos Dados?

Como Aprender o Processo Gerador a partir dos Dados?

Análise Estatística Tradicional

Questões de Interesse e Estatística Tradicional

Parâmetro, Estimador, Estatística e Estimativa

Notação e Conceitos

Estimador Pontual (Fórmula)

Conceitos Centrais

Distinção Fundamental

Diferença entre `fzero()` e `uniroot()`

Função `optimize()` em R

Encontrando Máximos com `optimize()` em R