Introdução à Ciência de Dados

Introdução à Inferência Estatística

Prof. Washington Santos da Silva

IFMG - Campus Formiga

25 de junho de 2025

Diário de Bordo

O que vimos até hoje?

Aula 1 ✅
- Introdução e Contextualização ✅
- O que é Ciência de Dados? ✅
- Papéis Profissionais na Área de Dados ✅
- Áreas de Aplicações ✅
- Habilidades Interpessoais e Analíticas ✅
- Apresentação da Disciplina ✅
Aula 2 ✅
- Metodologia CRISP-DM ✅
- Tipos de Análise ✅
  - Descritiva ✅
  - Diagnóstica ✅
  - Preditiva ✅
  - Prescritiva ✅
- Configurações: Git/GitHub ✅
Aula 3 ✅
- Introdução ao RStudio ✅
  - Criação do seu Projeto RStudio da Disciplina ✅
Aula 4 ✅
- Introdução ao Git e GitHub ✅
  - Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
Aula 5 ✅
- Breve Revisão do IDE RStudio ✅
- Introdução ao Sistema de Publicação Quarto ✅
- Sessão Prática Guiada com Relatório 1 ✅
  - Execução dos comandos git essenciais ✅
Aula 6 ✅
- Parte I ✅
  - O Relatório Junglivet e a Metodologia CRISP-DM ✅
  - Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
- Parte II ✅
  - Para alunos com projetos estruturados ✅
  - Atividade prática ✅
  - Para alunos com dificuldades técnicas ✅
  - Atendimento individualizado para estruturação de projetos ✅
Aula 7 ✅
- Introdução ao sistema Quarto (continuação) ✅
  - Gerar relatório no formato pdf ✅
  - Gerar relatório no formato docx ✅
- Introdução à Linguagem R (continuação) ✅
  - Conceitos: Variáveis e observações ✅
  - Estrutura tabular organizada de dados ✅
  - Tipos e classes de dados principais em R ✅
  - Estruturas de dados: vetores e data frames ✅
Aula 8 ✅
- Início do estudo do pacote dplyr para manipulação de dados ✅
  - CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
    de um projeto de análise ou ciência de dados ✅
  - O que é o dplyr? ✅
  - A Filosofia Tidy Data (Dados Organizados) ✅
  - Dados Organizados (Tidy Data) ✅
  - Por que usar o dplyr? ✅
  - Fluxo de trabalho com dplyr ✅
  - Boas Práticas com dplyr ✅
  - Função dplyr::select() ✅
  - Função dplyr::filter() ✅
Aula 9 ✅
- Solução dos exercícios práticos sobre as funções select e filter ✅
- Função dplyr::mutate() ✅
Aula 10 ✅
- Soluções dos exercícios práticos sobre a função mutate ✅
- funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
Aula 11 ✅
- Metodologia CRISP-DM e Pacote dplyr ✅
- Revisão sobre Dados Organizados (Tidy Data) ✅
- Exemplos de Dados Desorganizados Comuns em Administração ✅
- Pacote tidyr: Função pivot_longer ✅
Aula 12 ✅
- Metodologia CRISP-DM e o tidyverse ✅
- Dados Organizados: Potencializando Análises ✅
Aula 13 ✅
- Avaliação 1 ✅
Aula 14 ✅
- Tipos Básicos de joins do pacote dplyr ✅
Aula 15 ✅
- Variáveis Aleatórias em Finanças ✅
- Distribuições de Probabilidade ✅
- Início: Distribuição Normal (ou Gaussiana) ✅
Aula 16 ✅
- Distribuição Normal (ou Gaussiana) - Parte 2 ✅
- Características da Distribuição de uma VA ✅
  - Valor Esperado (Média) ✅
Aula 17 ✅
- Características da Distribuição de uma VA ✅
  - Variância e Desvio-Padrão ✅
  - Variância: Propriedades Básicas ✅
  - Aplicação: Valor-em-Risco (VaR) ✅
  - Assimetria e Curtose ✅
Aula 18 ✅
- Características da Distribuição de uma VA ✅
  - Covariância e Correlação ✅
  - Fundamentos de Simulação de Monte Carlo ✅
Aula 19 ✅
- Teoria da Probabilidade e Análise Estatística de Dados ✅
- CRISP-DM e Análise Exploratória de Dados ✅
- Análise Exploratória Numérica ✅
  - Medidas de Posição (ou de Tendência Central) ✅
  - Medidas de Variabilidade ✅
  - Medidas de Correlação ✅
Aula 20 ✅
- Análise Exploratória Gráfica ✅
  - Visualização de Dados e o Pacote ggplot2 ✅
  - Gráficos para Visualizar a Distribuição de Variáveis Numéricas ✅
    - Histograma ✅
    - Densidade Empírica (ou Kernel da Densidade) ✅
    - Boxplot ✅
    - Boxplot Comparativo ✅
Aula 21 ✅
- Gráfico Univariado para Variáveis Categóricas:
  - Gráfico de Barras (Barplot)
- Gráficos Bivariados:
  - Gráficos de Barras Agrupadas e Empilhadas - Variáveis Categóricas
  - Gráfico de Dispersão - Variáveis Numéricas
- Gráfico para Séries Temporais:
  - Gráfico de Linha Univariado (1 Série Temporal)
  - Gráfico de Linha Bivariado (2 Séries Temporais)
Aula 22 ✅
- Lista de Exercícios - Treino para Avaliação 2
Aula 23 ✅
- Avaliação 2

Nesta Aula

Tópicos

CRISP-DM: Fase 4 - Modelagem/Análise
Introdução à Inferência Estatística
- População e Amostra
- Amostragem: Conceitos Básicos
- Parâmetro, Estimador, Estimativa e Estatística

Arquivo para esta Aula (24)

Instruções

Abra o RStudio e o seu Projeto da Disciplina
Crie a subpasta 14-relatorio dentro da pasta relatorios.
Acesse o site da disciplina e baixe o arquivo 14-relatorio.zip
Descompacte o arquivo, copie/recorte o arquivo 14-relatorio.qmd e cole dentro da subpasta 14-relatorio.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

Atenção na digitação
Respeitar a sequência lógica de etapas
Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

Compartilhe conhecimento
Resolva questões técnicas simples com colegas próximos
Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Metodologia CRISP-DM

Fases da Metodologia CRISP-DM

CRISP-DM: Onde Estamos?

Nossa Jornada na Disciplina -> Progresso na Metodologia CRISP-DM

Fase/Componente	Atividades Realizadas
Fase 1 - Entendimento do Negócio ✅	Relatório Junglivet: definição de problemas e objetivos
Fase 2 - Entendimento dos Dados ✅	Importação e exploração inicial com tidyverse (`here`, `readr`, `dplyr`…)
Fase 3 - Preparação dos Dados ✅	Transformação/organização/limpeza e AED com tidyverse (`tidyr`, `dplyr`, `ggplot2`…)
🔗 Teoria da Probabilidade ✅	Variáveis aleatórias, distribuição normal, valor esperado, variância/desvio-padrão, correlação, simulação
Fase 4 - Modelagem/Análise 🔄	Introdução à Inferência Estatística → Transformar dados em insights estatisticamente fundamentados

Conexão com CRISP-DM

Onde a Inferência Estatística se Encaixa?

🔄 Inferência permeia todo o processo CRISP-DM:

Fase	Aplicação da Inferência Estatística
Fase 2 - Entendimento dos Dados	Usar amostras para entender a população
Fase 3 - Preparação	Verificar a representatividade dos dados/amostra
Fase 4 - Análise/Modelagem	Estimar parâmetros, quantificar incerteza, Previsões
Fase 5 - Validação	Validar conclusões com rigor estatístico

💡 Resultado: Decisões baseadas em evidências, não apenas em intuição ou análise qualitativa!

Caso Junglivet Whisky Company

Fase 1: Entendimento do Negócio - (01-relatorio.qmd)

No caso da destilaria Junglivet, identicamos que o problema de negócio, o objetivo da análise e o critério de sucesso:

Problema de negócio: Queda na qualidade do whisky produzido.
Objetivo: Identificar possíveis causas da redução de qualidade.
Critério de sucesso: Encontrar fatores que influenciam negativamente a qualidade do whisky.
Fizemos análises descritiva e diangóstica iniciais para identificar as possíveis causas do problema com base nos dados disponíveis.

Caso Junglivet Whisky Company

Relação entre fornecedor e qualidade do whisky

Caso Junglivet Whisky Company

Relação entre fornecedor e qualidade do whisky

Os resultados da análise preliminar dos dados da linha de produção da Junglivet Whisky Company, indicaram que:

O fornecedor de malte parece ser um fator significativo na qualidade do whisky

Pois, analisando o boxplot comparativo concluimos que:

Os whiskies produzidos com matéria-prima da “Burns Best Ltd.” tendem a ter qualidade mediana inferior.
Os whiskies produzidos com a matéria-prima proveniente da “Matro Ltd.” apresentam grande variabilidade na qualidade da bebida, com alguns apresentando qualidade inferior aos produzidos com insumo da “Burns Best Ltd.”
Os whiskies produzidos com matéria-prima própria (“Inhouse”) tentem a apresentar qualidade superior pelo indicador de qualidade baseado nos testes de desgustação.

Caso Junglivet Whisky Company

Há de fato diferenças na qualidade do whisky devido ao fornecedor de malte?

Limitações da Análise Apenas Descritiva:

Nossas conclusões se basearam apenas na análise exploratória visual dos dados. Mas isso é suficiente para decisões cientificamente embasadas?

Questões Científicas Fundamentais:

Tipo de Evidência	Pergunta-Chave	Por que Importa?
Significância Estatística	As diferenças são reais ou apenas acaso?	Evitar decisões baseadas em variabilidade natural
Significância Prática	As diferenças são grandes o suficiente para importar?	Mudanças custosas precisam justificar o investimento
Quantificação da Incerteza	Qual nossa confiança nas estimativas?	Gestores precisam conhecer os riscos das decisões

A Solução: Análise Estatística Moderna

Além de detectar diferenças, precisamos quantificar sua magnitude (tamanho do efeito), estimar intervalos de confiança e avaliar relevância prática - não apenas significância estatística.

📈 Próximo Passo: Fundamentos de inferência estatística moderna para recomendações e decisões baseadas em dados e com rigor científico!

População e Amostra

Por que Esta Distinção é Fundamental?

O Desafio Central do Analista de Dados

Analistas de dados enfrentam constantemente esta realidade: precisam tirar conclusões sobre grupos muito grandes (população) baseando-se apenas em informações de grupos menores (amostra).
Esta distinção determina como interpretamos resultados e quanta confiança podemos ter em nossas conclusões.
A qualidade da inferência depende de quão bem nossa amostra representa a população de interesse.
Esta é uma das questões mais importantes que todo analista deve sempre considerar antes de fazer qualquer análise ou recomendação.

População: O Conjunto Completo

Definição e Características

População é o conjunto completo de elementos sobre os quais queremos tirar conclusões. Importante: não se refere apenas a pessoas, mas a qualquer conjunto de interesse.

Características Principais:

A população possui parâmetros - valores fixos (mas geralmente desconhecidos) representados por letras gregas: média populacional ($\mu$), desvio padrão ($\sigma$), proporção ($p$).

O tamanho é representado por $N$ e pode ser finito (funcionários de uma empresa) ou infinito (lançamentos de moeda).

Exemplos: Todos os clientes de um banco, todos os produtos de uma linha de produção, todas as transações de uma empresa em um ano.

Amostra: O Subconjunto Observado

Definição e Características

Amostra é um subconjunto da população que efetivamente observamos e sobre o qual coletamos dados. É nossa “janela” para entender a população.

Características Principais:

A amostra produz estatísticas - valores calculados dos dados observados, representados por letras latinas: média amostral ($\bar{x}$), desvio-padrão ($s$), proporção ($\hat{p}$).

O tamanho é representado por $n$ (sempre menor que $N$). Diferentemente dos parâmetros, as estatísticas são variáveis aleatórias que mudam entre amostras.

Ponto Crucial: Usamos estatísticas amostrais como estimadores dos parâmetros populacionais desconhecidos.

A Relação Fundamental

População

Parâmetros (fixos, desconhecidos):

Tamanho: $N$
Média: $\mu$
Desvio-padrão: $\sigma$
Proporção: $p$

População: 46.000 barris de whisky produzidos

Amostra

Estatísticas:

Tamanho: $n$
Média: $\bar{x}$
Desvio-padrão: $s$
Proporção: $\hat{p}$

Amostra: 400 barris avaliados

Importante

Inferência Estatística: Usamos estatísticas amostrais para estimar parâmetros populacionais (desconhecidos), com incerteza quantificável.

Por que Trabalhamos com Amostras?

Limitações Práticas

Impossibilidade: Estudar toda a população é frequentemente impossível

Custo e Tempo: Censo completo pode ter um custo e tempo proibitivos.

Natureza Destrutiva: Alguns testes destroem o produto (durabilidade, qualidade).

Eficiência: Amostra bem coletada fornece precisão quase igual a censo completo, com fração do custo.

Conclusão: A questão não é se usar amostras, mas como coletar e analisar amostras para conclusões válidas.

Exemplo: Qualidade do Whisky

Situação Prática

Analista da destilaria Junglivet precisa avaliar qualidade média de 46.000 barris produzidos em 2024. Testar todos seria impossível (destruiria produto). Solução: amostra representativa.

Este exemplo ilustra como usamos informações limitadas (amostra) para fazer inferências sobre populações.

Qualidade do Whisky: População e Amostra

# A tibble: 3 × 3
  Característica      `Valor Real` Significado                          
  <chr>               <chr>        <chr>                                
1 Tamanho (N)         46.000       Total de barris produzidos em 2024   
2 Qualidade média (μ) 7.2          Qualidade média de toda a produção   
3 Desvio padrão (σ)   0.91         Variabilidade da qualidade dos barris

# A tibble: 3 × 3
  Característica      `Valor Calculado` Interpretação  
  <chr>                           <dbl> <chr>          
1 Tamanho (n)                     50    amostra        
2 Qualidade média (x̄)              7.22 estimativa de μ
3 Desvio- padrão (s)               1    estimativa do σ

Comparação: Parâmetros vs Estimativas

# A tibble: 3 × 4
  Medida          População  Amostra  `Qualidade da Estimativa`   
  <chr>           <chr>      <chr>    <chr>                       
1 Tamanho         N = 46.000 n = 50   Amostra = 0,11% da população
2 Qualidade Média μ = 7.2    x̄ = 7.22 Boa estimativa              
3 Desvio Padrão   σ = 0.91   s = 1    Boa estimativa

Verificação Visual da Representatividade

Interpretação da Comparação

Análise dos Resultados

Formas das Distribuições: Ambas apresentam distribuições aproximadamente normais, indicando que a amostra capturou adequadamente a forma populacional.

Centros: Média populacional ($\mu = 7.20$) e amostral ($\bar{x} = 7.22$) são muito próximas.

Variabilidade: Dispersão amostral é consistente com a variabilidade populacional.

Conclusão: Esta análise visual confirma que a amostra é representativa.

Limitação Prática: Na realidade, não temos dados populacionais para esta comparação. Por isso analistas dependem de técnicas adequadas de amostragem e métodos estatísticos para quantificar incerteza.

Exemplo: Satisfação de Clientes

Cenário Empresarial

Analista de e-commerce com 50.000 clientes ativos precisa estimar satisfação média para estratégias de retenção. Entrevistar todos seria proibitivo. Solução: amostra de 80 clientes para obter uma estimativa confiável.

Satisfação de Clientes: População e Amostra

# A tibble: 4 × 2
  Característica           `Valor Verdadeiro`
  <chr>                    <chr>             
1 Total de clientes        50.000            
2 Satisfação média (μ)     7.49              
3 Desvio padrão (σ)        1.18              
4 % muito satisfeitos (≥8) 33.8%

# A tibble: 4 × 3
  Resultado              Valor Interpretação                                    
  <chr>                  <chr> <chr>                                            
1 Clientes entrevistados 80    Tamanho da amostra                               
2 Satisfação média (x̄)   7.632 estimativa de μ                                  
3 Desvio padrão (s)      1.229 estimativa do σ                                  
4 % muito satisfeitos    40%   estimativa da % de clientes altamente satisfeitos

Quiz 1

Questão

Cenário: Empresa com 8.000 garrafas de vinho. Analista seleciona 120 garrafas para avaliação de qualidade por especialistas.

Identifique:

Qual é a população?
Qual é a amostra?
O que representa $\mu$?
O que representa $\bar{x}$?
Por que não avaliar todas as garrafas?

Respostas do Quiz 1

Análise

População: Todas as 8.000 garrafas no estoque - totalidade sobre a qual queremos conclusões.
Amostra: 120 garrafas efetivamente avaliadas pelos especialistas.
$\mu$ = Qualidade média verdadeira de todas as 8.000 garrafas - parâmetro fixo mas desconhecido.
$\bar{x}$: Qualidade média das 120 garrafas avaliadas - estimativa de $\mu$.
Limitações: Custo elevado, tempo excessivo, e possível natureza destrutiva dos testes.

Quiz 2

Questão

Cenário: Rede com 1.200 farmácias. Analista seleciona 80 lojas para estudar ticket médio.

Identifique:

Qual é a população?
Qual é a amostra?
O que representa $\mu$?
O que representa $\bar{x}$?
Vantagens da abordagem amostral?

Respostas do Quiz 2

Análise

População: Todas as 1.200 lojas da rede.
Amostra: 80 lojas selecionadas para análise.
$\mu$ = Ticket médio verdadeiro de todas as 1.200 lojas.
$\bar{x}$ = Ticket médio calculado das 80 lojas analisadas.
Vantagens: Economia significativa de tempo e recursos, conclusões mais rápidas para decisões, precisão adequada para fins práticos, análises mais detalhadas possíveis.

Amostragem

Por que Amostragem é Necessária?

O Dilema do Analista de Dados

Situação Ideal: Estudar toda a população para obter informações completas.

Realidade Prática: Estudar toda a população é frequentemente:

Impossível: Populações infinitas ou inacessíveis
Inviável: Custo e tempo excessivos
Destrutivo: Testes que danificam produtos
Desnecessário: Amostras bem planejadas fornecem precisão adequada

Exemplo: Pesquisar 100.000 clientes custa R$ 500.000 e leva 6 meses. Uma amostra de 1.000 clientes custa R$ 5.000, leva 1 semana, e fornece precisão suficiente.

Conclusão: A amostragem permite obter informações confiáveis de forma eficiente.

O que é Amostragem?

Definição e Características

Amostragem é o processo de selecionar um subconjunto representativo de uma população.

Características de uma Boa Amostra:

Representativa: Reflete características da população
Tamanho adequado: Equilibra precisão e custo
Sem viés: Processo não favorece grupos específicos
Aleatória: Em amostragem probabilística, probabilidade conhecida de seleção

Princípio fundamental: Apenas amostras probabilísticas permitem inferência estatística válida.

Tipos de Amostragem Probabilística

Métodos Principais

Amostragem Aleatória Simples

Cada elemento tem a mesma probabilidade de seleção
Base da teoria estatística clássica
Exemplo:

Considere que você possui uma lista cada um com o nome de um morador de uma cidade. Você sorteia 100 nomes ao acaso, sem nenhum critério especial — exatamente como em uma loteria.

👉 Todos têm a mesma chance de serem escolhidos, independentemente da idade, bairro, renda, etc.

Tipos de Amostragem Probabilística

Amostragem Estratificada

Uma população heterogênea é dividida em grupos homogêneos
Garante a representação proporcional dos subgrupos
Exemplo:

Suponha que você queira entrevistar os estudantes do IFMG - Campus Formiga, e quer garantir que todos os cursos estejam representados. Você estratifica os alunos por curso (ex: Engenharia, Administração, Computação..), sendo que o número de amostras de cada curso será proporcional à proporção de alunos de cada curso em relação ao total de alunos.

👉 Garante que todos os cursos (estratos) estejam proporcionalmente representados na amostra.

Tipos de Amostragem Probabilística

Amostragem por Conglomerados

Seleção de grupos heterogêneos completos
Útil quando listas populacionais são difíceis
Exemplo:

Você quer entrevistar pessoas em uma grande cidade, mas não tem uma lista de todos os moradores. Então, sorteia 10 quarteirões aleatórios, e entrevista todos os moradores desses quarteirões.

👉 Cada quarteirão (conglomerado) deve refletir a diversidade da cidade como um todo.

Tipos de Amostragem Probabilística

Amostragem Sistemática

Seleção em intervalos regulares
Simples de implementar
Exemplo:

Você tem uma lista de 10.000 funcionários de uma empresa, em ordem alfabética. Decide entrevistar 1.000 deles. Sorteia um número entre 1 e 10 (por exemplo, 7) e depois seleciona cada 10ª pessoa a partir do 7º nome na lista: 7, 17, 27, 37…

👉 Simples de aplicar, mas precisa de uma lista ordenada da população.

Amostragem Aleatória Simples: Teoria

Conceito Matemático

Definição: Cada elemento da população tem a mesma probabilidade de seleção.

Probabilidade de seleção para população $N$ e amostra $n$: \[P = \frac{n}{N}\]

Quando usar: População homogênea, lista completa disponível, análise simples prioritária.

Vantagem: Teoria estatística simples.

A Função `slice_sample()` do dplyr

Para que serve slice_sample()?

A função slice_sample() seleciona linhas aleatórias de uma data frame.

É ideal para realizar amostragem aleatória simples

Sintaxe básica

slice_sample(.data, n = <tamanho da amostra>)

.data: o data frame
n: número de linhas a serem sorteadas
Exemplo com mtcars

# Selecionar 5 carros aleatórios da base mtcars
amostra <- mtcars %>%
  slice_sample(n = 5)

amostra

Reprodutibilidade

Use set.seed() antes para obter os mesmos resultados toda vez.

set.seed(123)
mtcars %>% slice_sample(n = 5)

Amostragem Aleatória Simples no R

Exemplo com Dados Municipais do PNUD (pnud_muni)

# Carregar pacotes
library(abjData)   # Fornece dados municipais do PNUD

# Carregar a base completa
data("pnud_muni")

# Filtrar apenas os dados mais recentes
dados_recentes <- pnud_muni %>%
  filter(ano == max(ano))  # ano mais recente disponível

# Verificar estrutura
glimpse(dados_recentes)

Rows: 5,565
Columns: 124
$ uf                    <int> 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, …
$ ano                   <int> 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, …
$ codmun6               <int> 110001, 110002, 110003, 110004, 110005, 110006, …
$ codmun7               <int> 1100015, 1100023, 1100031, 1100049, 1100056, 110…
$ municipio             <chr> "ALTA FLORESTA D'OESTE", "ARIQUEMES", "CABIXI", …
$ espvida               <dbl> 70.75, 73.36, 70.39, 74.27, 72.94, 73.81, 71.45,…
$ fectot                <dbl> 2.24, 1.91, 2.15, 1.90, 2.12, 1.89, 2.29, 2.72, …
$ mort1                 <dbl> 23.80, 19.20, 24.80, 14.30, 18.10, 16.10, 21.90,…
$ mort5                 <dbl> 25.49, 20.53, 26.58, 15.38, 19.42, 17.28, 23.45,…
$ razdep                <dbl> 47.37, 46.68, 48.12, 43.79, 45.67, 45.82, 46.32,…
$ t_env                 <dbl> 5.84, 4.36, 6.87, 5.57, 6.44, 7.51, 5.67, 3.82, …
$ e_anosestudo          <dbl> 8.67, 9.18, 10.09, 9.74, 10.22, 10.40, 9.82, 9.2…
$ t_atraso_0_basico     <dbl> 57.62, 58.43, 66.22, 66.69, 72.15, 68.55, 67.01,…
$ t_atraso_0_fund       <dbl> 63.21, 60.96, 70.56, 71.14, 76.20, 73.40, 72.08,…
$ t_atraso_0_med        <dbl> 66.39, 72.93, 76.66, 71.07, 78.58, 78.44, 77.68,…
$ t_atraso_1_basico     <dbl> 20.36, 22.22, 18.19, 17.74, 14.93, 17.71, 15.38,…
$ t_atraso_1_fund       <dbl> 18.97, 22.30, 16.51, 16.28, 13.54, 16.80, 14.49,…
$ t_atraso_1_med        <dbl> 25.81, 23.11, 16.41, 21.60, 17.59, 16.55, 18.92,…
$ t_atraso_2_basico     <dbl> 22.03, 19.35, 15.59, 15.57, 12.93, 13.74, 17.61,…
$ t_atraso_2_fund       <dbl> 17.82, 16.74, 12.93, 12.58, 10.27, 9.80, 13.43, …
$ t_atraso_2_med        <dbl> 7.79, 3.96, 6.93, 7.33, 3.82, 5.02, 3.40, 11.00,…
$ t_fbbas               <dbl> 90.45, 94.78, 97.65, 100.81, 92.48, 95.41, 85.59…
$ t_fbfund              <dbl> 107.69, 106.62, 109.08, 108.09, 105.56, 107.99, …
$ t_fbmed               <dbl> 45.99, 58.77, 68.27, 80.94, 57.67, 64.95, 42.49,…
$ t_fbpre               <dbl> 35.40, 46.92, 58.34, 54.45, 54.11, 41.62, 32.19,…
$ t_fbsuper             <dbl> 21.23, 27.95, 22.04, 38.23, 20.94, 41.96, 10.23,…
$ t_flbas               <dbl> 85.25, 85.46, 88.82, 88.24, 84.69, 87.66, 80.76,…
$ t_flfund              <dbl> 92.88, 91.31, 92.81, 93.02, 93.47, 91.75, 90.17,…
$ t_flmed               <dbl> 34.60, 37.07, 42.14, 43.97, 38.23, 40.53, 33.22,…
$ t_flpre               <dbl> 34.15, 40.96, 58.34, 51.33, 49.74, 40.11, 29.83,…
$ t_flsuper             <dbl> 10.50, 12.91, 9.86, 17.45, 10.77, 21.92, 1.79, 5…
$ t_freq0a3             <dbl> 4.89, 9.89, 12.49, 11.38, 13.45, 10.67, 1.30, 13…
$ t_freq4a5             <dbl> 39.18, 55.34, 66.92, 62.41, 61.27, 49.14, 34.37,…
$ t_freq4a6             <dbl> 54.07, 66.99, 74.58, 73.05, 73.09, 56.83, 53.83,…
$ t_freq5a6             <dbl> 70.79, 77.46, 85.31, 85.61, 84.97, 66.28, 71.39,…
$ t_freq6               <dbl> 81.62, 92.19, 96.52, 94.76, 95.92, 79.29, 85.72,…
$ corte1                <dbl> 102.40, 200.00, 130.00, 200.00, 172.50, 162.40, …
$ corte2                <dbl> 224.80, 335.00, 233.33, 336.67, 303.33, 281.67, …
$ corte3                <dbl> 368.90, 506.67, 362.50, 510.00, 501.43, 465.00, …
$ corte4                <dbl> 586.67, 836.67, 605.00, 825.00, 742.00, 700.00, …
$ corte9                <dbl> 877.00, 1252.40, 900.00, 1260.00, 1113.33, 1030.…
$ gini                  <dbl> 0.58, 0.53, 0.51, 0.57, 0.50, 0.49, 0.48, 0.52, …
$ pind                  <dbl> 14.29, 4.36, 7.27, 5.97, 4.72, 6.64, 10.16, 9.66…
$ pindcri               <dbl> 19.01, 6.65, 8.51, 8.77, 6.93, 10.12, 11.90, 12.…
$ pmpob                 <dbl> 26.04, 11.54, 21.20, 13.08, 13.70, 15.76, 24.02,…
$ pmpobcri              <dbl> 37.33, 18.76, 31.01, 20.03, 22.08, 26.97, 33.30,…
$ ppob                  <dbl> 47.12, 29.04, 46.98, 29.82, 34.85, 37.11, 46.42,…
$ ppobcri               <dbl> 62.99, 43.11, 61.89, 43.31, 51.37, 53.69, 62.77,…
$ prentrab              <dbl> 79.37, 87.28, 77.53, 82.06, 76.38, 78.01, 72.01,…
$ rdpc                  <dbl> 476.99, 689.95, 457.17, 738.06, 577.18, 535.41, …
$ rdpc1                 <dbl> 36.89, 120.08, 78.16, 108.24, 104.82, 90.64, 60.…
$ rdpc2                 <dbl> 160.31, 270.77, 181.72, 265.14, 236.32, 223.67, …
$ rdpc3                 <dbl> 289.97, 420.44, 292.34, 431.80, 389.57, 370.82, …
$ rdpc4                 <dbl> 469.88, 638.10, 480.37, 656.39, 581.95, 558.99, …
$ rdpc5                 <dbl> 1424.61, 1996.77, 1256.80, 2247.76, 1568.87, 143…
$ rdpct                 <dbl> 512.46, 698.01, 468.09, 750.20, 581.57, 545.28, …
$ rind                  <dbl> 14.29, 30.85, 29.75, 24.18, 32.83, 24.82, 25.02,…
$ rmpob                 <dbl> 56.64, 79.50, 82.18, 72.45, 81.51, 74.36, 72.06,…
$ rpob                  <dbl> 120.71, 155.70, 148.29, 147.58, 155.20, 148.45, …
$ theil                 <dbl> 0.60, 0.51, 0.44, 0.61, 0.46, 0.45, 0.43, 0.48, …
$ cpr                   <dbl> 34.73, 27.66, 32.98, 24.97, 28.46, 25.97, 34.94,…
$ emp                   <dbl> 2.83, 2.30, 0.67, 2.09, 2.36, 1.54, 0.20, 0.81, …
$ p_agro                <dbl> 38.56, 14.97, 45.49, 19.69, 26.67, 23.67, 51.25,…
$ p_com                 <dbl> 13.78, 17.99, 6.46, 19.00, 14.08, 16.56, 7.71, 8…
$ p_constr              <dbl> 5.31, 8.68, 3.62, 7.16, 8.60, 8.15, 5.64, 4.07, …
$ p_extr                <dbl> 0.00, 3.32, 0.00, 0.25, 0.06, 0.07, 0.00, 0.00, …
$ p_formal              <dbl> 41.68, 52.81, 39.38, 55.07, 45.54, 48.57, 43.30,…
$ p_fund                <dbl> 45.49, 57.26, 44.10, 55.78, 49.50, 50.62, 38.40,…
$ p_med                 <dbl> 31.05, 39.76, 30.24, 37.67, 34.10, 34.39, 20.08,…
$ p_serv                <dbl> 33.18, 40.06, 36.91, 39.07, 38.39, 37.19, 28.68,…
$ p_siup                <dbl> 0.69, 0.77, 0.52, 0.85, 0.57, 1.00, 0.15, 0.52, …
$ p_super               <dbl> 7.72, 9.29, 6.25, 10.29, 8.53, 10.24, 6.19, 5.93…
$ p_transf              <dbl> 3.26, 9.10, 3.98, 10.43, 6.87, 8.30, 3.45, 5.60,…
$ ren0                  <dbl> 9.63, 4.10, 13.58, 7.95, 10.17, 10.75, 13.05, 10…
$ ren1                  <dbl> 36.23, 16.89, 37.71, 21.48, 32.99, 28.93, 44.66,…
$ ren2                  <dbl> 78.80, 70.18, 80.07, 70.72, 75.27, 74.61, 83.76,…
$ ren3                  <dbl> 88.52, 83.20, 89.41, 83.53, 86.53, 86.66, 93.57,…
$ ren5                  <dbl> 95.90, 92.31, 96.40, 92.47, 95.27, 94.71, 97.83,…
$ renocup               <dbl> 950.08, 1274.11, 827.86, 1277.37, 926.57, 931.16…
$ t_ativ                <dbl> 51.93, 60.62, 54.23, 60.39, 60.18, 56.13, 57.29,…
$ t_des                 <dbl> 6.07, 5.11, 2.90, 6.28, 5.72, 6.78, 3.75, 4.71, …
$ theiltrab             <dbl> 0.52, 0.44, 0.40, 0.53, 0.41, 0.38, 0.33, 0.36, …
$ trabcc                <dbl> 25.17, 41.15, 24.03, 40.10, 24.74, 30.45, 26.70,…
$ trabpub               <dbl> 5.31, 6.30, 7.79, 7.70, 9.77, 9.60, 4.27, 6.72, …
$ trabsc                <dbl> 23.17, 19.21, 22.12, 18.21, 25.05, 22.56, 21.19,…
$ t_agua                <dbl> 93.69, 98.54, 95.49, 97.96, 97.53, 95.54, 93.24,…
$ t_banagua             <dbl> 80.20, 85.35, 91.63, 93.44, 86.87, 93.89, 86.43,…
$ t_dens                <dbl> 22.58, 27.15, 19.93, 20.50, 16.66, 14.73, 14.46,…
$ t_lixo                <dbl> 94.05, 96.72, 99.14, 98.17, 91.89, 92.79, 90.19,…
$ t_luz                 <dbl> 93.98, 98.58, 96.36, 98.89, 98.85, 97.76, 97.81,…
$ agua_esgoto           <dbl> 9.31, 11.40, 3.31, 1.85, 5.34, 2.99, 6.31, 36.41…
$ parede                <dbl> 7.18, 5.62, 0.84, 3.39, 0.85, 5.63, 1.08, 4.88, …
$ t_crifundin_todos     <dbl> 45.73, 29.58, 41.25, 25.72, 35.81, 35.96, 49.81,…
$ t_fora4a5             <dbl> 60.82, 44.66, 33.08, 37.59, 38.73, 50.86, 65.63,…
$ t_fundin_todos        <dbl> 40.27, 26.59, 38.52, 26.16, 32.21, 33.74, 44.63,…
$ t_fundin_todos_mmeio  <dbl> 24.81, 12.27, 21.53, 11.58, 15.53, 16.62, 26.51,…
$ t_nestuda_ntrab_mmeio <dbl> 16.12, 9.67, 16.59, 9.64, 10.16, 9.76, 16.03, 18…
$ t_ocupdesloc_1        <dbl> 1.15, 0.16, 0.65, 0.43, 0.38, 0.25, 0.69, 1.33, …
$ t_rmaxidoso           <dbl> 2.20, 1.40, 3.10, 1.84, 1.43, 1.90, 1.11, 2.12, …
$ t_sluz                <dbl> 6.02, 1.42, 3.64, 1.11, 1.15, 2.24, 2.19, 9.87, …
$ homem0a4              <int> 956, 3645, 240, 2958, 626, 701, 323, 705, 1212, …
$ homem5a9              <int> 1073, 4177, 253, 3203, 700, 719, 396, 771, 1235,…
$ homemtot              <int> 12656, 45543, 3266, 39124, 8551, 9330, 4711, 720…
$ mulh0a4               <dbl> 952, 3625, 266, 2851, 609, 655, 298, 700, 1161, …
$ mulh5a9               <int> 1034, 4109, 254, 3072, 657, 702, 355, 755, 1242,…
$ mulhertot             <int> 11736, 44810, 3047, 39450, 8478, 9261, 4072, 647…
$ pea                   <int> 10611, 45300, 2869, 40083, 8699, 8851, 4251, 626…
$ peso1                 <int> 369, 1474, 94, 1158, 240, 255, 133, 244, 446, 79…
$ peso4                 <int> 399, 1522, 115, 1180, 295, 294, 145, 297, 501, 8…
$ peso5                 <int> 429, 1565, 121, 1218, 262, 278, 144, 321, 519, 8…
$ peso6                 <int> 413, 1564, 84, 1216, 269, 256, 139, 300, 459, 83…
$ pesorur               <int> 10422, 13828, 3620, 16653, 2610, 4934, 6193, 618…
$ pesotot               <int> 24392, 90353, 6313, 78574, 17029, 18591, 8783, 1…
$ pesourb               <int> 13970, 76525, 2693, 61921, 14419, 13657, 2590, 7…
$ pia                   <int> 20434, 74725, 5291, 66376, 14454, 15769, 7419, 1…
$ pop                   <int> 24097, 89766, 6303, 78141, 16942, 18540, 8647, 1…
$ popt                  <int> 22429, 88730, 6156, 76876, 16815, 18204, 8397, 1…
$ i_escolaridade        <dbl> 0.368, 0.514, 0.357, 0.488, 0.430, 0.426, 0.316,…
$ i_freq_prop           <dbl> 0.629, 0.648, 0.700, 0.698, 0.712, 0.683, 0.578,…
$ idhm                  <dbl> 0.641, 0.702, 0.650, 0.718, 0.692, 0.685, 0.613,…
$ idhm_e                <dbl> 0.526, 0.600, 0.559, 0.620, 0.602, 0.584, 0.473,…
$ idhm_l                <dbl> 0.763, 0.806, 0.757, 0.821, 0.799, 0.814, 0.774,…
$ idhm_r                <dbl> 0.657, 0.716, 0.650, 0.727, 0.688, 0.676, 0.630,…
$ ufn                   <fct> Rondônia, Rondônia, Rondônia, Rondônia, Rondônia…

Amostragem Estratificada com o pacote `sampling`

Exemplo com Dados Municipais do PNUD (pnud_muni)

library(sampling)    # Técnicas clássicas de amostragem

# Carregar base de dados e filtrar o ano mais recente
data("pnud_muni")
dados_recentes <- pnud_muni %>%
  filter(ano == max(ano)) %>%
  select(uf, municipio, pop, espvida, rdpc, idhm)

# Tamanho total da amostra desejada
n_total <- 150

# Calcular tamanho proporcional da amostra por UF
tamanhos <- dados_recentes %>%
  # Contar o número de municípios em cada UF
  count(uf, name = "n_uf") %>%
  # Calcular a proporção de municípios da UF em relação ao total de municípios
  mutate(
    prop = n_uf / sum(n_uf),
    # Determinar o tamanho da amostra da UF proporcional ao total desejado
    n_amostra = round(prop * n_total),
    # Corrigir possíveis casos com zero observações (garante mínimo de 1)
    n_amostra = if_else(n_amostra == 0, 1L, n_amostra)
  )


# Realizar amostragem estratificada proporcional
set.seed(123)
amostra_ids <- sampling::strata(
  data = dados_recentes,           # data frame com a população (municípios do ano mais recente)
  stratanames = "uf",              # variável que define os estratos 
  size = tamanhos$n_amostra,       # número de unidades a serem sorteadas por estrato (UF)
  method = "srswor"                # aas sem reposição
)

# Selecionar observações da amostra
amostra_proporcional <- dados_recentes[amostra_ids$ID_unit, ]

👉 A função strata() sorteia municípios proporcionalmente à quantidade por UF, garantindo pelo menos 1 município por estado.

👉 ID_unit contém os índices sorteados que usamos para extrair a amostra final.

Visualizando a Amostra Estratificada

Quantos Municípios Foram Sorteados por UF?

# Contar número de municípios sorteados por UF
amostra_proporcional %>%
  count(uf, name = "n_sorteados") %>%
  arrange(desc(n_sorteados))

# A tibble: 27 × 2
      uf n_sorteados
   <int>       <int>
 1    31          23
 2    35          17
 3    43          13
 4    29          11
 5    41          11
 6    42           8
 7    52           7
 8    21           6
 9    22           6
10    25           6
# ℹ 17 more rows

👉 Como usamos alocação proporcional, estados com mais municípios no total também contribuem com mais municípios na amostra.

👉 Isso reforça a ideia de representatividade proporcional da amostragem estratificada.

Problemas da Amostragem por Conveniência

Limitações Graves

Definição: Seleção de elementos mais fáceis de acessar, sem aleatoriedade.

Problemas:

Viés sistemático: Grupos são sub/super-representados
Erro não quantificável: Impossível calcular margens de erro
Generalização inválida: Resultados limitados à amostra
Decisões equivocadas: Conclusões podem ser enganosas

Quando aceitar: Apenas estudos exploratórios, com ressalvas explícitas sobre limitações.

Amostragem e Inferência Estatística

Base de Toda Inferência

Amostragem adequada é fundamental para:

Intervalos de confiança: Aleatoriedade valida propriedades teóricas
Testes de hipóteses: Independência é pressuposto dos testes
Bootstrap: Eficácia depende de amostra representativa
Generalização: Apenas amostras probabilísticas permitem inferência válida

Princípio: Qualidade da amostragem determina validade de toda análise posterior.

Síntese: Conceitos Essenciais

Pontos-Chave

Necessidade: Realizar um censo completo é frequentemente inviável, caro ou desnecessário.

Métodos Principais Vistos:

AAS (Amostragem Aleatória Simples): base teórica da inferência estatística
Amostragem Estratificada: assegura representatividade por subgrupos

Ferramentas em R:

slice_sample() do dplyr: simples e intuitiva para AAS
sampling::strata(): apropriada para amostragem estratificada com controle do plano amostral

Qualidade da Amostra:

Apenas amostras probabilísticas permitem inferência estatística válida
Amostragem por conveniência não permite generalizações confiáveis

Inferência Estatística:

A validade de intervalos de confiança, testes de hipóteses e métodos de simulação depende da aleatoriedade da amostra

Responsabilidade Profissional:

O analista de dados deve sempre explicitar e justificar o método de amostragem adotado

Exercício

Objetivo

Aplicar os conceitos aprendidos de amostragem aos dados do PNUD:

Filtrar os dados para o ano mais recente disponível
Criar uma amostra estratificada proporcional por UF com 150 municípios
Estime a média do IDHM da amostra estratificada

Dicas:
Use a base pnud_muni do pacote abjData
Utilize set.seed(123) para reprodutibilidade
Para a amostragem estratificada, siga o padrão visto nos slides anteriores

Solução: Comparando AAS e Amostragem Estratificada

Código comentado

# Carregar dados 
data("pnud_muni")

# filtra para o ano mais recente
dados <- pnud_muni %>%
  filter(ano == max(ano)) %>%
  select(uf, municipio, idhm)

# Tamanho proporcional por UF para 150 municípios
n_total <- 150
tamanhos <- dados %>%
  count(uf, name = "n_uf") %>%
  mutate(
    prop = n_uf / sum(n_uf),
    n_amostra = round(prop * n_total),
    n_amostra = if_else(n_amostra == 0, 1L, n_amostra)
  )

# Verificar tamanhos por UF
tamanhos

# A tibble: 27 × 4
      uf  n_uf    prop n_amostra
   <int> <int>   <dbl>     <dbl>
 1    11    52 0.00934         1
 2    12    22 0.00395         1
 3    13    62 0.0111          2
 4    14    15 0.00270         1
 5    15   143 0.0257          4
 6    16    16 0.00288         1
 7    17   139 0.0250          4
 8    21   217 0.0390          6
 9    22   224 0.0403          6
10    23   184 0.0331          5
# ℹ 17 more rows

# Amostragem Estratificada Proporcional
set.seed(123)
amostra_ids <- sampling::strata(
  data = dados,
  stratanames = "uf",
  size = tamanhos$n_amostra,
  method = "srswor"
)
amostra_proporcional <- dados[amostra_ids$ID_unit, ]

# Média da estratificada
mean(amostra_proporcional$idhm)

[1] 0.66065

Parâmetro, Estimador, Estatística e Estimativa

Notação e Conceitos

	População	Amostra
Símbolos	$\mu$, $\sigma$, $p$, $\rho$	$\bar{x}$, $s$, $\hat{p}$, $r$
Fixo ou aleatório?	Fixo (desconhecido)	Aleatório
Obtido por	Censo/dados históricos	Amostragem
Objetivo	Verdade a descobrir	Instrumento de inferência

Estimador Pontual (Fórmula)

Estimador	Fórmula	O que faz
Média amostral	$\bar{x} = \frac{\sum_{i=1}^{n} X_i}{n}$	Estima $\mu$
Desvio amostral	$s = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}$	Estima $\sigma$
Proporção amostral	$\hat{p} = \frac{X}{n}$	Estima $p$
Correlação amostral	$r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1)S_X S_Y}$	Estima $\rho$

Conceitos Centrais

Estimador, Estatística e Estimativa

Estimador: Fórmula que aplicamos aos dados da amostra para obter um valor que estima uma parâmetro populacional.
Estatística: É qualquer função dos dados da amostra. Todo estimador é uma estatística, mas nem toda estatística é um bom estimador.
Estimativas: Resultados numéricos obtidos ao aplicar os estimadores

Distinção Fundamental

Estatística e Estimador

São variáveis aleatórias
Natureza: Função dos dados
Varia: Entre amostras
Exemplo: $\bar{X} = \frac{\sum X_i}{n}$
Distribuição: Tem sua própria distribuição (distribuição amostral)

Estimativa

É: Um número fixo
Natureza: Valor calculado
Fixo: Para uma amostra específica
Exemplo: $\bar{x} = 7.82$
Interpretação: Realização de um estimador ou estatística

Quiz 3

Identifique: Parâmetro, Estimador, Estatística ou Estimativa?

Uma empresa de e-commerce analisa seus pedidos:

A fórmula $S^2 = \frac{\sum(X_i - \bar{X})^2}{n-1}$ para calcular variância
O valor R$ 127,50 calculado como média de 1.000 pedidos
A verdadeira proporção de clientes satisfeitos (nota ≥ 8)
A variável aleatória $\hat{p}$ = proporção amostral de satisfeitos
O desvio padrão σ = R$ 45,00 de todos os pedidos históricos

Quiz 3

Respostas

Estimador (fórmula/método para estimar $\sigma^2$)
Estimativa (valor numérico específico de $\bar{X}$)
Parâmetro ($p$ - proporção populacional)
Estatística (variável aleatória)
Parâmetro ($\sigma$ - desvio padrão populacional)

Atualizando os Repositórios

Instruções

No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:

git status

Você pode adicionar todos os arquivos de uma vez com:

git add .

Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):

git status

Se tudo estiver em verde, faça um commit com uma mensagem descritiva:

git commit -m "atualizacoes aula 24"

Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:

git add relatorios/13-relatorio/13-relatorio.qmd

Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:

git commit -m "atualizacoes aula 24"

Envie o repositório local atualizado para o GitHub:

git push origin main

Estimador	Fórmula	O que faz
Média amostral	\(\bar{x} = \frac{\sum_{i=1}^{n} X_i}{n}\)	Estima \(\mu\)
Desvio amostral	\(s = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}\)	Estima \(\sigma\)
Proporção amostral	\(\hat{p} = \frac{X}{n}\)	Estima \(p\)
Correlação amostral	\(r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1)S_X S_Y}\)	Estima \(\rho\)

	População	Amostra
Símbolos	\(\mu\), \(\sigma\), \(p\), \(\rho\)	\(\bar{x}\), \(s\), \(\hat{p}\), \(r\)
Fixo ou aleatório?	Fixo (desconhecido)	Aleatório
Obtido por	Censo/dados históricos	Amostragem
Objetivo	Verdade a descobrir	Instrumento de inferência

Introdução à Ciência de Dados

Diário de Bordo

Nesta Aula

Arquivo para esta Aula (24)

Metodologia CRISP-DM

CRISP-DM: Onde Estamos?

Conexão com CRISP-DM

Caso Junglivet Whisky Company

Caso Junglivet Whisky Company

Caso Junglivet Whisky Company

Caso Junglivet Whisky Company

População e Amostra

Por que Esta Distinção é Fundamental?

População: O Conjunto Completo

Amostra: O Subconjunto Observado

A Relação Fundamental

População

Amostra

Por que Trabalhamos com Amostras?

Exemplo: Qualidade do Whisky

Qualidade do Whisky: População e Amostra

Comparação: Parâmetros vs Estimativas

Verificação Visual da Representatividade

Interpretação da Comparação

Exemplo: Satisfação de Clientes

Satisfação de Clientes: População e Amostra

Quiz 1

Respostas do Quiz 1

Quiz 2

Respostas do Quiz 2

Amostragem

Por que Amostragem é Necessária?

O que é Amostragem?

Tipos de Amostragem Probabilística

Tipos de Amostragem Probabilística

Tipos de Amostragem Probabilística

Tipos de Amostragem Probabilística

Amostragem Aleatória Simples: Teoria

A Função slice_sample() do dplyr

Amostragem Aleatória Simples no R

Amostragem Estratificada com o pacote sampling

Visualizando a Amostra Estratificada

Problemas da Amostragem por Conveniência

Amostragem e Inferência Estatística

Síntese: Conceitos Essenciais

Exercício

Solução: Comparando AAS e Amostragem Estratificada

Parâmetro, Estimador, Estatística e Estimativa

Notação e Conceitos

Estimador Pontual (Fórmula)

Conceitos Centrais

Distinção Fundamental

Estatística e Estimador

Estimativa

Quiz 3

Quiz 3

Atualizando os Repositórios

Referências

A Função `slice_sample()` do dplyr

Amostragem Estratificada com o pacote `sampling`