Introdução à Inferência Estatística
IFMG - Campus Formiga
25 de junho de 2025
O que vimos até hoje?
Aula 1 ✅
Aula 2 ✅
Metodologia CRISP-DM ✅
Tipos de Análise ✅
Configurações: Git/GitHub ✅
Aula 3 ✅
Introdução ao RStudio ✅
Aula 4 ✅
Introdução ao Git e GitHub ✅
Aula 5 ✅
Breve Revisão do IDE RStudio ✅
Introdução ao Sistema de Publicação Quarto ✅
Sessão Prática Guiada com Relatório 1 ✅
Aula 6 ✅
Parte I ✅
Parte II ✅
Aula 7 ✅
Introdução ao sistema Quarto (continuação) ✅
Introdução à Linguagem R (continuação) ✅
Aula 8 ✅
Início do estudo do pacote dplyr para manipulação de dados ✅
Aula 9 ✅
Aula 10 ✅
Aula 11 ✅
Aula 12 ✅
Aula 13 ✅
Aula 14 ✅
Aula 15 ✅
Aula 16 ✅
Aula 17 ✅
Características da Distribuição de uma VA ✅
Aula 18 ✅
Características da Distribuição de uma VA ✅
Aula 19 ✅
Teoria da Probabilidade e Análise Estatística de Dados ✅
CRISP-DM e Análise Exploratória de Dados ✅
Análise Exploratória Numérica ✅
Aula 20 ✅
Análise Exploratória Gráfica ✅
Visualização de Dados e o Pacote ggplot2 ✅
Gráficos para Visualizar a Distribuição de Variáveis Numéricas ✅
Aula 21 ✅
Gráfico Univariado para Variáveis Categóricas:
Gráficos Bivariados:
Gráfico para Séries Temporais:
Aula 22 ✅
Aula 23 ✅
Tópicos
CRISP-DM: Fase 4 - Modelagem/Análise
Introdução à Inferência Estatística
Instruções
Abra o RStudio e o seu Projeto da Disciplina
Crie a subpasta 14-relatorio dentro da pasta relatorios.
Acesse o site da disciplina e baixe o arquivo 14-relatorio.zip
Descompacte o arquivo, copie/recorte o arquivo 14-relatorio.qmd
e cole dentro da subpasta 14-relatorio.
Diretrizes para Aulas Mais Produtivas
🔊 Mantenha conversas em volume baixo
⌨️ Código com método:
95% dos erros são evitáveis com:
🤝 Inteligência colaborativa:
💪 Capacidade de Resolver Problemas
Cada erro resolvido é uma evolução da sua habilidade analítica
Fases da Metodologia CRISP-DM
Nossa Jornada na Disciplina -> Progresso na Metodologia CRISP-DM
Fase/Componente | Atividades Realizadas |
---|---|
Fase 1 - Entendimento do Negócio ✅ | Relatório Junglivet: definição de problemas e objetivos |
Fase 2 - Entendimento dos Dados ✅ | Importação e exploração inicial com tidyverse (here , readr , dplyr …) |
Fase 3 - Preparação dos Dados ✅ | Transformação/organização/limpeza e AED com tidyverse (tidyr , dplyr , ggplot2 …) |
🔗 Teoria da Probabilidade ✅ | Variáveis aleatórias, distribuição normal, valor esperado, variância/desvio-padrão, correlação, simulação |
Fase 4 - Modelagem/Análise 🔄 | Introdução à Inferência Estatística → Transformar dados em insights estatisticamente fundamentados |
Onde a Inferência Estatística se Encaixa?
🔄 Inferência permeia todo o processo CRISP-DM:
Fase | Aplicação da Inferência Estatística |
---|---|
Fase 2 - Entendimento dos Dados | Usar amostras para entender a população |
Fase 3 - Preparação | Verificar a representatividade dos dados/amostra |
Fase 4 - Análise/Modelagem | Estimar parâmetros, quantificar incerteza, Previsões |
Fase 5 - Validação | Validar conclusões com rigor estatístico |
💡 Resultado: Decisões baseadas em evidências, não apenas em intuição ou análise qualitativa!
Fase 1: Entendimento do Negócio - (01-relatorio.qmd)
No caso da destilaria Junglivet, identicamos que o problema de negócio, o objetivo da análise e o critério de sucesso:
Problema de negócio: Queda na qualidade do whisky produzido.
Objetivo: Identificar possíveis causas da redução de qualidade.
Critério de sucesso: Encontrar fatores que influenciam negativamente a qualidade do whisky.
Fizemos análises descritiva e diangóstica iniciais para identificar as possíveis causas do problema com base nos dados disponíveis.
Relação entre fornecedor e qualidade do whisky
Relação entre fornecedor e qualidade do whisky
Os resultados da análise preliminar dos dados da linha de produção da Junglivet Whisky Company, indicaram que:
O fornecedor de malte parece ser um fator significativo na qualidade do whisky
Pois, analisando o boxplot comparativo concluimos que:
Os whiskies produzidos com matéria-prima da “Burns Best Ltd.” tendem a ter qualidade mediana inferior.
Os whiskies produzidos com a matéria-prima proveniente da “Matro Ltd.” apresentam grande variabilidade na qualidade da bebida, com alguns apresentando qualidade inferior aos produzidos com insumo da “Burns Best Ltd.”
Os whiskies produzidos com matéria-prima própria (“Inhouse”) tentem a apresentar qualidade superior pelo indicador de qualidade baseado nos testes de desgustação.
Há de fato diferenças na qualidade do whisky devido ao fornecedor de malte?
Limitações da Análise Apenas Descritiva:
Nossas conclusões se basearam apenas na análise exploratória visual dos dados. Mas isso é suficiente para decisões cientificamente embasadas?
Questões Científicas Fundamentais:
Tipo de Evidência | Pergunta-Chave | Por que Importa? |
---|---|---|
Significância Estatística | As diferenças são reais ou apenas acaso? | Evitar decisões baseadas em variabilidade natural |
Significância Prática | As diferenças são grandes o suficiente para importar? | Mudanças custosas precisam justificar o investimento |
Quantificação da Incerteza | Qual nossa confiança nas estimativas? | Gestores precisam conhecer os riscos das decisões |
A Solução: Análise Estatística Moderna
Além de detectar diferenças, precisamos quantificar sua magnitude (tamanho do efeito), estimar intervalos de confiança e avaliar relevância prática - não apenas significância estatística.
📈 Próximo Passo: Fundamentos de inferência estatística moderna para recomendações e decisões baseadas em dados e com rigor científico!
O Desafio Central do Analista de Dados
Analistas de dados enfrentam constantemente esta realidade: precisam tirar conclusões sobre grupos muito grandes (população) baseando-se apenas em informações de grupos menores (amostra).
Esta distinção determina como interpretamos resultados e quanta confiança podemos ter em nossas conclusões.
A qualidade da inferência depende de quão bem nossa amostra representa a população de interesse.
Esta é uma das questões mais importantes que todo analista deve sempre considerar antes de fazer qualquer análise ou recomendação.
Definição e Características
População é o conjunto completo de elementos sobre os quais queremos tirar conclusões. Importante: não se refere apenas a pessoas, mas a qualquer conjunto de interesse.
Características Principais:
A população possui parâmetros - valores fixos (mas geralmente desconhecidos) representados por letras gregas: média populacional (\(\mu\)), desvio padrão (\(\sigma\)), proporção (\(p\)).
O tamanho é representado por \(N\) e pode ser finito (funcionários de uma empresa) ou infinito (lançamentos de moeda).
Exemplos: Todos os clientes de um banco, todos os produtos de uma linha de produção, todas as transações de uma empresa em um ano.
Definição e Características
Amostra é um subconjunto da população que efetivamente observamos e sobre o qual coletamos dados. É nossa “janela” para entender a população.
Características Principais:
A amostra produz estatísticas - valores calculados dos dados observados, representados por letras latinas: média amostral (\(\bar{x}\)), desvio-padrão (\(s\)), proporção (\(\hat{p}\)).
O tamanho é representado por \(n\) (sempre menor que \(N\)). Diferentemente dos parâmetros, as estatísticas são variáveis aleatórias que mudam entre amostras.
Ponto Crucial: Usamos estatísticas amostrais como estimadores dos parâmetros populacionais desconhecidos.
Parâmetros (fixos, desconhecidos):
População: 46.000 barris de whisky produzidos
Estatísticas:
Amostra: 400 barris avaliados
Importante
Inferência Estatística: Usamos estatísticas amostrais para estimar parâmetros populacionais (desconhecidos), com incerteza quantificável.
Limitações Práticas
Impossibilidade: Estudar toda a população é frequentemente impossível
Custo e Tempo: Censo completo pode ter um custo e tempo proibitivos.
Natureza Destrutiva: Alguns testes destroem o produto (durabilidade, qualidade).
Eficiência: Amostra bem coletada fornece precisão quase igual a censo completo, com fração do custo.
Conclusão: A questão não é se usar amostras, mas como coletar e analisar amostras para conclusões válidas.
Situação Prática
Analista da destilaria Junglivet precisa avaliar qualidade média de 46.000 barris produzidos em 2024. Testar todos seria impossível (destruiria produto). Solução: amostra representativa.
Este exemplo ilustra como usamos informações limitadas (amostra) para fazer inferências sobre populações.
# A tibble: 3 × 3
Característica `Valor Real` Significado
<chr> <chr> <chr>
1 Tamanho (N) 46.000 Total de barris produzidos em 2024
2 Qualidade média (μ) 7.2 Qualidade média de toda a produção
3 Desvio padrão (σ) 0.91 Variabilidade da qualidade dos barris
# A tibble: 3 × 3
Característica `Valor Calculado` Interpretação
<chr> <dbl> <chr>
1 Tamanho (n) 50 amostra
2 Qualidade média (x̄) 7.22 estimativa de μ
3 Desvio- padrão (s) 1 estimativa do σ
# A tibble: 3 × 4
Medida População Amostra `Qualidade da Estimativa`
<chr> <chr> <chr> <chr>
1 Tamanho N = 46.000 n = 50 Amostra = 0,11% da população
2 Qualidade Média μ = 7.2 x̄ = 7.22 Boa estimativa
3 Desvio Padrão σ = 0.91 s = 1 Boa estimativa
Análise dos Resultados
Formas das Distribuições: Ambas apresentam distribuições aproximadamente normais, indicando que a amostra capturou adequadamente a forma populacional.
Centros: Média populacional (\(\mu = 7.20\)) e amostral (\(\bar{x} = 7.22\)) são muito próximas.
Variabilidade: Dispersão amostral é consistente com a variabilidade populacional.
Conclusão: Esta análise visual confirma que a amostra é representativa.
Limitação Prática: Na realidade, não temos dados populacionais para esta comparação. Por isso analistas dependem de técnicas adequadas de amostragem e métodos estatísticos para quantificar incerteza.
Cenário Empresarial
Analista de e-commerce com 50.000 clientes ativos precisa estimar satisfação média para estratégias de retenção. Entrevistar todos seria proibitivo. Solução: amostra de 80 clientes para obter uma estimativa confiável.
# A tibble: 4 × 2
Característica `Valor Verdadeiro`
<chr> <chr>
1 Total de clientes 50.000
2 Satisfação média (μ) 7.49
3 Desvio padrão (σ) 1.18
4 % muito satisfeitos (≥8) 33.8%
# A tibble: 4 × 3
Resultado Valor Interpretação
<chr> <chr> <chr>
1 Clientes entrevistados 80 Tamanho da amostra
2 Satisfação média (x̄) 7.632 estimativa de μ
3 Desvio padrão (s) 1.229 estimativa do σ
4 % muito satisfeitos 40% estimativa da % de clientes altamente satisfeitos
Questão
Cenário: Empresa com 8.000 garrafas de vinho. Analista seleciona 120 garrafas para avaliação de qualidade por especialistas.
Identifique:
Análise
População: Todas as 8.000 garrafas no estoque - totalidade sobre a qual queremos conclusões.
Amostra: 120 garrafas efetivamente avaliadas pelos especialistas.
\(\mu\) = Qualidade média verdadeira de todas as 8.000 garrafas - parâmetro fixo mas desconhecido.
\(\bar{x}\): Qualidade média das 120 garrafas avaliadas - estimativa de \(\mu\).
Limitações: Custo elevado, tempo excessivo, e possível natureza destrutiva dos testes.
Questão
Cenário: Rede com 1.200 farmácias. Analista seleciona 80 lojas para estudar ticket médio.
Identifique:
Análise
População: Todas as 1.200 lojas da rede.
Amostra: 80 lojas selecionadas para análise.
\(\mu\) = Ticket médio verdadeiro de todas as 1.200 lojas.
\(\bar{x}\) = Ticket médio calculado das 80 lojas analisadas.
Vantagens: Economia significativa de tempo e recursos, conclusões mais rápidas para decisões, precisão adequada para fins práticos, análises mais detalhadas possíveis.
O Dilema do Analista de Dados
Situação Ideal: Estudar toda a população para obter informações completas.
Realidade Prática: Estudar toda a população é frequentemente:
Exemplo: Pesquisar 100.000 clientes custa R$ 500.000 e leva 6 meses. Uma amostra de 1.000 clientes custa R$ 5.000, leva 1 semana, e fornece precisão suficiente.
Conclusão: A amostragem permite obter informações confiáveis de forma eficiente.
Definição e Características
Amostragem é o processo de selecionar um subconjunto representativo de uma população.
Características de uma Boa Amostra:
Princípio fundamental: Apenas amostras probabilísticas permitem inferência estatística válida.
Métodos Principais
Amostragem Aleatória Simples
Considere que você possui uma lista cada um com o nome de um morador de uma cidade. Você sorteia 100 nomes ao acaso, sem nenhum critério especial — exatamente como em uma loteria.
👉 Todos têm a mesma chance de serem escolhidos, independentemente da idade, bairro, renda, etc.
Amostragem Estratificada
Suponha que você queira entrevistar os estudantes do IFMG - Campus Formiga, e quer garantir que todos os cursos estejam representados. Você estratifica os alunos por curso (ex: Engenharia, Administração, Computação..), sendo que o número de amostras de cada curso será proporcional à proporção de alunos de cada curso em relação ao total de alunos.
👉 Garante que todos os cursos (estratos) estejam proporcionalmente representados na amostra.
Amostragem por Conglomerados
Você quer entrevistar pessoas em uma grande cidade, mas não tem uma lista de todos os moradores. Então, sorteia 10 quarteirões aleatórios, e entrevista todos os moradores desses quarteirões.
👉 Cada quarteirão (conglomerado) deve refletir a diversidade da cidade como um todo.
Amostragem Sistemática
Você tem uma lista de 10.000 funcionários de uma empresa, em ordem alfabética. Decide entrevistar 1.000 deles. Sorteia um número entre 1 e 10 (por exemplo, 7) e depois seleciona cada 10ª pessoa a partir do 7º nome na lista: 7, 17, 27, 37…
👉 Simples de aplicar, mas precisa de uma lista ordenada da população.
Conceito Matemático
Definição: Cada elemento da população tem a mesma probabilidade de seleção.
Probabilidade de seleção para população \(N\) e amostra \(n\): \[P = \frac{n}{N}\]
Quando usar: População homogênea, lista completa disponível, análise simples prioritária.
Vantagem: Teoria estatística simples.
slice_sample()
do dplyrPara que serve slice_sample()
?
A função slice_sample()
seleciona linhas aleatórias de uma data frame.
É ideal para realizar amostragem aleatória simples
.data
: o data frame
n
: número de linhas a serem sorteadas
Exemplo com mtcars
Use set.seed()
antes para obter os mesmos resultados toda vez.
Exemplo com Dados Municipais do PNUD (pnud_muni
)
# Carregar pacotes
library(abjData) # Fornece dados municipais do PNUD
# Carregar a base completa
data("pnud_muni")
# Filtrar apenas os dados mais recentes
dados_recentes <- pnud_muni %>%
filter(ano == max(ano)) # ano mais recente disponível
# Verificar estrutura
glimpse(dados_recentes)
Rows: 5,565
Columns: 124
$ uf <int> 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, …
$ ano <int> 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, …
$ codmun6 <int> 110001, 110002, 110003, 110004, 110005, 110006, …
$ codmun7 <int> 1100015, 1100023, 1100031, 1100049, 1100056, 110…
$ municipio <chr> "ALTA FLORESTA D'OESTE", "ARIQUEMES", "CABIXI", …
$ espvida <dbl> 70.75, 73.36, 70.39, 74.27, 72.94, 73.81, 71.45,…
$ fectot <dbl> 2.24, 1.91, 2.15, 1.90, 2.12, 1.89, 2.29, 2.72, …
$ mort1 <dbl> 23.80, 19.20, 24.80, 14.30, 18.10, 16.10, 21.90,…
$ mort5 <dbl> 25.49, 20.53, 26.58, 15.38, 19.42, 17.28, 23.45,…
$ razdep <dbl> 47.37, 46.68, 48.12, 43.79, 45.67, 45.82, 46.32,…
$ t_env <dbl> 5.84, 4.36, 6.87, 5.57, 6.44, 7.51, 5.67, 3.82, …
$ e_anosestudo <dbl> 8.67, 9.18, 10.09, 9.74, 10.22, 10.40, 9.82, 9.2…
$ t_atraso_0_basico <dbl> 57.62, 58.43, 66.22, 66.69, 72.15, 68.55, 67.01,…
$ t_atraso_0_fund <dbl> 63.21, 60.96, 70.56, 71.14, 76.20, 73.40, 72.08,…
$ t_atraso_0_med <dbl> 66.39, 72.93, 76.66, 71.07, 78.58, 78.44, 77.68,…
$ t_atraso_1_basico <dbl> 20.36, 22.22, 18.19, 17.74, 14.93, 17.71, 15.38,…
$ t_atraso_1_fund <dbl> 18.97, 22.30, 16.51, 16.28, 13.54, 16.80, 14.49,…
$ t_atraso_1_med <dbl> 25.81, 23.11, 16.41, 21.60, 17.59, 16.55, 18.92,…
$ t_atraso_2_basico <dbl> 22.03, 19.35, 15.59, 15.57, 12.93, 13.74, 17.61,…
$ t_atraso_2_fund <dbl> 17.82, 16.74, 12.93, 12.58, 10.27, 9.80, 13.43, …
$ t_atraso_2_med <dbl> 7.79, 3.96, 6.93, 7.33, 3.82, 5.02, 3.40, 11.00,…
$ t_fbbas <dbl> 90.45, 94.78, 97.65, 100.81, 92.48, 95.41, 85.59…
$ t_fbfund <dbl> 107.69, 106.62, 109.08, 108.09, 105.56, 107.99, …
$ t_fbmed <dbl> 45.99, 58.77, 68.27, 80.94, 57.67, 64.95, 42.49,…
$ t_fbpre <dbl> 35.40, 46.92, 58.34, 54.45, 54.11, 41.62, 32.19,…
$ t_fbsuper <dbl> 21.23, 27.95, 22.04, 38.23, 20.94, 41.96, 10.23,…
$ t_flbas <dbl> 85.25, 85.46, 88.82, 88.24, 84.69, 87.66, 80.76,…
$ t_flfund <dbl> 92.88, 91.31, 92.81, 93.02, 93.47, 91.75, 90.17,…
$ t_flmed <dbl> 34.60, 37.07, 42.14, 43.97, 38.23, 40.53, 33.22,…
$ t_flpre <dbl> 34.15, 40.96, 58.34, 51.33, 49.74, 40.11, 29.83,…
$ t_flsuper <dbl> 10.50, 12.91, 9.86, 17.45, 10.77, 21.92, 1.79, 5…
$ t_freq0a3 <dbl> 4.89, 9.89, 12.49, 11.38, 13.45, 10.67, 1.30, 13…
$ t_freq4a5 <dbl> 39.18, 55.34, 66.92, 62.41, 61.27, 49.14, 34.37,…
$ t_freq4a6 <dbl> 54.07, 66.99, 74.58, 73.05, 73.09, 56.83, 53.83,…
$ t_freq5a6 <dbl> 70.79, 77.46, 85.31, 85.61, 84.97, 66.28, 71.39,…
$ t_freq6 <dbl> 81.62, 92.19, 96.52, 94.76, 95.92, 79.29, 85.72,…
$ corte1 <dbl> 102.40, 200.00, 130.00, 200.00, 172.50, 162.40, …
$ corte2 <dbl> 224.80, 335.00, 233.33, 336.67, 303.33, 281.67, …
$ corte3 <dbl> 368.90, 506.67, 362.50, 510.00, 501.43, 465.00, …
$ corte4 <dbl> 586.67, 836.67, 605.00, 825.00, 742.00, 700.00, …
$ corte9 <dbl> 877.00, 1252.40, 900.00, 1260.00, 1113.33, 1030.…
$ gini <dbl> 0.58, 0.53, 0.51, 0.57, 0.50, 0.49, 0.48, 0.52, …
$ pind <dbl> 14.29, 4.36, 7.27, 5.97, 4.72, 6.64, 10.16, 9.66…
$ pindcri <dbl> 19.01, 6.65, 8.51, 8.77, 6.93, 10.12, 11.90, 12.…
$ pmpob <dbl> 26.04, 11.54, 21.20, 13.08, 13.70, 15.76, 24.02,…
$ pmpobcri <dbl> 37.33, 18.76, 31.01, 20.03, 22.08, 26.97, 33.30,…
$ ppob <dbl> 47.12, 29.04, 46.98, 29.82, 34.85, 37.11, 46.42,…
$ ppobcri <dbl> 62.99, 43.11, 61.89, 43.31, 51.37, 53.69, 62.77,…
$ prentrab <dbl> 79.37, 87.28, 77.53, 82.06, 76.38, 78.01, 72.01,…
$ rdpc <dbl> 476.99, 689.95, 457.17, 738.06, 577.18, 535.41, …
$ rdpc1 <dbl> 36.89, 120.08, 78.16, 108.24, 104.82, 90.64, 60.…
$ rdpc2 <dbl> 160.31, 270.77, 181.72, 265.14, 236.32, 223.67, …
$ rdpc3 <dbl> 289.97, 420.44, 292.34, 431.80, 389.57, 370.82, …
$ rdpc4 <dbl> 469.88, 638.10, 480.37, 656.39, 581.95, 558.99, …
$ rdpc5 <dbl> 1424.61, 1996.77, 1256.80, 2247.76, 1568.87, 143…
$ rdpct <dbl> 512.46, 698.01, 468.09, 750.20, 581.57, 545.28, …
$ rind <dbl> 14.29, 30.85, 29.75, 24.18, 32.83, 24.82, 25.02,…
$ rmpob <dbl> 56.64, 79.50, 82.18, 72.45, 81.51, 74.36, 72.06,…
$ rpob <dbl> 120.71, 155.70, 148.29, 147.58, 155.20, 148.45, …
$ theil <dbl> 0.60, 0.51, 0.44, 0.61, 0.46, 0.45, 0.43, 0.48, …
$ cpr <dbl> 34.73, 27.66, 32.98, 24.97, 28.46, 25.97, 34.94,…
$ emp <dbl> 2.83, 2.30, 0.67, 2.09, 2.36, 1.54, 0.20, 0.81, …
$ p_agro <dbl> 38.56, 14.97, 45.49, 19.69, 26.67, 23.67, 51.25,…
$ p_com <dbl> 13.78, 17.99, 6.46, 19.00, 14.08, 16.56, 7.71, 8…
$ p_constr <dbl> 5.31, 8.68, 3.62, 7.16, 8.60, 8.15, 5.64, 4.07, …
$ p_extr <dbl> 0.00, 3.32, 0.00, 0.25, 0.06, 0.07, 0.00, 0.00, …
$ p_formal <dbl> 41.68, 52.81, 39.38, 55.07, 45.54, 48.57, 43.30,…
$ p_fund <dbl> 45.49, 57.26, 44.10, 55.78, 49.50, 50.62, 38.40,…
$ p_med <dbl> 31.05, 39.76, 30.24, 37.67, 34.10, 34.39, 20.08,…
$ p_serv <dbl> 33.18, 40.06, 36.91, 39.07, 38.39, 37.19, 28.68,…
$ p_siup <dbl> 0.69, 0.77, 0.52, 0.85, 0.57, 1.00, 0.15, 0.52, …
$ p_super <dbl> 7.72, 9.29, 6.25, 10.29, 8.53, 10.24, 6.19, 5.93…
$ p_transf <dbl> 3.26, 9.10, 3.98, 10.43, 6.87, 8.30, 3.45, 5.60,…
$ ren0 <dbl> 9.63, 4.10, 13.58, 7.95, 10.17, 10.75, 13.05, 10…
$ ren1 <dbl> 36.23, 16.89, 37.71, 21.48, 32.99, 28.93, 44.66,…
$ ren2 <dbl> 78.80, 70.18, 80.07, 70.72, 75.27, 74.61, 83.76,…
$ ren3 <dbl> 88.52, 83.20, 89.41, 83.53, 86.53, 86.66, 93.57,…
$ ren5 <dbl> 95.90, 92.31, 96.40, 92.47, 95.27, 94.71, 97.83,…
$ renocup <dbl> 950.08, 1274.11, 827.86, 1277.37, 926.57, 931.16…
$ t_ativ <dbl> 51.93, 60.62, 54.23, 60.39, 60.18, 56.13, 57.29,…
$ t_des <dbl> 6.07, 5.11, 2.90, 6.28, 5.72, 6.78, 3.75, 4.71, …
$ theiltrab <dbl> 0.52, 0.44, 0.40, 0.53, 0.41, 0.38, 0.33, 0.36, …
$ trabcc <dbl> 25.17, 41.15, 24.03, 40.10, 24.74, 30.45, 26.70,…
$ trabpub <dbl> 5.31, 6.30, 7.79, 7.70, 9.77, 9.60, 4.27, 6.72, …
$ trabsc <dbl> 23.17, 19.21, 22.12, 18.21, 25.05, 22.56, 21.19,…
$ t_agua <dbl> 93.69, 98.54, 95.49, 97.96, 97.53, 95.54, 93.24,…
$ t_banagua <dbl> 80.20, 85.35, 91.63, 93.44, 86.87, 93.89, 86.43,…
$ t_dens <dbl> 22.58, 27.15, 19.93, 20.50, 16.66, 14.73, 14.46,…
$ t_lixo <dbl> 94.05, 96.72, 99.14, 98.17, 91.89, 92.79, 90.19,…
$ t_luz <dbl> 93.98, 98.58, 96.36, 98.89, 98.85, 97.76, 97.81,…
$ agua_esgoto <dbl> 9.31, 11.40, 3.31, 1.85, 5.34, 2.99, 6.31, 36.41…
$ parede <dbl> 7.18, 5.62, 0.84, 3.39, 0.85, 5.63, 1.08, 4.88, …
$ t_crifundin_todos <dbl> 45.73, 29.58, 41.25, 25.72, 35.81, 35.96, 49.81,…
$ t_fora4a5 <dbl> 60.82, 44.66, 33.08, 37.59, 38.73, 50.86, 65.63,…
$ t_fundin_todos <dbl> 40.27, 26.59, 38.52, 26.16, 32.21, 33.74, 44.63,…
$ t_fundin_todos_mmeio <dbl> 24.81, 12.27, 21.53, 11.58, 15.53, 16.62, 26.51,…
$ t_nestuda_ntrab_mmeio <dbl> 16.12, 9.67, 16.59, 9.64, 10.16, 9.76, 16.03, 18…
$ t_ocupdesloc_1 <dbl> 1.15, 0.16, 0.65, 0.43, 0.38, 0.25, 0.69, 1.33, …
$ t_rmaxidoso <dbl> 2.20, 1.40, 3.10, 1.84, 1.43, 1.90, 1.11, 2.12, …
$ t_sluz <dbl> 6.02, 1.42, 3.64, 1.11, 1.15, 2.24, 2.19, 9.87, …
$ homem0a4 <int> 956, 3645, 240, 2958, 626, 701, 323, 705, 1212, …
$ homem5a9 <int> 1073, 4177, 253, 3203, 700, 719, 396, 771, 1235,…
$ homemtot <int> 12656, 45543, 3266, 39124, 8551, 9330, 4711, 720…
$ mulh0a4 <dbl> 952, 3625, 266, 2851, 609, 655, 298, 700, 1161, …
$ mulh5a9 <int> 1034, 4109, 254, 3072, 657, 702, 355, 755, 1242,…
$ mulhertot <int> 11736, 44810, 3047, 39450, 8478, 9261, 4072, 647…
$ pea <int> 10611, 45300, 2869, 40083, 8699, 8851, 4251, 626…
$ peso1 <int> 369, 1474, 94, 1158, 240, 255, 133, 244, 446, 79…
$ peso4 <int> 399, 1522, 115, 1180, 295, 294, 145, 297, 501, 8…
$ peso5 <int> 429, 1565, 121, 1218, 262, 278, 144, 321, 519, 8…
$ peso6 <int> 413, 1564, 84, 1216, 269, 256, 139, 300, 459, 83…
$ pesorur <int> 10422, 13828, 3620, 16653, 2610, 4934, 6193, 618…
$ pesotot <int> 24392, 90353, 6313, 78574, 17029, 18591, 8783, 1…
$ pesourb <int> 13970, 76525, 2693, 61921, 14419, 13657, 2590, 7…
$ pia <int> 20434, 74725, 5291, 66376, 14454, 15769, 7419, 1…
$ pop <int> 24097, 89766, 6303, 78141, 16942, 18540, 8647, 1…
$ popt <int> 22429, 88730, 6156, 76876, 16815, 18204, 8397, 1…
$ i_escolaridade <dbl> 0.368, 0.514, 0.357, 0.488, 0.430, 0.426, 0.316,…
$ i_freq_prop <dbl> 0.629, 0.648, 0.700, 0.698, 0.712, 0.683, 0.578,…
$ idhm <dbl> 0.641, 0.702, 0.650, 0.718, 0.692, 0.685, 0.613,…
$ idhm_e <dbl> 0.526, 0.600, 0.559, 0.620, 0.602, 0.584, 0.473,…
$ idhm_l <dbl> 0.763, 0.806, 0.757, 0.821, 0.799, 0.814, 0.774,…
$ idhm_r <dbl> 0.657, 0.716, 0.650, 0.727, 0.688, 0.676, 0.630,…
$ ufn <fct> Rondônia, Rondônia, Rondônia, Rondônia, Rondônia…
sampling
Exemplo com Dados Municipais do PNUD (pnud_muni
)
library(sampling) # Técnicas clássicas de amostragem
# Carregar base de dados e filtrar o ano mais recente
data("pnud_muni")
dados_recentes <- pnud_muni %>%
filter(ano == max(ano)) %>%
select(uf, municipio, pop, espvida, rdpc, idhm)
# Tamanho total da amostra desejada
n_total <- 150
# Calcular tamanho proporcional da amostra por UF
tamanhos <- dados_recentes %>%
# Contar o número de municípios em cada UF
count(uf, name = "n_uf") %>%
# Calcular a proporção de municípios da UF em relação ao total de municípios
mutate(
prop = n_uf / sum(n_uf),
# Determinar o tamanho da amostra da UF proporcional ao total desejado
n_amostra = round(prop * n_total),
# Corrigir possíveis casos com zero observações (garante mínimo de 1)
n_amostra = if_else(n_amostra == 0, 1L, n_amostra)
)
# Realizar amostragem estratificada proporcional
set.seed(123)
amostra_ids <- sampling::strata(
data = dados_recentes, # data frame com a população (municípios do ano mais recente)
stratanames = "uf", # variável que define os estratos
size = tamanhos$n_amostra, # número de unidades a serem sorteadas por estrato (UF)
method = "srswor" # aas sem reposição
)
# Selecionar observações da amostra
amostra_proporcional <- dados_recentes[amostra_ids$ID_unit, ]
👉 A função strata()
sorteia municípios proporcionalmente à quantidade por UF, garantindo pelo menos 1 município por estado.
👉 ID_unit
contém os índices sorteados que usamos para extrair a amostra final.
Quantos Municípios Foram Sorteados por UF?
# Contar número de municípios sorteados por UF
amostra_proporcional %>%
count(uf, name = "n_sorteados") %>%
arrange(desc(n_sorteados))
# A tibble: 27 × 2
uf n_sorteados
<int> <int>
1 31 23
2 35 17
3 43 13
4 29 11
5 41 11
6 42 8
7 52 7
8 21 6
9 22 6
10 25 6
# ℹ 17 more rows
👉 Como usamos alocação proporcional, estados com mais municípios no total também contribuem com mais municípios na amostra.
👉 Isso reforça a ideia de representatividade proporcional da amostragem estratificada.
Limitações Graves
Definição: Seleção de elementos mais fáceis de acessar, sem aleatoriedade.
Problemas:
Quando aceitar: Apenas estudos exploratórios, com ressalvas explícitas sobre limitações.
Base de Toda Inferência
Amostragem adequada é fundamental para:
Princípio: Qualidade da amostragem determina validade de toda análise posterior.
Pontos-Chave
Necessidade: Realizar um censo completo é frequentemente inviável, caro ou desnecessário.
Métodos Principais Vistos:
Ferramentas em R:
slice_sample()
do dplyr: simples e intuitiva para AASsampling::strata()
: apropriada para amostragem estratificada com controle do plano amostralQualidade da Amostra:
Inferência Estatística:
Responsabilidade Profissional:
Objetivo
Aplicar os conceitos aprendidos de amostragem aos dados do PNUD:
Dicas:
Use a base pnud_muni
do pacote abjData
Utilize set.seed(123)
para reprodutibilidade
Para a amostragem estratificada, siga o padrão visto nos slides anteriores
Código comentado
# Carregar dados
data("pnud_muni")
# filtra para o ano mais recente
dados <- pnud_muni %>%
filter(ano == max(ano)) %>%
select(uf, municipio, idhm)
# Tamanho proporcional por UF para 150 municípios
n_total <- 150
tamanhos <- dados %>%
count(uf, name = "n_uf") %>%
mutate(
prop = n_uf / sum(n_uf),
n_amostra = round(prop * n_total),
n_amostra = if_else(n_amostra == 0, 1L, n_amostra)
)
# Verificar tamanhos por UF
tamanhos
# A tibble: 27 × 4
uf n_uf prop n_amostra
<int> <int> <dbl> <dbl>
1 11 52 0.00934 1
2 12 22 0.00395 1
3 13 62 0.0111 2
4 14 15 0.00270 1
5 15 143 0.0257 4
6 16 16 0.00288 1
7 17 139 0.0250 4
8 21 217 0.0390 6
9 22 224 0.0403 6
10 23 184 0.0331 5
# ℹ 17 more rows
# Amostragem Estratificada Proporcional
set.seed(123)
amostra_ids <- sampling::strata(
data = dados,
stratanames = "uf",
size = tamanhos$n_amostra,
method = "srswor"
)
amostra_proporcional <- dados[amostra_ids$ID_unit, ]
# Média da estratificada
mean(amostra_proporcional$idhm)
[1] 0.66065
População | Amostra | |
---|---|---|
Símbolos | \(\mu\), \(\sigma\), \(p\), \(\rho\) | \(\bar{x}\), \(s\), \(\hat{p}\), \(r\) |
Fixo ou aleatório? | Fixo (desconhecido) | Aleatório |
Obtido por | Censo/dados históricos | Amostragem |
Objetivo | Verdade a descobrir | Instrumento de inferência |
Estimador | Fórmula | O que faz |
---|---|---|
Média amostral | \(\bar{x} = \frac{\sum_{i=1}^{n} X_i}{n}\) | Estima \(\mu\) |
Desvio amostral | \(s = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}\) | Estima \(\sigma\) |
Proporção amostral | \(\hat{p} = \frac{X}{n}\) | Estima \(p\) |
Correlação amostral | \(r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1)S_X S_Y}\) | Estima \(\rho\) |
Estimador, Estatística e Estimativa
Estimador: Fórmula que aplicamos aos dados da amostra para obter um valor que estima uma parâmetro populacional.
Estatística: É qualquer função dos dados da amostra. Todo estimador é uma estatística, mas nem toda estatística é um bom estimador.
Estimativas: Resultados numéricos obtidos ao aplicar os estimadores
Identifique: Parâmetro, Estimador, Estatística ou Estimativa?
Uma empresa de e-commerce analisa seus pedidos:
Respostas
Instruções
Prof. Washington Silva - Introdução à Ciência de Dados