Introdução à Ciência de Dados

Introdução à Inferência Estatística

Prof. Washington Santos da Silva

IFMG - Campus Formiga

25 de junho de 2025

Diário de Bordo

O que vimos até hoje?

  • Aula 1 ✅

    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Papéis Profissionais na Área de Dados ✅
    • Áreas de Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅
  • Aula 2 ✅

    • Metodologia CRISP-DM ✅

    • Tipos de Análise ✅

      • Descritiva ✅
      • Diagnóstica ✅
      • Preditiva ✅
      • Prescritiva ✅
    • Configurações: Git/GitHub ✅

  • Aula 3 ✅

    • Introdução ao RStudio ✅

      • Criação do seu Projeto RStudio da Disciplina ✅
  • Aula 4 ✅

    • Introdução ao Git e GitHub ✅

      • Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
  • Aula 5 ✅

    • Breve Revisão do IDE RStudio ✅

    • Introdução ao Sistema de Publicação Quarto ✅

    • Sessão Prática Guiada com Relatório 1 ✅

      • Execução dos comandos git essenciais ✅
  • Aula 6 ✅

    • Parte I ✅

      • O Relatório Junglivet e a Metodologia CRISP-DM ✅
      • Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
    • Parte II ✅

      • Para alunos com projetos estruturados ✅
      • Atividade prática ✅
      • Para alunos com dificuldades técnicas ✅
      • Atendimento individualizado para estruturação de projetos ✅
  • Aula 7 ✅

    • Introdução ao sistema Quarto (continuação) ✅

      • Gerar relatório no formato pdf ✅
      • Gerar relatório no formato docx ✅
    • Introdução à Linguagem R (continuação) ✅

      • Conceitos: Variáveis e observações ✅
      • Estrutura tabular organizada de dados ✅
      • Tipos e classes de dados principais em R ✅
      • Estruturas de dados: vetores e data frames ✅
  • Aula 8 ✅

    • Início do estudo do pacote dplyr para manipulação de dados ✅

      • CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
        de um projeto de análise ou ciência de dados ✅
      • O que é o dplyr? ✅
      • A Filosofia Tidy Data (Dados Organizados) ✅
      • Dados Organizados (Tidy Data) ✅
      • Por que usar o dplyr? ✅
      • Fluxo de trabalho com dplyr ✅
      • Boas Práticas com dplyr ✅
      • Função dplyr::select() ✅
      • Função dplyr::filter() ✅
  • Aula 9 ✅

    • Solução dos exercícios práticos sobre as funções select e filter ✅
    • Função dplyr::mutate() ✅
  • Aula 10 ✅

    • Soluções dos exercícios práticos sobre a função mutate ✅
    • funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
  • Aula 11 ✅

    • Metodologia CRISP-DM e Pacote dplyr ✅
    • Revisão sobre Dados Organizados (Tidy Data) ✅
    • Exemplos de Dados Desorganizados Comuns em Administração ✅
    • Pacote tidyr: Função pivot_longer ✅
  • Aula 12 ✅

    • Metodologia CRISP-DM e o tidyverse ✅
    • Dados Organizados: Potencializando Análises ✅
  • Aula 13 ✅

    • Avaliação 1 ✅
  • Aula 14 ✅

    • Tipos Básicos de joins do pacote dplyr ✅
  • Aula 15 ✅

    • Variáveis Aleatórias em Finanças ✅
    • Distribuições de Probabilidade ✅
    • Início: Distribuição Normal (ou Gaussiana) ✅
  • Aula 16 ✅

    • Distribuição Normal (ou Gaussiana) - Parte 2 ✅
    • Características da Distribuição de uma VA ✅
      • Valor Esperado (Média) ✅
  • Aula 17 ✅

    • Características da Distribuição de uma VA ✅

      • Variância e Desvio-Padrão ✅
      • Variância: Propriedades Básicas ✅
      • Aplicação: Valor-em-Risco (VaR) ✅
      • Assimetria e Curtose ✅
  • Aula 18 ✅

    • Características da Distribuição de uma VA ✅

      • Covariância e Correlação ✅
      • Fundamentos de Simulação de Monte Carlo ✅
  • Aula 19 ✅

    • Teoria da Probabilidade e Análise Estatística de Dados ✅

    • CRISP-DM e Análise Exploratória de Dados ✅

    • Análise Exploratória Numérica ✅

      • Medidas de Posição (ou de Tendência Central) ✅
      • Medidas de Variabilidade ✅
      • Medidas de Correlação ✅
  • Aula 20 ✅

    • Análise Exploratória Gráfica ✅

      • Visualização de Dados e o Pacote ggplot2 ✅

      • Gráficos para Visualizar a Distribuição de Variáveis Numéricas ✅

        • Histograma ✅
        • Densidade Empírica (ou Kernel da Densidade) ✅
        • Boxplot ✅
        • Boxplot Comparativo ✅
  • Aula 21 ✅

    • Gráfico Univariado para Variáveis Categóricas:

      • Gráfico de Barras (Barplot)
    • Gráficos Bivariados:

      • Gráficos de Barras Agrupadas e Empilhadas - Variáveis Categóricas
      • Gráfico de Dispersão - Variáveis Numéricas
    • Gráfico para Séries Temporais:

      • Gráfico de Linha Univariado (1 Série Temporal)
      • Gráfico de Linha Bivariado (2 Séries Temporais)
  • Aula 22 ✅

    • Lista de Exercícios - Treino para Avaliação 2
  • Aula 23 ✅

    • Avaliação 2

Nesta Aula

Tópicos

  • CRISP-DM: Fase 4 - Modelagem/Análise

  • Introdução à Inferência Estatística

    • População e Amostra
    • Amostragem: Conceitos Básicos
    • Parâmetro, Estimador, Estimativa e Estatística

Arquivo para esta Aula (24)

Instruções

  • Abra o RStudio e o seu Projeto da Disciplina

  • Crie a subpasta 14-relatorio dentro da pasta relatorios.

  • Acesse o site da disciplina e baixe o arquivo 14-relatorio.zip

  • Descompacte o arquivo, copie/recorte o arquivo 14-relatorio.qmd e cole dentro da subpasta 14-relatorio.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Atenção na digitação
  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Metodologia CRISP-DM

Fases da Metodologia CRISP-DM

CRISP-DM: Onde Estamos?

Nossa Jornada na Disciplina -> Progresso na Metodologia CRISP-DM

Fase/Componente Atividades Realizadas
Fase 1 - Entendimento do Negócio Relatório Junglivet: definição de problemas e objetivos
Fase 2 - Entendimento dos Dados Importação e exploração inicial com tidyverse (here, readr, dplyr…)
Fase 3 - Preparação dos Dados Transformação/organização/limpeza e AED com tidyverse (tidyr, dplyr, ggplot2…)
🔗 Teoria da Probabilidade Variáveis aleatórias, distribuição normal, valor esperado, variância/desvio-padrão, correlação, simulação
Fase 4 - Modelagem/Análise 🔄 Introdução à Inferência Estatística → Transformar dados em insights estatisticamente fundamentados

Conexão com CRISP-DM

Onde a Inferência Estatística se Encaixa?

🔄 Inferência permeia todo o processo CRISP-DM:

Fase Aplicação da Inferência Estatística
Fase 2 - Entendimento dos Dados Usar amostras para entender a população
Fase 3 - Preparação Verificar a representatividade dos dados/amostra
Fase 4 - Análise/Modelagem Estimar parâmetros, quantificar incerteza, Previsões
Fase 5 - Validação Validar conclusões com rigor estatístico

💡 Resultado: Decisões baseadas em evidências, não apenas em intuição ou análise qualitativa!

Caso Junglivet Whisky Company

Fase 1: Entendimento do Negócio - (01-relatorio.qmd)

No caso da destilaria Junglivet, identicamos que o problema de negócio, o objetivo da análise e o critério de sucesso:

  • Problema de negócio: Queda na qualidade do whisky produzido.

  • Objetivo: Identificar possíveis causas da redução de qualidade.

  • Critério de sucesso: Encontrar fatores que influenciam negativamente a qualidade do whisky.

  • Fizemos análises descritiva e diangóstica iniciais para identificar as possíveis causas do problema com base nos dados disponíveis.

Caso Junglivet Whisky Company

Relação entre fornecedor e qualidade do whisky

Caso Junglivet Whisky Company

Relação entre fornecedor e qualidade do whisky

Os resultados da análise preliminar dos dados da linha de produção da Junglivet Whisky Company, indicaram que:

O fornecedor de malte parece ser um fator significativo na qualidade do whisky

Pois, analisando o boxplot comparativo concluimos que:

  • Os whiskies produzidos com matéria-prima da “Burns Best Ltd.” tendem a ter qualidade mediana inferior.

  • Os whiskies produzidos com a matéria-prima proveniente da “Matro Ltd.” apresentam grande variabilidade na qualidade da bebida, com alguns apresentando qualidade inferior aos produzidos com insumo da “Burns Best Ltd.”

  • Os whiskies produzidos com matéria-prima própria (“Inhouse”) tentem a apresentar qualidade superior pelo indicador de qualidade baseado nos testes de desgustação.

Caso Junglivet Whisky Company

Há de fato diferenças na qualidade do whisky devido ao fornecedor de malte?

Limitações da Análise Apenas Descritiva:

Nossas conclusões se basearam apenas na análise exploratória visual dos dados. Mas isso é suficiente para decisões cientificamente embasadas?

Questões Científicas Fundamentais:

Tipo de Evidência Pergunta-Chave Por que Importa?
Significância Estatística As diferenças são reais ou apenas acaso? Evitar decisões baseadas em variabilidade natural
Significância Prática As diferenças são grandes o suficiente para importar? Mudanças custosas precisam justificar o investimento
Quantificação da Incerteza Qual nossa confiança nas estimativas? Gestores precisam conhecer os riscos das decisões

A Solução: Análise Estatística Moderna

Além de detectar diferenças, precisamos quantificar sua magnitude (tamanho do efeito), estimar intervalos de confiança e avaliar relevância prática - não apenas significância estatística.

📈 Próximo Passo: Fundamentos de inferência estatística moderna para recomendações e decisões baseadas em dados e com rigor científico!

População e Amostra

Por que Esta Distinção é Fundamental?

O Desafio Central do Analista de Dados

  • Analistas de dados enfrentam constantemente esta realidade: precisam tirar conclusões sobre grupos muito grandes (população) baseando-se apenas em informações de grupos menores (amostra).

  • Esta distinção determina como interpretamos resultados e quanta confiança podemos ter em nossas conclusões.

  • A qualidade da inferência depende de quão bem nossa amostra representa a população de interesse.

  • Esta é uma das questões mais importantes que todo analista deve sempre considerar antes de fazer qualquer análise ou recomendação.

População: O Conjunto Completo

Definição e Características

População é o conjunto completo de elementos sobre os quais queremos tirar conclusões. Importante: não se refere apenas a pessoas, mas a qualquer conjunto de interesse.

Características Principais:

A população possui parâmetros - valores fixos (mas geralmente desconhecidos) representados por letras gregas: média populacional (\(\mu\)), desvio padrão (\(\sigma\)), proporção (\(p\)).

O tamanho é representado por \(N\) e pode ser finito (funcionários de uma empresa) ou infinito (lançamentos de moeda).

Exemplos: Todos os clientes de um banco, todos os produtos de uma linha de produção, todas as transações de uma empresa em um ano.

Amostra: O Subconjunto Observado

Definição e Características

Amostra é um subconjunto da população que efetivamente observamos e sobre o qual coletamos dados. É nossa “janela” para entender a população.

Características Principais:

A amostra produz estatísticas - valores calculados dos dados observados, representados por letras latinas: média amostral (\(\bar{x}\)), desvio-padrão (\(s\)), proporção (\(\hat{p}\)).

O tamanho é representado por \(n\) (sempre menor que \(N\)). Diferentemente dos parâmetros, as estatísticas são variáveis aleatórias que mudam entre amostras.

Ponto Crucial: Usamos estatísticas amostrais como estimadores dos parâmetros populacionais desconhecidos.

A Relação Fundamental

População

Parâmetros (fixos, desconhecidos):

  • Tamanho: \(N\)
  • Média: \(\mu\)
  • Desvio-padrão: \(\sigma\)
  • Proporção: \(p\)

População: 46.000 barris de whisky produzidos

Amostra

Estatísticas:

  • Tamanho: \(n\)
  • Média: \(\bar{x}\)
  • Desvio-padrão: \(s\)
  • Proporção: \(\hat{p}\)

Amostra: 400 barris avaliados

Importante

Inferência Estatística: Usamos estatísticas amostrais para estimar parâmetros populacionais (desconhecidos), com incerteza quantificável.

Por que Trabalhamos com Amostras?

Limitações Práticas

Impossibilidade: Estudar toda a população é frequentemente impossível

Custo e Tempo: Censo completo pode ter um custo e tempo proibitivos.

Natureza Destrutiva: Alguns testes destroem o produto (durabilidade, qualidade).

Eficiência: Amostra bem coletada fornece precisão quase igual a censo completo, com fração do custo.

Conclusão: A questão não é se usar amostras, mas como coletar e analisar amostras para conclusões válidas.

Exemplo: Qualidade do Whisky

Situação Prática

Analista da destilaria Junglivet precisa avaliar qualidade média de 46.000 barris produzidos em 2024. Testar todos seria impossível (destruiria produto). Solução: amostra representativa.

Este exemplo ilustra como usamos informações limitadas (amostra) para fazer inferências sobre populações.

Qualidade do Whisky: População e Amostra

# A tibble: 3 × 3
  Característica      `Valor Real` Significado                          
  <chr>               <chr>        <chr>                                
1 Tamanho (N)         46.000       Total de barris produzidos em 2024   
2 Qualidade média (μ) 7.2          Qualidade média de toda a produção   
3 Desvio padrão (σ)   0.91         Variabilidade da qualidade dos barris
# A tibble: 3 × 3
  Característica      `Valor Calculado` Interpretação  
  <chr>                           <dbl> <chr>          
1 Tamanho (n)                     50    amostra        
2 Qualidade média (x̄)              7.22 estimativa de μ
3 Desvio- padrão (s)               1    estimativa do σ

Comparação: Parâmetros vs Estimativas

# A tibble: 3 × 4
  Medida          População  Amostra  `Qualidade da Estimativa`   
  <chr>           <chr>      <chr>    <chr>                       
1 Tamanho         N = 46.000 n = 50   Amostra = 0,11% da população
2 Qualidade Média μ = 7.2    x̄ = 7.22 Boa estimativa              
3 Desvio Padrão   σ = 0.91   s = 1    Boa estimativa              

Verificação Visual da Representatividade

Interpretação da Comparação

Análise dos Resultados

Formas das Distribuições: Ambas apresentam distribuições aproximadamente normais, indicando que a amostra capturou adequadamente a forma populacional.

Centros: Média populacional (\(\mu = 7.20\)) e amostral (\(\bar{x} = 7.22\)) são muito próximas.

Variabilidade: Dispersão amostral é consistente com a variabilidade populacional.

Conclusão: Esta análise visual confirma que a amostra é representativa.

Limitação Prática: Na realidade, não temos dados populacionais para esta comparação. Por isso analistas dependem de técnicas adequadas de amostragem e métodos estatísticos para quantificar incerteza.

Exemplo: Satisfação de Clientes

Cenário Empresarial

Analista de e-commerce com 50.000 clientes ativos precisa estimar satisfação média para estratégias de retenção. Entrevistar todos seria proibitivo. Solução: amostra de 80 clientes para obter uma estimativa confiável.

Satisfação de Clientes: População e Amostra

# A tibble: 4 × 2
  Característica           `Valor Verdadeiro`
  <chr>                    <chr>             
1 Total de clientes        50.000            
2 Satisfação média (μ)     7.49              
3 Desvio padrão (σ)        1.18              
4 % muito satisfeitos (≥8) 33.8%             
# A tibble: 4 × 3
  Resultado              Valor Interpretação                                    
  <chr>                  <chr> <chr>                                            
1 Clientes entrevistados 80    Tamanho da amostra                               
2 Satisfação média (x̄)   7.632 estimativa de μ                                  
3 Desvio padrão (s)      1.229 estimativa do σ                                  
4 % muito satisfeitos    40%   estimativa da % de clientes altamente satisfeitos

Quiz 1

Questão

Cenário: Empresa com 8.000 garrafas de vinho. Analista seleciona 120 garrafas para avaliação de qualidade por especialistas.

Identifique:

  1. Qual é a população?
  2. Qual é a amostra?
  3. O que representa \(\mu\)?
  4. O que representa \(\bar{x}\)?
  5. Por que não avaliar todas as garrafas?

Respostas do Quiz 1

Análise

  1. População: Todas as 8.000 garrafas no estoque - totalidade sobre a qual queremos conclusões.

  2. Amostra: 120 garrafas efetivamente avaliadas pelos especialistas.

  3. \(\mu\) = Qualidade média verdadeira de todas as 8.000 garrafas - parâmetro fixo mas desconhecido.

  4. \(\bar{x}\): Qualidade média das 120 garrafas avaliadas - estimativa de \(\mu\).

  5. Limitações: Custo elevado, tempo excessivo, e possível natureza destrutiva dos testes.

Quiz 2

Questão

Cenário: Rede com 1.200 farmácias. Analista seleciona 80 lojas para estudar ticket médio.

Identifique:

  1. Qual é a população?
  2. Qual é a amostra?
  3. O que representa \(\mu\)?
  4. O que representa \(\bar{x}\)?
  5. Vantagens da abordagem amostral?

Respostas do Quiz 2

Análise

  1. População: Todas as 1.200 lojas da rede.

  2. Amostra: 80 lojas selecionadas para análise.

  3. \(\mu\) = Ticket médio verdadeiro de todas as 1.200 lojas.

  4. \(\bar{x}\) = Ticket médio calculado das 80 lojas analisadas.

  5. Vantagens: Economia significativa de tempo e recursos, conclusões mais rápidas para decisões, precisão adequada para fins práticos, análises mais detalhadas possíveis.

Amostragem

Por que Amostragem é Necessária?

O Dilema do Analista de Dados

Situação Ideal: Estudar toda a população para obter informações completas.

Realidade Prática: Estudar toda a população é frequentemente:

  • Impossível: Populações infinitas ou inacessíveis
  • Inviável: Custo e tempo excessivos
  • Destrutivo: Testes que danificam produtos
  • Desnecessário: Amostras bem planejadas fornecem precisão adequada

Exemplo: Pesquisar 100.000 clientes custa R$ 500.000 e leva 6 meses. Uma amostra de 1.000 clientes custa R$ 5.000, leva 1 semana, e fornece precisão suficiente.

Conclusão: A amostragem permite obter informações confiáveis de forma eficiente.

O que é Amostragem?

Definição e Características

Amostragem é o processo de selecionar um subconjunto representativo de uma população.

Características de uma Boa Amostra:

  • Representativa: Reflete características da população
  • Tamanho adequado: Equilibra precisão e custo
  • Sem viés: Processo não favorece grupos específicos
  • Aleatória: Em amostragem probabilística, probabilidade conhecida de seleção

Princípio fundamental: Apenas amostras probabilísticas permitem inferência estatística válida.

Tipos de Amostragem Probabilística

Métodos Principais

Amostragem Aleatória Simples

  • Cada elemento tem a mesma probabilidade de seleção
  • Base da teoria estatística clássica
  • Exemplo:

Considere que você possui uma lista cada um com o nome de um morador de uma cidade. Você sorteia 100 nomes ao acaso, sem nenhum critério especial — exatamente como em uma loteria.

👉 Todos têm a mesma chance de serem escolhidos, independentemente da idade, bairro, renda, etc.

Tipos de Amostragem Probabilística

Amostragem Estratificada

  • Uma população heterogênea é dividida em grupos homogêneos
  • Garante a representação proporcional dos subgrupos
  • Exemplo:

Suponha que você queira entrevistar os estudantes do IFMG - Campus Formiga, e quer garantir que todos os cursos estejam representados. Você estratifica os alunos por curso (ex: Engenharia, Administração, Computação..), sendo que o número de amostras de cada curso será proporcional à proporção de alunos de cada curso em relação ao total de alunos.

👉 Garante que todos os cursos (estratos) estejam proporcionalmente representados na amostra.

Tipos de Amostragem Probabilística

Amostragem por Conglomerados

  • Seleção de grupos heterogêneos completos
  • Útil quando listas populacionais são difíceis
  • Exemplo:

Você quer entrevistar pessoas em uma grande cidade, mas não tem uma lista de todos os moradores. Então, sorteia 10 quarteirões aleatórios, e entrevista todos os moradores desses quarteirões.

👉 Cada quarteirão (conglomerado) deve refletir a diversidade da cidade como um todo.

Tipos de Amostragem Probabilística

Amostragem Sistemática

  • Seleção em intervalos regulares
  • Simples de implementar
  • Exemplo:

Você tem uma lista de 10.000 funcionários de uma empresa, em ordem alfabética. Decide entrevistar 1.000 deles. Sorteia um número entre 1 e 10 (por exemplo, 7) e depois seleciona cada 10ª pessoa a partir do 7º nome na lista: 7, 17, 27, 37…

👉 Simples de aplicar, mas precisa de uma lista ordenada da população.

Amostragem Aleatória Simples: Teoria

Conceito Matemático

Definição: Cada elemento da população tem a mesma probabilidade de seleção.

Probabilidade de seleção para população \(N\) e amostra \(n\): \[P = \frac{n}{N}\]

Quando usar: População homogênea, lista completa disponível, análise simples prioritária.

Vantagem: Teoria estatística simples.

A Função slice_sample() do dplyr

Para que serve slice_sample()?

A função slice_sample() seleciona linhas aleatórias de uma data frame.

É ideal para realizar amostragem aleatória simples

  • Sintaxe básica
slice_sample(.data, n = <tamanho da amostra>)
  • .data: o data frame

  • n: número de linhas a serem sorteadas

  • Exemplo com mtcars

# Selecionar 5 carros aleatórios da base mtcars
amostra <- mtcars %>%
  slice_sample(n = 5)

amostra
  • Reprodutibilidade

Use set.seed() antes para obter os mesmos resultados toda vez.

set.seed(123)
mtcars %>% slice_sample(n = 5)

Amostragem Aleatória Simples no R

Exemplo com Dados Municipais do PNUD (pnud_muni)

# Carregar pacotes
library(abjData)   # Fornece dados municipais do PNUD

# Carregar a base completa
data("pnud_muni")

# Filtrar apenas os dados mais recentes
dados_recentes <- pnud_muni %>%
  filter(ano == max(ano))  # ano mais recente disponível

# Verificar estrutura
glimpse(dados_recentes)
Rows: 5,565
Columns: 124
$ uf                    <int> 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, …
$ ano                   <int> 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, …
$ codmun6               <int> 110001, 110002, 110003, 110004, 110005, 110006, …
$ codmun7               <int> 1100015, 1100023, 1100031, 1100049, 1100056, 110…
$ municipio             <chr> "ALTA FLORESTA D'OESTE", "ARIQUEMES", "CABIXI", …
$ espvida               <dbl> 70.75, 73.36, 70.39, 74.27, 72.94, 73.81, 71.45,…
$ fectot                <dbl> 2.24, 1.91, 2.15, 1.90, 2.12, 1.89, 2.29, 2.72, …
$ mort1                 <dbl> 23.80, 19.20, 24.80, 14.30, 18.10, 16.10, 21.90,…
$ mort5                 <dbl> 25.49, 20.53, 26.58, 15.38, 19.42, 17.28, 23.45,…
$ razdep                <dbl> 47.37, 46.68, 48.12, 43.79, 45.67, 45.82, 46.32,…
$ t_env                 <dbl> 5.84, 4.36, 6.87, 5.57, 6.44, 7.51, 5.67, 3.82, …
$ e_anosestudo          <dbl> 8.67, 9.18, 10.09, 9.74, 10.22, 10.40, 9.82, 9.2…
$ t_atraso_0_basico     <dbl> 57.62, 58.43, 66.22, 66.69, 72.15, 68.55, 67.01,…
$ t_atraso_0_fund       <dbl> 63.21, 60.96, 70.56, 71.14, 76.20, 73.40, 72.08,…
$ t_atraso_0_med        <dbl> 66.39, 72.93, 76.66, 71.07, 78.58, 78.44, 77.68,…
$ t_atraso_1_basico     <dbl> 20.36, 22.22, 18.19, 17.74, 14.93, 17.71, 15.38,…
$ t_atraso_1_fund       <dbl> 18.97, 22.30, 16.51, 16.28, 13.54, 16.80, 14.49,…
$ t_atraso_1_med        <dbl> 25.81, 23.11, 16.41, 21.60, 17.59, 16.55, 18.92,…
$ t_atraso_2_basico     <dbl> 22.03, 19.35, 15.59, 15.57, 12.93, 13.74, 17.61,…
$ t_atraso_2_fund       <dbl> 17.82, 16.74, 12.93, 12.58, 10.27, 9.80, 13.43, …
$ t_atraso_2_med        <dbl> 7.79, 3.96, 6.93, 7.33, 3.82, 5.02, 3.40, 11.00,…
$ t_fbbas               <dbl> 90.45, 94.78, 97.65, 100.81, 92.48, 95.41, 85.59…
$ t_fbfund              <dbl> 107.69, 106.62, 109.08, 108.09, 105.56, 107.99, …
$ t_fbmed               <dbl> 45.99, 58.77, 68.27, 80.94, 57.67, 64.95, 42.49,…
$ t_fbpre               <dbl> 35.40, 46.92, 58.34, 54.45, 54.11, 41.62, 32.19,…
$ t_fbsuper             <dbl> 21.23, 27.95, 22.04, 38.23, 20.94, 41.96, 10.23,…
$ t_flbas               <dbl> 85.25, 85.46, 88.82, 88.24, 84.69, 87.66, 80.76,…
$ t_flfund              <dbl> 92.88, 91.31, 92.81, 93.02, 93.47, 91.75, 90.17,…
$ t_flmed               <dbl> 34.60, 37.07, 42.14, 43.97, 38.23, 40.53, 33.22,…
$ t_flpre               <dbl> 34.15, 40.96, 58.34, 51.33, 49.74, 40.11, 29.83,…
$ t_flsuper             <dbl> 10.50, 12.91, 9.86, 17.45, 10.77, 21.92, 1.79, 5…
$ t_freq0a3             <dbl> 4.89, 9.89, 12.49, 11.38, 13.45, 10.67, 1.30, 13…
$ t_freq4a5             <dbl> 39.18, 55.34, 66.92, 62.41, 61.27, 49.14, 34.37,…
$ t_freq4a6             <dbl> 54.07, 66.99, 74.58, 73.05, 73.09, 56.83, 53.83,…
$ t_freq5a6             <dbl> 70.79, 77.46, 85.31, 85.61, 84.97, 66.28, 71.39,…
$ t_freq6               <dbl> 81.62, 92.19, 96.52, 94.76, 95.92, 79.29, 85.72,…
$ corte1                <dbl> 102.40, 200.00, 130.00, 200.00, 172.50, 162.40, …
$ corte2                <dbl> 224.80, 335.00, 233.33, 336.67, 303.33, 281.67, …
$ corte3                <dbl> 368.90, 506.67, 362.50, 510.00, 501.43, 465.00, …
$ corte4                <dbl> 586.67, 836.67, 605.00, 825.00, 742.00, 700.00, …
$ corte9                <dbl> 877.00, 1252.40, 900.00, 1260.00, 1113.33, 1030.…
$ gini                  <dbl> 0.58, 0.53, 0.51, 0.57, 0.50, 0.49, 0.48, 0.52, …
$ pind                  <dbl> 14.29, 4.36, 7.27, 5.97, 4.72, 6.64, 10.16, 9.66…
$ pindcri               <dbl> 19.01, 6.65, 8.51, 8.77, 6.93, 10.12, 11.90, 12.…
$ pmpob                 <dbl> 26.04, 11.54, 21.20, 13.08, 13.70, 15.76, 24.02,…
$ pmpobcri              <dbl> 37.33, 18.76, 31.01, 20.03, 22.08, 26.97, 33.30,…
$ ppob                  <dbl> 47.12, 29.04, 46.98, 29.82, 34.85, 37.11, 46.42,…
$ ppobcri               <dbl> 62.99, 43.11, 61.89, 43.31, 51.37, 53.69, 62.77,…
$ prentrab              <dbl> 79.37, 87.28, 77.53, 82.06, 76.38, 78.01, 72.01,…
$ rdpc                  <dbl> 476.99, 689.95, 457.17, 738.06, 577.18, 535.41, …
$ rdpc1                 <dbl> 36.89, 120.08, 78.16, 108.24, 104.82, 90.64, 60.…
$ rdpc2                 <dbl> 160.31, 270.77, 181.72, 265.14, 236.32, 223.67, …
$ rdpc3                 <dbl> 289.97, 420.44, 292.34, 431.80, 389.57, 370.82, …
$ rdpc4                 <dbl> 469.88, 638.10, 480.37, 656.39, 581.95, 558.99, …
$ rdpc5                 <dbl> 1424.61, 1996.77, 1256.80, 2247.76, 1568.87, 143…
$ rdpct                 <dbl> 512.46, 698.01, 468.09, 750.20, 581.57, 545.28, …
$ rind                  <dbl> 14.29, 30.85, 29.75, 24.18, 32.83, 24.82, 25.02,…
$ rmpob                 <dbl> 56.64, 79.50, 82.18, 72.45, 81.51, 74.36, 72.06,…
$ rpob                  <dbl> 120.71, 155.70, 148.29, 147.58, 155.20, 148.45, …
$ theil                 <dbl> 0.60, 0.51, 0.44, 0.61, 0.46, 0.45, 0.43, 0.48, …
$ cpr                   <dbl> 34.73, 27.66, 32.98, 24.97, 28.46, 25.97, 34.94,…
$ emp                   <dbl> 2.83, 2.30, 0.67, 2.09, 2.36, 1.54, 0.20, 0.81, …
$ p_agro                <dbl> 38.56, 14.97, 45.49, 19.69, 26.67, 23.67, 51.25,…
$ p_com                 <dbl> 13.78, 17.99, 6.46, 19.00, 14.08, 16.56, 7.71, 8…
$ p_constr              <dbl> 5.31, 8.68, 3.62, 7.16, 8.60, 8.15, 5.64, 4.07, …
$ p_extr                <dbl> 0.00, 3.32, 0.00, 0.25, 0.06, 0.07, 0.00, 0.00, …
$ p_formal              <dbl> 41.68, 52.81, 39.38, 55.07, 45.54, 48.57, 43.30,…
$ p_fund                <dbl> 45.49, 57.26, 44.10, 55.78, 49.50, 50.62, 38.40,…
$ p_med                 <dbl> 31.05, 39.76, 30.24, 37.67, 34.10, 34.39, 20.08,…
$ p_serv                <dbl> 33.18, 40.06, 36.91, 39.07, 38.39, 37.19, 28.68,…
$ p_siup                <dbl> 0.69, 0.77, 0.52, 0.85, 0.57, 1.00, 0.15, 0.52, …
$ p_super               <dbl> 7.72, 9.29, 6.25, 10.29, 8.53, 10.24, 6.19, 5.93…
$ p_transf              <dbl> 3.26, 9.10, 3.98, 10.43, 6.87, 8.30, 3.45, 5.60,…
$ ren0                  <dbl> 9.63, 4.10, 13.58, 7.95, 10.17, 10.75, 13.05, 10…
$ ren1                  <dbl> 36.23, 16.89, 37.71, 21.48, 32.99, 28.93, 44.66,…
$ ren2                  <dbl> 78.80, 70.18, 80.07, 70.72, 75.27, 74.61, 83.76,…
$ ren3                  <dbl> 88.52, 83.20, 89.41, 83.53, 86.53, 86.66, 93.57,…
$ ren5                  <dbl> 95.90, 92.31, 96.40, 92.47, 95.27, 94.71, 97.83,…
$ renocup               <dbl> 950.08, 1274.11, 827.86, 1277.37, 926.57, 931.16…
$ t_ativ                <dbl> 51.93, 60.62, 54.23, 60.39, 60.18, 56.13, 57.29,…
$ t_des                 <dbl> 6.07, 5.11, 2.90, 6.28, 5.72, 6.78, 3.75, 4.71, …
$ theiltrab             <dbl> 0.52, 0.44, 0.40, 0.53, 0.41, 0.38, 0.33, 0.36, …
$ trabcc                <dbl> 25.17, 41.15, 24.03, 40.10, 24.74, 30.45, 26.70,…
$ trabpub               <dbl> 5.31, 6.30, 7.79, 7.70, 9.77, 9.60, 4.27, 6.72, …
$ trabsc                <dbl> 23.17, 19.21, 22.12, 18.21, 25.05, 22.56, 21.19,…
$ t_agua                <dbl> 93.69, 98.54, 95.49, 97.96, 97.53, 95.54, 93.24,…
$ t_banagua             <dbl> 80.20, 85.35, 91.63, 93.44, 86.87, 93.89, 86.43,…
$ t_dens                <dbl> 22.58, 27.15, 19.93, 20.50, 16.66, 14.73, 14.46,…
$ t_lixo                <dbl> 94.05, 96.72, 99.14, 98.17, 91.89, 92.79, 90.19,…
$ t_luz                 <dbl> 93.98, 98.58, 96.36, 98.89, 98.85, 97.76, 97.81,…
$ agua_esgoto           <dbl> 9.31, 11.40, 3.31, 1.85, 5.34, 2.99, 6.31, 36.41…
$ parede                <dbl> 7.18, 5.62, 0.84, 3.39, 0.85, 5.63, 1.08, 4.88, …
$ t_crifundin_todos     <dbl> 45.73, 29.58, 41.25, 25.72, 35.81, 35.96, 49.81,…
$ t_fora4a5             <dbl> 60.82, 44.66, 33.08, 37.59, 38.73, 50.86, 65.63,…
$ t_fundin_todos        <dbl> 40.27, 26.59, 38.52, 26.16, 32.21, 33.74, 44.63,…
$ t_fundin_todos_mmeio  <dbl> 24.81, 12.27, 21.53, 11.58, 15.53, 16.62, 26.51,…
$ t_nestuda_ntrab_mmeio <dbl> 16.12, 9.67, 16.59, 9.64, 10.16, 9.76, 16.03, 18…
$ t_ocupdesloc_1        <dbl> 1.15, 0.16, 0.65, 0.43, 0.38, 0.25, 0.69, 1.33, …
$ t_rmaxidoso           <dbl> 2.20, 1.40, 3.10, 1.84, 1.43, 1.90, 1.11, 2.12, …
$ t_sluz                <dbl> 6.02, 1.42, 3.64, 1.11, 1.15, 2.24, 2.19, 9.87, …
$ homem0a4              <int> 956, 3645, 240, 2958, 626, 701, 323, 705, 1212, …
$ homem5a9              <int> 1073, 4177, 253, 3203, 700, 719, 396, 771, 1235,…
$ homemtot              <int> 12656, 45543, 3266, 39124, 8551, 9330, 4711, 720…
$ mulh0a4               <dbl> 952, 3625, 266, 2851, 609, 655, 298, 700, 1161, …
$ mulh5a9               <int> 1034, 4109, 254, 3072, 657, 702, 355, 755, 1242,…
$ mulhertot             <int> 11736, 44810, 3047, 39450, 8478, 9261, 4072, 647…
$ pea                   <int> 10611, 45300, 2869, 40083, 8699, 8851, 4251, 626…
$ peso1                 <int> 369, 1474, 94, 1158, 240, 255, 133, 244, 446, 79…
$ peso4                 <int> 399, 1522, 115, 1180, 295, 294, 145, 297, 501, 8…
$ peso5                 <int> 429, 1565, 121, 1218, 262, 278, 144, 321, 519, 8…
$ peso6                 <int> 413, 1564, 84, 1216, 269, 256, 139, 300, 459, 83…
$ pesorur               <int> 10422, 13828, 3620, 16653, 2610, 4934, 6193, 618…
$ pesotot               <int> 24392, 90353, 6313, 78574, 17029, 18591, 8783, 1…
$ pesourb               <int> 13970, 76525, 2693, 61921, 14419, 13657, 2590, 7…
$ pia                   <int> 20434, 74725, 5291, 66376, 14454, 15769, 7419, 1…
$ pop                   <int> 24097, 89766, 6303, 78141, 16942, 18540, 8647, 1…
$ popt                  <int> 22429, 88730, 6156, 76876, 16815, 18204, 8397, 1…
$ i_escolaridade        <dbl> 0.368, 0.514, 0.357, 0.488, 0.430, 0.426, 0.316,…
$ i_freq_prop           <dbl> 0.629, 0.648, 0.700, 0.698, 0.712, 0.683, 0.578,…
$ idhm                  <dbl> 0.641, 0.702, 0.650, 0.718, 0.692, 0.685, 0.613,…
$ idhm_e                <dbl> 0.526, 0.600, 0.559, 0.620, 0.602, 0.584, 0.473,…
$ idhm_l                <dbl> 0.763, 0.806, 0.757, 0.821, 0.799, 0.814, 0.774,…
$ idhm_r                <dbl> 0.657, 0.716, 0.650, 0.727, 0.688, 0.676, 0.630,…
$ ufn                   <fct> Rondônia, Rondônia, Rondônia, Rondônia, Rondônia…

Amostragem Estratificada com o pacote sampling

Exemplo com Dados Municipais do PNUD (pnud_muni)

library(sampling)    # Técnicas clássicas de amostragem

# Carregar base de dados e filtrar o ano mais recente
data("pnud_muni")
dados_recentes <- pnud_muni %>%
  filter(ano == max(ano)) %>%
  select(uf, municipio, pop, espvida, rdpc, idhm)

# Tamanho total da amostra desejada
n_total <- 150

# Calcular tamanho proporcional da amostra por UF
tamanhos <- dados_recentes %>%
  # Contar o número de municípios em cada UF
  count(uf, name = "n_uf") %>%
  # Calcular a proporção de municípios da UF em relação ao total de municípios
  mutate(
    prop = n_uf / sum(n_uf),
    # Determinar o tamanho da amostra da UF proporcional ao total desejado
    n_amostra = round(prop * n_total),
    # Corrigir possíveis casos com zero observações (garante mínimo de 1)
    n_amostra = if_else(n_amostra == 0, 1L, n_amostra)
  )


# Realizar amostragem estratificada proporcional
set.seed(123)
amostra_ids <- sampling::strata(
  data = dados_recentes,           # data frame com a população (municípios do ano mais recente)
  stratanames = "uf",              # variável que define os estratos 
  size = tamanhos$n_amostra,       # número de unidades a serem sorteadas por estrato (UF)
  method = "srswor"                # aas sem reposição
)

# Selecionar observações da amostra
amostra_proporcional <- dados_recentes[amostra_ids$ID_unit, ]

👉 A função strata() sorteia municípios proporcionalmente à quantidade por UF, garantindo pelo menos 1 município por estado.

👉 ID_unit contém os índices sorteados que usamos para extrair a amostra final.

Visualizando a Amostra Estratificada

Quantos Municípios Foram Sorteados por UF?

# Contar número de municípios sorteados por UF
amostra_proporcional %>%
  count(uf, name = "n_sorteados") %>%
  arrange(desc(n_sorteados))
# A tibble: 27 × 2
      uf n_sorteados
   <int>       <int>
 1    31          23
 2    35          17
 3    43          13
 4    29          11
 5    41          11
 6    42           8
 7    52           7
 8    21           6
 9    22           6
10    25           6
# ℹ 17 more rows

👉 Como usamos alocação proporcional, estados com mais municípios no total também contribuem com mais municípios na amostra.

👉 Isso reforça a ideia de representatividade proporcional da amostragem estratificada.

Problemas da Amostragem por Conveniência

Limitações Graves

Definição: Seleção de elementos mais fáceis de acessar, sem aleatoriedade.

Problemas:

  • Viés sistemático: Grupos são sub/super-representados
  • Erro não quantificável: Impossível calcular margens de erro
  • Generalização inválida: Resultados limitados à amostra
  • Decisões equivocadas: Conclusões podem ser enganosas

Quando aceitar: Apenas estudos exploratórios, com ressalvas explícitas sobre limitações.

Amostragem e Inferência Estatística

Base de Toda Inferência

Amostragem adequada é fundamental para:

  • Intervalos de confiança: Aleatoriedade valida propriedades teóricas
  • Testes de hipóteses: Independência é pressuposto dos testes
  • Bootstrap: Eficácia depende de amostra representativa
  • Generalização: Apenas amostras probabilísticas permitem inferência válida

Princípio: Qualidade da amostragem determina validade de toda análise posterior.

Síntese: Conceitos Essenciais

Pontos-Chave

Necessidade: Realizar um censo completo é frequentemente inviável, caro ou desnecessário.

Métodos Principais Vistos:

  • AAS (Amostragem Aleatória Simples): base teórica da inferência estatística
  • Amostragem Estratificada: assegura representatividade por subgrupos

Ferramentas em R:

  • slice_sample() do dplyr: simples e intuitiva para AAS
  • sampling::strata(): apropriada para amostragem estratificada com controle do plano amostral

Qualidade da Amostra:

  • Apenas amostras probabilísticas permitem inferência estatística válida
  • Amostragem por conveniência não permite generalizações confiáveis

Inferência Estatística:

  • A validade de intervalos de confiança, testes de hipóteses e métodos de simulação depende da aleatoriedade da amostra

Responsabilidade Profissional:

  • O analista de dados deve sempre explicitar e justificar o método de amostragem adotado

Exercício

Objetivo

Aplicar os conceitos aprendidos de amostragem aos dados do PNUD:

  1. Filtrar os dados para o ano mais recente disponível
  2. Criar uma amostra estratificada proporcional por UF com 150 municípios
  3. Estime a média do IDHM da amostra estratificada
  • Dicas:

  • Use a base pnud_muni do pacote abjData

  • Utilize set.seed(123) para reprodutibilidade

  • Para a amostragem estratificada, siga o padrão visto nos slides anteriores

Solução: Comparando AAS e Amostragem Estratificada

Código comentado

# Carregar dados 
data("pnud_muni")

# filtra para o ano mais recente
dados <- pnud_muni %>%
  filter(ano == max(ano)) %>%
  select(uf, municipio, idhm)

# Tamanho proporcional por UF para 150 municípios
n_total <- 150
tamanhos <- dados %>%
  count(uf, name = "n_uf") %>%
  mutate(
    prop = n_uf / sum(n_uf),
    n_amostra = round(prop * n_total),
    n_amostra = if_else(n_amostra == 0, 1L, n_amostra)
  )

# Verificar tamanhos por UF
tamanhos
# A tibble: 27 × 4
      uf  n_uf    prop n_amostra
   <int> <int>   <dbl>     <dbl>
 1    11    52 0.00934         1
 2    12    22 0.00395         1
 3    13    62 0.0111          2
 4    14    15 0.00270         1
 5    15   143 0.0257          4
 6    16    16 0.00288         1
 7    17   139 0.0250          4
 8    21   217 0.0390          6
 9    22   224 0.0403          6
10    23   184 0.0331          5
# ℹ 17 more rows
# Amostragem Estratificada Proporcional
set.seed(123)
amostra_ids <- sampling::strata(
  data = dados,
  stratanames = "uf",
  size = tamanhos$n_amostra,
  method = "srswor"
)
amostra_proporcional <- dados[amostra_ids$ID_unit, ]

# Média da estratificada
mean(amostra_proporcional$idhm)    
[1] 0.66065

Parâmetro, Estimador, Estatística e Estimativa

Notação e Conceitos

População Amostra
Símbolos \(\mu\), \(\sigma\), \(p\), \(\rho\) \(\bar{x}\), \(s\), \(\hat{p}\), \(r\)
Fixo ou aleatório? Fixo (desconhecido) Aleatório
Obtido por Censo/dados históricos Amostragem
Objetivo Verdade a descobrir Instrumento de inferência

Estimador Pontual (Fórmula)

Estimador Fórmula O que faz
Média amostral \(\bar{x} = \frac{\sum_{i=1}^{n} X_i}{n}\) Estima \(\mu\)
Desvio amostral \(s = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}\) Estima \(\sigma\)
Proporção amostral \(\hat{p} = \frac{X}{n}\) Estima \(p\)
Correlação amostral \(r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{(n-1)S_X S_Y}\) Estima \(\rho\)

Conceitos Centrais

Estimador, Estatística e Estimativa

  • Estimador: Fórmula que aplicamos aos dados da amostra para obter um valor que estima uma parâmetro populacional.

  • Estatística: É qualquer função dos dados da amostra. Todo estimador é uma estatística, mas nem toda estatística é um bom estimador.

  • Estimativas: Resultados numéricos obtidos ao aplicar os estimadores

Distinção Fundamental

Estatística e Estimador

  • São variáveis aleatórias
  • Natureza: Função dos dados
  • Varia: Entre amostras
  • Exemplo: \(\bar{X} = \frac{\sum X_i}{n}\)
  • Distribuição: Tem sua própria distribuição (distribuição amostral)

Estimativa

  • É: Um número fixo
  • Natureza: Valor calculado
  • Fixo: Para uma amostra específica
  • Exemplo: \(\bar{x} = 7.82\)
  • Interpretação: Realização de um estimador ou estatística

Quiz 3

Identifique: Parâmetro, Estimador, Estatística ou Estimativa?

Uma empresa de e-commerce analisa seus pedidos:

  1. A fórmula \(S^2 = \frac{\sum(X_i - \bar{X})^2}{n-1}\) para calcular variância
  2. O valor R$ 127,50 calculado como média de 1.000 pedidos
  3. A verdadeira proporção de clientes satisfeitos (nota ≥ 8)
  4. A variável aleatória \(\hat{p}\) = proporção amostral de satisfeitos
  5. O desvio padrão σ = R$ 45,00 de todos os pedidos históricos

Quiz 3

Respostas

  1. Estimador (fórmula/método para estimar \(\sigma^2\))
  2. Estimativa (valor numérico específico de \(\bar{X}\))
  3. Parâmetro (\(p\) - proporção populacional)
  4. Estatística (variável aleatória)
  5. Parâmetro (\(\sigma\) - desvio padrão populacional)

Atualizando os Repositórios

Instruções

  1. No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:
git status
  1. Você pode adicionar todos os arquivos de uma vez com:
git add .
  1. Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):
git status
  1. Se tudo estiver em verde, faça um commit com uma mensagem descritiva:
git commit -m "atualizacoes aula 24"
  1. Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:
git add relatorios/13-relatorio/13-relatorio.qmd
  1. Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:
git commit -m "atualizacoes aula 24"
  1. Envie o repositório local atualizado para o GitHub:
git push origin main

Referências