Introdução à Ciência de Dados

Introdução à Inferência Estatística - Parte 3

Prof. Washington Santos da Silva

IFMG - Campus Formiga

2 de julho de 2025

Diário de Bordo

O que vimos até hoje?

  • Aula 1 ✅

    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Papéis Profissionais na Área de Dados ✅
    • Áreas de Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅
  • Aula 2 ✅

    • Metodologia CRISP-DM ✅

    • Tipos de Análise ✅

      • Descritiva ✅
      • Diagnóstica ✅
      • Preditiva ✅
      • Prescritiva ✅
    • Configurações: Git/GitHub ✅

  • Aula 3 ✅

    • Introdução ao RStudio ✅

      • Criação do seu Projeto RStudio da Disciplina ✅
  • Aula 4 ✅

    • Introdução ao Git e GitHub ✅

      • Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
  • Aula 5 ✅

    • Breve Revisão do IDE RStudio ✅

    • Introdução ao Sistema de Publicação Quarto ✅

    • Sessão Prática Guiada com Relatório 1 ✅

      • Execução dos comandos git essenciais ✅
  • Aula 6 ✅

    • Parte I ✅

      • O Relatório Junglivet e a Metodologia CRISP-DM ✅
      • Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
    • Parte II ✅

      • Para alunos com projetos estruturados ✅
      • Atividade prática ✅
      • Para alunos com dificuldades técnicas ✅
      • Atendimento individualizado para estruturação de projetos ✅
  • Aula 7 ✅

    • Introdução ao sistema Quarto (continuação) ✅

      • Gerar relatório no formato pdf ✅
      • Gerar relatório no formato docx ✅
    • Introdução à Linguagem R (continuação) ✅

      • Conceitos: Variáveis e observações ✅
      • Estrutura tabular organizada de dados ✅
      • Tipos e classes de dados principais em R ✅
      • Estruturas de dados: vetores e data frames ✅
  • Aula 8 ✅

    • Início do estudo do pacote dplyr para manipulação de dados ✅

      • CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
        de um projeto de análise ou ciência de dados ✅
      • O que é o dplyr? ✅
      • A Filosofia Tidy Data (Dados Organizados) ✅
      • Dados Organizados (Tidy Data) ✅
      • Por que usar o dplyr? ✅
      • Fluxo de trabalho com dplyr ✅
      • Boas Práticas com dplyr ✅
      • Função dplyr::select() ✅
      • Função dplyr::filter() ✅
  • Aula 9 ✅

    • Solução dos exercícios práticos sobre as funções select e filter ✅
    • Função dplyr::mutate() ✅
  • Aula 10 ✅

    • Soluções dos exercícios práticos sobre a função mutate ✅
    • funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
  • Aula 11 ✅

    • Metodologia CRISP-DM e Pacote dplyr ✅
    • Revisão sobre Dados Organizados (Tidy Data) ✅
    • Exemplos de Dados Desorganizados Comuns em Administração ✅
    • Pacote tidyr: Função pivot_longer ✅
  • Aula 12 ✅

    • Metodologia CRISP-DM e o tidyverse ✅
    • Dados Organizados: Potencializando Análises ✅
  • Aula 13 ✅

    • Avaliação 1 ✅
  • Aula 14 ✅

    • Tipos Básicos de joins do pacote dplyr ✅
  • Aula 15 ✅

    • Variáveis Aleatórias em Finanças ✅
    • Distribuições de Probabilidade ✅
    • Início: Distribuição Normal (ou Gaussiana) ✅
  • Aula 16 ✅

    • Distribuição Normal (ou Gaussiana) - Parte 2 ✅
    • Características da Distribuição de uma VA ✅
      • Valor Esperado (Média) ✅
  • Aula 17 ✅

    • Características da Distribuição de uma VA ✅

      • Variância e Desvio-Padrão ✅
      • Variância: Propriedades Básicas ✅
      • Aplicação: Valor-em-Risco (VaR) ✅
      • Assimetria e Curtose ✅
  • Aula 18 ✅

    • Características da Distribuição de uma VA ✅

      • Covariância e Correlação ✅
      • Fundamentos de Simulação de Monte Carlo ✅
  • Aula 19 ✅

    • Teoria da Probabilidade e Análise Estatística de Dados ✅

    • CRISP-DM e Análise Exploratória de Dados ✅

    • Análise Exploratória Numérica ✅

      • Medidas de Posição (ou de Tendência Central) ✅
      • Medidas de Variabilidade ✅
      • Medidas de Correlação ✅
  • Aula 20 ✅

    • Análise Exploratória Gráfica ✅

      • Visualização de Dados e o Pacote ggplot2 ✅

      • Gráficos para Visualizar a Distribuição de Variáveis Numéricas ✅

        • Histograma ✅
        • Densidade Empírica (ou Kernel da Densidade) ✅
        • Boxplot ✅
        • Boxplot Comparativo ✅
  • Aula 21 ✅

    • Gráfico Univariado para Variáveis Categóricas:

      • Gráfico de Barras (Barplot)
    • Gráficos Bivariados:

      • Gráficos de Barras Agrupadas e Empilhadas - Variáveis Categóricas
      • Gráfico de Dispersão - Variáveis Numéricas
    • Gráfico para Séries Temporais:

      • Gráfico de Linha Univariado (1 Série Temporal)
      • Gráfico de Linha Bivariado (2 Séries Temporais)
  • Aula 22 ✅

    • Lista de Exercícios - Treino para Avaliação 2
  • Aula 23 ✅

    • Avaliação 2
  • Aula 24 ✅

    • CRISP-DM: Fase 4 - Modelagem/Análise

    • Introdução à Inferência Estatística

      • População e Amostra
      • Amostragem: Conceitos Básicos
      • Parâmetro, Estimador, Estimativa e Estatística
  • Aula 25 ✅

    • Distribuição Amostral da Média e Proporção

      • O Problema Central da Inferência Estatística
      • Distribuição Amostral da Média
      • Distribuição Amostral da Proporção
    • Tópico Extra: Interpretação de Gráficos de Séries Temporais

Nesta Aula

Tópicos

  • Introdução à Inferência Estatística - Parte 2

    • Estimação por Intervalo de Confiança:
      • Intervalo para Uma Proporção Populacional
      • Intervalos para Diferença entre Duas Proporções
      • Intervalo para Uma Média Populacional
      • Intervalos para Diferença entre Duas Médias
      • Implementação em R

Arquivo para esta Aula (26)

Instruções

  • Abra o RStudio e o seu Projeto da Disciplina

  • Crie a subpasta 15-relatorio dentro da pasta relatorios.

  • Acesse o site da disciplina e baixe o arquivo 15-relatorio.zip

  • Descompacte o arquivo, copie/recorte o arquivo 15-relatorio.qmd e cole dentro da subpasta 14-relatorio.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Atenção na digitação
  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Estimação por Intervalo de Confiança

Por que Intervalos de Confiança?

O Desafio do Analista de Dados

Problema: Uma estimativa pontual informa um valor, mas não quantifica a incerteza associada à inferência de uma amostra para a população.

Exemplo: Satisfação média de 7.2 pontos em amostra de 100 clientes.

Pergunta: Qual nossa confiança nesta estimativa?

Solução: Intervalos de confiança não reduzem a incerteza, mas a expressam de forma probabilisticamente controlada.

Comunicação Correta:

“A satisfação média de todos os clientes está entre 6.8 e 7.6 pontos, com 95% de confiança.”

Quantifica a incerteza da amostragem.

Importância da Amostragem Aleatória

Por que a aleatoriedade é importante?

Os intervalos de confiança assumem que os dados provêm de uma amostra aleatória da população de interesse. Esta condição é fundamental para a validade dos resultados.

Consequências da aleatoriedade:

  • Garante que cada elemento da população tenha chance conhecida de seleção
  • Permite que as propriedades probabilísticas dos estimadores sejam válidas
  • Assegura que os intervalos tenham as propriedades de cobertura desejadas

Responsabilidade do analista: Sempre verificar e documentar o método de amostragem utilizado, alertando sobre limitações quando a aleatoriedade não for garantida.

Conceito de Intervalo de Confiança

Definição Formal

Para uma amostra aleatória \(Y = (y_1, y_2, \ldots, y_n)\), um intervalo de confiança para um parâmetro \(\theta\) é:

\[P[L(Y) \leq \theta \leq U(Y)] = 1 - \alpha\]

Este é um conceito frequentista: o parâmetro é fixo, mas os limites do intervalo variam conforme a amostra.

sendo:

  • \(L(Y)\) = limite inferior de confiança
  • \(U(Y)\) = limite superior de confiança
  • \((1 - \alpha)\) = nível de confiança (0.90, 0.95 ou 0.99)
  • \(\alpha\) = erro (probabilidade do intervalo não conter o parâmetro da população).

Fórmula Geral: \[\text{Estimativa} \pm \text{Valor Crítico da Dist. Amostral} \times \text{Erro Padrão}\]

Interpretação: Se repetíssemos o processo infinitas vezes, \((1-\alpha) \times 100\%\) dos intervalos conteriam o verdadeiro parâmetro.

Interpretação Correta dos Intervalos

Cuidado na Interpretação

✅ Interpretação Correta:

“Se repetíssemos o processo de amostragem infinitas vezes, 95% dos intervalos construídos conteriam o verdadeiro parâmetro.”

❌ Interpretação Incorreta:

“Há 95% de probabilidade de que o parâmetro esteja neste intervalo específico.”

Por que a diferença importa?

O parâmetro populacional é fixo (embora desconhecido). A variabilidade está no método de construção do intervalo, não no parâmetro.

Interpretação Correta dos Intervalos

Figura 1: Intervalos de confiança de 95% para um parâmetro \(\theta\) com base em 100 amostras separadas de uma população. Os intervalos de confiança em vermelho (5 de 100) são aqueles que não incluem \(\theta\).

Intervalos para Proporções

Aplicações para Proporções

Situações Práticas

Marketing: Taxa de conversão, proporção de clientes satisfeitos, percentual de recomendação.

Qualidade: Taxa de defeitos, proporção de entregas no prazo, percentual de conformidade.

Recursos Humanos: Taxa de rotatividade, percentual de funcionários engajados.

Pesquisa de Mercado: Intenção de compra, preferência entre marcas, aceitação de produtos.

Pesquisas Eleitorais: Intenção de voto, aprovação de candidatos ou governos.

IC para Uma Proporção

Componentes e Fórmula

Elemento Notação Descrição
Parâmetro \(p\) Proporção populacional (desconhecida)
Estimador \(\hat{p} = \frac{x}{n}\) Proporção amostral observada
Erro Padrão \(EP(\hat{p}) = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) Medida da variabilidade do estimador

Intervalo de Confiança (método de Wald):

\[ \boxed{ \hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} } \]

sendo:

  • \(x\) = número de sucessos observados na amostra
  • \(n\) = tamanho da amostra
  • \(z_{\alpha/2}\) = valor crítico da distribuição normal padrão

Condições de Aplicação:

  • Amostra aleatória da população
  • \(n\hat{p} \geq 5\) e \(n(1-\hat{p}) \geq 5\) (regra prática para validade da aproximação normal)

Importante

  • A fórmula acima corresponde ao método de Wald, uma aproximação baseada na normal.

  • A função prop.test() de R não utiliza exatamente essa fórmula.

  • Em vez disso, implementa um intervalo baseado em teste qui-quadrado com correção de continuidade de Yates, o que gera intervalos ligeiramente mais amplos e conservadores, especialmente úteis para proporções próximas de 0 ou 1.

IC para Diferença entre Duas Proporções

Comparação Entre Grupos

Elemento Notação Descrição
Parâmetro \(p_1 - p_2\) Diferença entre proporções populacionais
Estimador \(\hat{p}_1 - \hat{p}_2\) Diferença entre proporções amostrais
Erro Padrão \(EP = \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}\) Variabilidade da diferença

Intervalo de Confiança:

\[ \boxed{(\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}} \]

sendo:

  • \(\hat{p}_1 = \frac{x_1}{n_1}\) e \(\hat{p}_2 = \frac{x_2}{n_2}\) são as proporções de cada grupo
  • \(n_1\) e \(n_2\) são os tamanhos das amostras dos grupos 1 e 2

Condições de Aplicação:

  • Amostras aleatórias independentes
  • Para cada grupo: \(n_i\hat{p}_i \geq 5\) e \(n_i(1-\hat{p}_i) \geq 5\)

Funções R para Proporções

prop.test() e binom.test()

prop.test(): Intervalo baseado em teste de hipótese para proporções

  • Usa a distribuição qui-quadrado com correção de continuidade de Yates
  • Intervalo é geralmente mais conservador do que o método de Wald
  • Adequado para amostras grandes (\(n \geq 30\))
  • Sintaxe: prop.test(x, n, conf.level = 0.95)
  • Para duas proporções: prop.test(c(x1, x2), c(n1, n2))

binom.test(): Intervalo exato com base na distribuição binomial

  • Adequado para amostras pequenas ou quando se deseja precisão máxima
  • Sintaxe: binom.test(x, n, conf.level = 0.95)
  • Apenas para uma proporção

Parâmetros comuns:

  • x: número de sucessos observados
  • n: tamanho da amostra
  • conf.level: nível de confiança (padrão: 0.95)

Recomendações:

  • Para \(n \geq 30\) e proporções longe de 0 ou 1, prop.test() é uma escolha prática e confiável

  • Para amostras pequenas ou proporções extremas, prefira binom.test() para maior precisão

Exemplo 1: IC para 1 Proporção

Pesquisa Eleitoral

Cenário: Instituto de pesquisa realiza levantamento sobre intenção de voto para prefeito em cidade de 500.000 habitantes.

Amostra: 1.200 eleitores selecionados aleatoriamente Resultado: 456 eleitores declararam intenção de votar no Candidato A

Objetivo: Estimar a proporção populacional de intenção de voto com intervalo de confiança.

Exemplo 1 em R

# dados da pesquisa eleitoral
n_eleitores <- 1200
votos_candidato_a <- 456

# estimativa pontual da proporção populacional
# ou simplemente proporção amostral
prop_amostral <- votos_candidato_a / n_eleitores
prop_amostral
[1] 0.38
# Estimativa por Intervalo de confiança (95%) da proporção pop.
estimativa_ic_proporcao <- prop.test(x = votos_candidato_a, 
                                 n = n_eleitores, 
                                 conf.level = 0.95)

# exibe o resultado
estimativa_ic_proporcao

    1-sample proportions test with continuity correction

data:  votos_candidato_a out of n_eleitores, null probability 0.5
X-squared = 68.6, df = 1, p-value <0.0000000000000002
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
 0.35255 0.40823
sample estimates:
   p 
0.38 
# extrai somente a estimativa do intervalo de confiança
estimativa_ic_proporcao$conf.int
[1] 0.35255 0.40823
attr(,"conf.level")
[1] 0.95

Interpretação da Pesquisa Eleitoral

Resultado e Margem de Erro

Resultado Obtido:

  • Proporção amostral: 38.0% (456/1200)
  • Intervalo de Confiança (95%): [35.2%, 40.9%]
  • Margem de erro aproximada: ±2.9 pontos percentuais

Como a imprensa reporta:

“Candidato A tem 38% das intenções de voto, com margem de erro de 2.9 pontos percentuais.”

Observação Técnica

O intervalo de confiança acima foi obtido com a função prop.test() de R, que não utiliza o método de Wald.

Em vez disso, usa um método baseado em teste qui-quadrado com correção de continuidade, tornando o intervalo ligeiramente mais conservador**.

Para comparação:

  • Método de Wald (sem correção): aproximadamente [35.3%, 40.7%]
  • prop.test() (com correção): [35.2%, 40.9%]

Essa diferença ocorre porque a correção busca ajustar o uso da aproximação normal em situações discretas.

Interpretação da Pesquisa Eleitoral

Interpretação completa e correta

Com 95% de confiança, entre 35.2% e 40.9% dos eleitores têm intenção de votar no Candidato A.

Importante: A proporção verdadeira de eleitores que votarão no Candidato A é fixa (embora desconhecida). A variabilidade está no intervalo, que muda a cada nova amostra.

Limitações que deveriam ser reportadas:

  • Erro de amostragem: coberto pela margem de erro.
  • Erro de cobertura: Parte da população pode não ter sido alcançada.
  • Erro de não-resposta: Eleitores que se recusam a responder.
  • Erro de declaração: Eleitores que mentem sobre sua intenção.
  • Mudança temporal: Intenções podem mudar até a eleição.

A margem de erro tradicional cobre apenas a variabilidade associada à amostragem aleatória — outras fontes de incerteza não estão incluídas.

Exemplo 2: IC para Diferença entre 2 Proporções

Análise de Taxa de Conversão

Uma empresa de e-commerce testou duas estratégias de campanha publicitária digital. O analista de dados precisa comparar as taxas de conversão para determinar se existe diferença significativa entre as estratégias.

Dados Coletados:

Campanha Visualizações Conversões Taxa Observada
A (Tradicional) 2.500 175 7.0%
B (Personalizada) 2.200 198 9.0%

Objetivo da Análise:

Construir um intervalo de 95% de confiança para a diferença entre as taxas de conversão e avaliar se há evidência estatística de diferença entre as campanhas.

Exemplo 2 em R

# Dados das campanhas
# Campanha A (Tradicional)
n_a <- 2500
x_a <- 175

# Campanha B (Personalizada)  
n_b <- 2200
x_b <- 198

# Calcular proporções amostrais
prop_a <- x_a / n_a
prop_b <- x_b / n_b

# Exibir proporções
prop_a
[1] 0.07
prop_b
[1] 0.09
# Diferença observada (B - A)
diferenca_observada <- prop_b - prop_a
diferenca_observada
[1] 0.02
# Comparar as duas proporções
# A função calcula (primeira - segunda), então usamos ordem (B, A) 
# para obter (B - A)
resultado <- prop.test(x = c(x_b, x_a), n = c(n_b, n_a), conf.level = 0.95)

# Exibir resultado completo
resultado

    2-sample test for equality of proportions with continuity correction

data:  c(x_b, x_a) out of c(n_b, n_a)
X-squared = 6.14, df = 1, p-value = 0.013
alternative hypothesis: two.sided
95 percent confidence interval:
 0.003983 0.036017
sample estimates:
prop 1 prop 2 
  0.09   0.07 
# Extrair intervalo de confiança
ic_a_menos_b <- resultado$conf.int
ic_a_menos_b
[1] 0.003983 0.036017
attr(,"conf.level")
[1] 0.95

Exemplo 2: Interpretação

Resultados

A diferença observada entre as taxas de conversão foi de 2.0 pontos percentuais a favor da Campanha B (9.0% versus 7.0%).

O intervalo de 95% de confiança para a verdadeira diferença indica que, com 95% de confiança, a diferença populacional está entre aproximadamente 0.4 e 3.6 pontos percentuais.

Como o intervalo de confiança não contém zero e todos os valores são positivos, existe evidência estatística de que a Campanha B possui taxa de conversão superior à Campanha A.

Tipos de Erro em Pesquisas

Erros Relacionados à Amostragem

Erro de Amostragem (coberto pela margem de erro):

  • Variação natural dos resultados ao se usar uma amostra ao invés de um censo. Esse erro é controlável por métodos estatísticos e é o único refletido na margem de erro padrão.

Erro de Cobertura:

  • Ocorre quando parte da população-alvo tem probabilidade nula ou desigual de seleção, comprometendo a representatividade da amostra. Exemplo: exclusão de pessoas sem celular em pesquisas por telefone.

Erro de Não-Resposta:

  • Quando há diferenças sistemáticas entre quem responde e quem não responde, introduzindo viés nos resultados.

Implicação: Mesmo com amostragem aleatória, esses erros podem comprometer a validade da inferência. Devem ser documentados e comunicados sempre que presentes.

Tipos de Erro em Pesquisas

Erros na Medição e Análise

Erro de Medição:

  • Instrumento: Perguntas ambíguas, enviesadas ou mal formuladas, ou ainda influência do entrevistador.
  • Declaração: Respostas falsas, por pressão social ou desejo de agradar.

Erro Temporal:

  • Mudanças reais na opinião pública entre a coleta dos dados e o evento de interesse (ex: eleição, lançamento de produto).

Erro de Processamento:

  • Erros cometidos na entrada, codificação ou análise dos dados.

Implicação:

  • Esses erros não são refletidos na margem de erro estatística, mas podem introduzir vieses significativos.

  • A comunicação responsável deve explicitar que a margem de erro cobre apenas a variabilidade amostral aleatória.

Intervalos para Médias

Aplicações para Médias

Variáveis Numéricas em Administração

Análise Financeira: Receita média por cliente, valor médio de transações, ROI médio (com cautela em caso de assimetrias).

Operações: Tempo médio de produção, custo médio unitário, produção média por hora.

Marketing: Valor médio de pedidos (ticket médio), tempo médio de conversão, número médio de cliques por campanha.

Recursos Humanos: Salário médio por departamento, tempo médio de permanência (retenção).

Atendimento ao Cliente: Tempo médio de resposta, pontuação média de satisfação (em escalas tipo Likert).

IC para Uma Média

Componentes e Fórmula

Elemento Notação Descrição
Parâmetro \(\mu\) Média populacional (desconhecida)
Estimador \(\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\) Média amostral observada
Erro Padrão \(EP(\bar{X}) = \frac{s}{\sqrt{n}}\) Variabilidade da média amostral

Intervalo de Confiança (variância desconhecida):

\[ \boxed{ \bar{X} \pm t_{\alpha/2,(n-1)} \times \frac{s}{\sqrt{n}} } \]

sendo:

  • \(s\) = desvio padrão amostral
  • \(n\) = tamanho da amostra
  • \(t_{\alpha/2,(n-1)}\) = valor crítico da distribuição t com \((n - 1)\) graus de liberdade

Condições de Aplicação:

  • Amostra aleatória da população
  • Dados aproximadamente normais ou \(n \geq 30\) (Teorema Central do Limite)
  • Observações independentes entre si
  • Variância populacional desconhecida ⇒ uso da distribuição t

IC para Diferença entre Duas Médias

Comparação Entre Grupos Independentes

Elemento Notação Descrição
Parâmetro \(\mu_1 - \mu_2\) Diferença entre médias populacionais
Estimador \(\bar{X}_1 - \bar{X}_2\) Diferença entre médias amostrais
Erro Padrão \(EP = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\) Variabilidade da diferença

Intervalo de Confiança (método de Welch):

\[ \boxed{ (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2,gl} \times \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} } \]

Graus de Liberdade (aproximação de Welch):

\[ gl = \frac{\left(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}\right)^2} {\frac{(s_1^2/n_1)^2}{n_1-1} + \frac{(s_2^2/n_2)^2}{n_2-1}} \]

Condições de Aplicação:

  • Amostras aleatórias e independentes de duas populações
  • Dados aproximadamente normais ou \(n_1, n_2 \geq 30\)
  • Não assume variâncias iguais — este método é mais robusto e é o padrão em t.test() no R

Função t.test() no R

Ferramenta Principal para Médias

t.test(): Implementa intervalos de confiança e testes t

Para uma amostra:

t.test(dados, conf.level = 0.95)

Para duas amostras independentes:

t.test(grupo1, grupo2, conf.level = 0.95)

Para duas amostras pareadas:

t.test(antes, depois, paired = TRUE, conf.level = 0.95)

Parâmetros importantes:

  • conf.level: nível de confiança (padrão 0.95)
  • var.equal: assumir variâncias iguais (padrão FALSE, usa correção de Welch)
  • paired: para amostras pareadas

Extração de resultados: Use resultado$conf.int para obter apenas o intervalo.

Verificação de Normalidade com Gráfico QQ

Como Interpretar um Gráfico Quantil-Quantil

Objetivo: Verificar se os dados seguem distribuição aproximadamente normal.

Como criar:

library(ggpubr)
ggqqplot(dados, x = "variavel")

Como interpretar:

  • Linha diagonal: distribuição normal teórica
  • Pontos: quantis observados dos dados
  • Banda cinza: região de referência baseada em quantis simulados de uma normal — serve como guia visual, não como intervalo de confiança formal

Sinais de normalidade adequada:

  • Pontos próximos à linha diagonal
  • Maioria dentro da banda cinza
  • Padrão aproximadamente linear

Problemas comuns:

  • Curvaturas (assimetria)
  • Padrão em S (caudas pesadas ou leves)
  • Muitos pontos fora da banda

Regra prática: Para \(n \geq 30\), o Teorema Central do Limite garante que pequenas violações da normalidade são aceitáveis.

Exemplo: Tempo de Resposta de Suporte

Análise de Atendimento

Situação: Avaliar o tempo médio de resolução de tickets de suporte técnico.

tempos <- c(2.1, 3.4, 1.8, 4.2, 2.9, 3.1, 2.7, 1.9, 3.8, 2.5,
            4.1, 2.3, 3.6, 2.8, 1.7, 3.9, 2.4, 3.2, 2.6, 4.0,
            1.6, 3.5, 2.2, 3.7, 2.0)
dados_tempo <- data.frame(tempo = tempos)

ggqqplot(dados_tempo, x = "tempo") +
  labs(title = "Verificação de Normalidade - Tempos de Resposta",
       x = "Quantis Teóricos (Normal Padrão)",
       y = "Tempos Observados (horas)")

O gráfico QQ mostra que os dados estão razoavelmente próximos de uma distribuição normal, com dois pontos no limiar da banda cinza, mas sem grandes desvios.

# média amostral
mean(tempos)
[1] 2.88
# intervalo de confiança
resultado_tempo <- t.test(tempos, conf.level = 0.95)
resultado_tempo$conf.int
[1] 2.5409 3.2191
attr(,"conf.level")
[1] 0.95

Resultado: IC 95% = [2.5, 3.2] horas

Conclusão: Com 95% de confiança, o tempo médio de resolução está entre 2.5 e 3.2 horas.

Aplicação: Testes A/B

Experimento Controlado

  • Definição:

Um teste A/B é um experimento que compara duas estratégias ou abordagens diferentes dividindo aleatoriamente a população-alvo em dois grupos: controle (versão A) e tratamento (versão B).

  • Metodologia:

Ambas as versões são apresentadas simultaneamente para grupos similares, mantendo constantes todas as demais variáveis. Esta abordagem isola o efeito específico da mudança testada.

  • Prevalência no Mercado Atual:

Testes A/B tornaram-se prática padrão em empresas digitais e organizações orientadas por dados. Grandes corporações como Google, Amazon, Netflix e Facebook executam milhares de testes A/B simultaneamente para otimizar continuamente suas plataformas e serviços.

  • Exemplos Reais de Aplicação:

O Netflix testa diferentes thumbnails para filmes e séries para maximizar cliques. O Google experimenta variações na apresentação de resultados de busca para melhorar a experiência do usuário. Empresas de e-commerce testam cores de botões de compra, formulários de checkout e estratégias de frete grátis para aumentar conversões.

  • Análise Estatística:

Intervalos de confiança para diferença entre proporções ou médias determinam se as diferenças observadas representam efeitos reais ou variação aleatória.

Exemplo: Teste A/B

Teste de Duas Versões de Website

Cenário: Comparar tempo médio de permanência entre versão atual (A) e redesenhada (B).

versao_a <- c(3.2, 4.1, 2.8, 3.9, 3.5, 4.3, 2.9, 3.7, 4.0, 3.3,
              2.6, 3.8, 4.2, 3.1, 3.6, 2.7, 4.5, 3.4, 2.5, 3.9)

versao_b <- c(4.8, 5.2, 4.3, 5.6, 4.7, 5.1, 4.9, 5.4, 4.5, 5.0,
              4.6, 5.3, 4.4, 5.7, 4.8, 5.5, 4.2, 5.8, 4.7, 5.2)

dados_ab <- data.frame(
  tempo = c(versao_a, versao_b),
  grupo = c(rep("A", 20), rep("B", 20))
)

ggqqplot(dados_ab, x = "tempo", color = "grupo") +
  labs(title = "Verificação de Normalidade por Grupo")

0 gráfico quantil-quantil (QQ) mostra que ambos os grupos estão razoavelmente próximos de uma distribuição normal.

# intervalo de confiança para diferença de médias
resultado_ab <- t.test(versao_b, versao_a, conf.level = 0.95)
resultado_ab$conf.int
[1] 1.1393 1.8307
attr(,"conf.level")
[1] 0.95

Resultado: IC 95% para (B - A) = [1.14, 1.83] minutos

Conclusão: Com 95% de confiança, a nova versão aumenta o tempo médio de permanência entre 1.14 e 1.83 minutos.

Decisão: Implementar Versão B em produção.

Síntese: Intervalos de Confiança

Conceitos Essenciais

Fundamento: Intervalos de confiança quantificam a variabilidade esperada das estimativas obtidas por amostragem, permitindo decisões baseadas em evidência com um grau conhecido de confiabilidade estatística.

Pré-requisito: Amostragem aleatória é fundamental. Sem aleatoriedade, as propriedades probabilísticas do intervalo — como a taxa de cobertura de 95% — não são garantidas.

Métodos por tipo de variável:

  • Proporções:

    • prop.test() para amostras grandes (usa aproximação normal com correção de continuidade)
    • binom.test() para amostras pequenas (método exato, baseado na binomial)
  • Médias:

    • t.test() com base na distribuição t
    • Verificação da normalidade com gráficos QQ ou uso do TCL para \(n \geq 30\)

Interpretação correta:

Se repetíssemos o processo de amostragem muitas vezes, 95% dos intervalos construídos conteriam o parâmetro verdadeiro.

→ A incerteza está no intervalo, não no parâmetro.

Comunicação profissional:

Sempre reportar a estimativa pontual junto com o intervalo de confiança e deixar claro que a margem de erro cobre apenas a variabilidade amostral — não erros sistemáticos.

Limitações importantes:

Intervalos de confiança cobrem apenas o erro da amostragem aleatória.
Erros de cobertura, não-resposta e medição também afetam a precisão das estimativas e devem ser considerados na interpretação.

Exercícios: Intervalos de Confiança

Exercício 1: Teste A/B

Análise de Taxa de Cliques em E-mail Marketing

Uma empresa de varejo online conduziu um teste A/B para avaliar duas versões de e-mail promocional. O analista de dados precisa determinar se existe diferença significativa entre as taxas de cliques das duas versões.

Dados Coletados:

Durante uma semana, a empresa enviou aleatoriamente duas versões de e-mail promocional para sua base de clientes:

  • Versão A (linha de assunto tradicional): 8.500 e-mails enviados, 612 cliques registrados

  • Versão B (linha de assunto personalizada): 8.200 e-mails enviados, 697 cliques registrados

Questões para Análise:

  1. Estime as taxas de cliques amostrais para cada versão e a diferença observada.

  2. Obtenha uma estimativa de um intervalo de 95% de confiança para a diferença entre as taxas de cliques (B - A).

  3. Interprete os resultados e faça uma recomendação.

Instrução: Utilize a função prop.test de R para realizar a análise completa.

Exercício 2: Tempo de Atendimento

Avaliação de Dois Métodos de Atendimento ao Cliente

O departamento de atendimento ao cliente de uma empresa de telecomunicações implementou um novo sistema de triagem automatizada. O gerente de operações deseja comparar o tempo médio de resolução de chamadas entre o método tradicional e o novo sistema automatizado.

Dados Experimentais:

Durante um mês, foram coletados aleatoriamente tempos de resolução (em minutos) de chamadas atendidas pelos dois métodos:

# Dados já organizados para facilitar a análise
tradicional <- c(12, 15, 18, 14, 22, 16, 13, 19, 17, 21, 14, 16, 20, 
                 18, 15, 23, 17, 14, 19, 16, 18, 15, 20, 17, 16)

automatizado <- c(10, 12, 14, 11, 16, 13, 9, 15, 12, 18, 11, 14, 13, 
                  10, 17, 12, 15, 11, 13, 16, 14, 12, 15, 13, 11, 17, 14, 12)

# Cria a data frame para armazenamento dos dados
dados_atendimento <- data.frame(
  tempo = c(tradicional, automatizado),
  metodo = c(rep("Tradicional", length(tradicional)), 
             rep("Automatizado", length(automatizado)))
)

Tarefas:

  1. Verifique a normalidade dos dados usando gráficos quantil-quantil

  2. Calcule as médias amostrais e desvios padrão de cada método

  3. Construa um intervalo de 95% de confiança para a diferença entre os tempos médios

  4. Interprete os resultados e faça uma recomendação.

Instrução: Utilize a função ggqqplot() para verificação de normalidade e t.test para estimação por intervalo de confiança.

Atualizando os Repositórios

Instruções

  1. No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:
git status
  1. Você pode adicionar todos os arquivos de uma vez com:
git add .
  1. Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):
git status
  1. Se tudo estiver em verde, faça um commit com uma mensagem descritiva:
git commit -m "atualizacoes aula 26"
  1. Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:
git add relatorios/15-relatorio/15-relatorio.qmd
  1. Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:
git commit -m "atualizacoes aula 26"
  1. Envie o repositório local atualizado para o GitHub:
git push origin main

Referências

DEVORE, J. L. Probabilidade e Estatística para Engenharia e Ciências. São Paulo: Thomson, 2006.
TRIOLA, M. F. Introdução à Estatística. 10. ed. Rio de Janeiro: LTC, 2008.