Avaliação 3 - Valor: 34 pontos

Introdução à Ciência de Dados - 2025
Bacharelado em Administração

Autor

Prof. Dr. Washington S. da Silva

Data de Publicação

9 de julho de 2025

Questão 1 (20 pontos)

Inferência sobre Proporções Populacionais

A diretora de marketing solicitou ao analista de dados uma estimativa por intervalo de confiança de 95% para a diferença entre as proporções de clientes satisfeitos de duas categorias de produtos vendidas por um e-commerce, que pode ser representada por (\(p_A - p_B\))

Especificamente, o analista de dados precisa comparar a proporção de clientes satisfeitos entre as seguintes categorias de produtos:

  • Categoria A: produtos eletrônicos
  • Categoria B: produtos de moda

Uma pesquisa de satisfação foi aplicada a uma amostra aleatória de clientes que compraram nessas categorias.

Dados:

  • Categoria A: 350 clientes respondentes, 273 satisfeitos
  • Categoria B: 290 clientes respondentes, 198 satisfeitos

Tarefas:

a) (3 pts) Obtenha uma estimativa pontual da proporção de clientes satisfeitos em cada grupo ((\(\hat{p}_A\) e \(\hat{p}_B\)) e da diferença entre elas (\(\hat{p}_A - \hat{p}_B\)).

b) (3 pts) Por que em uma análise estatisticamente fundamentada, é incorreto reportar somente estimativas pontuais dos parâmetros da população?

c) (4 pts) Obtenha uma estimativa por intervalo de 95% de confiança para a diferença entre as proporções (\(p_A - p_B\)) utilizando a função prop.test().

d) (4 pts) Interprete a estimativa por intervalo obtida e indique se há evidência estatisticamente siginificativa de que uma categoria tem mais clientes satisfeitos que a outra. Justifique sua resposta.

e) A diretora deseja saber se a proporção de clientes satisfeitos na Categoria A (produtos eletrônicos) é significativamente maior que 70%:

e.1) (2 pts) Formule as hipóteses nula e alternativa;

e.2) (2 pts)Realize o teste de hipótese correspondente utilizando a função prop.test(), e;

e.3) (2 pts) Interprete o resultado com base no valor-p obtido.

Questão 2

Inferência sobre Médias Populacionais

Um analista de dados de uma empresa de logística está testando dois parceiros de entrega para suas operações:

  • Parceiro A: método atual
  • Parceiro N: novo fornecedor

A empresa coletou amostras aleatórias de tempos de entrega (em dias úteis) de cada parceiro com base em pedidos reais. A data frame dados_entrega contém os tempos de entrega coletados de ambos os parceiros:

# Cria a data.frame dados_entrega
dados_entrega <- data.frame(
  tempo = c(
    1.9908307, 3.7595980, 3.9207872, 1.9499968, 2.5570788, 2.9083451, 
    3.8215787, 3.4254931, 4.1066170, 3.7159112, 2.3757705, 4.3799877, 
    4.0898537, 4.6885358, 1.9032753, 4.9526208, 4.7632426, 3.5487350, 
    5.2520306, 4.5840950, 2.7728566, 1.6544221, 1.9158527, 3.3874123,
    3.1677474, 4.2208561, 2.7834305, 2.9044544, 4.5360855, 2.2195599, 
    2.7240852, 2.6655864, 1.4009759, 3.4665378, 3.3535627, 4.6972176, 
    1.9733366, 2.5457229, 2.2336230, 2.6573906, 2.6681639, 3.1323411, 
    2.4254247, 2.7917952, 4.9867621, 2.8329370, 2.8299644, 3.5470596, 
    1.4070574, 3.1499424, 1.9685541, 2.4178228, 3.4466604, 3.6865291, 
    3.3801921, 3.5045991, 2.2455080, 4.4135944, 3.2958687, 3.3348655, 
    0.2198195, 1.6197339, 2.4793752, 3.6855232, 2.6521006, 4.5120387, 
    4.4196294, 1.1254838, 2.1009464, 1.8516211, 2.5130132, 2.6551619, 
    0.8074057, 4.2885169, 2.6779839
  ),
  parceiro = c(
    rep("Atual", 35),
    rep("Novo", 40)
  )
)

Tarefas:

a) (3 pts) O intervalo de confiança para a diferença de médias programado na função t.test assume que os dados de ambas as amostras comparadas, os dados das empresas parceiras neste caso, sigam aproximadamente uma distribuição normal, para que o intervalo estimado seja válido. Assim, verifique graficamente a normalidade das duas amostras construindo um gráfico quantil-quantil para ambas as amostras usando a função ggqqplot() do pacote ggpubr. Após gerar o gráfico, comente sobre a normalidade das duas amostras

b) (3 pts) Obtenha uma estimativa por intervalo de 95% de confiança para a diferença entre os tempos médios (\(\mu_A - \mu_B\)) de entrega dos dois parceiros usando a função t.test().

c) (4 pts) Observando o resultado fornecido no item anterior, quais as estimativas pontuais dos tempos médios de entrega dos dois parceiros (\(\bar{x}_A\) e \(\bar{x}_N\)) e da diferença entre eles (\(\bar{x}_A - \bar{x}_N\))? Com base apenas na estimativa pontual da diferença média entre os tempos de entrega, qual parceiro parece ter tempos médios de entrega maiores?

d) (4 pts) Interprete a estimativa por intervalo obtida e indique se há evidência estatisticamente significativa de que um parceiro tem tempos médios de entrega maiores que o outro. Justifique sua resposta.

Dica: Interpretação de Estimativas de Intervalos de Confiança
  • Um intervalo de confiança de 95% para uma diferença (entre médias ou proporções) representa uma faixa de valores plausíveis para a verdadeira diferença na população, com base nos dados da amostra.

  • Se o zero estiver dentro do intervalo, isso fornece evidências de que há uma grande chance de que não haja diferença real entre os grupos.

  • Se o zero estiver fora do intervalo, isso fornece evidências de que há uma diferença real entre os grupos.