Introdução à Ciência de Dados

Aula 26 - Soluções dos Exercícios

Prof. Washington Santos da Silva

IFMG - Campus Formiga

2 de julho de 2025

Solução do Exercício 1

Resolução

Estimativas das taxas de cliques amostrais para cada versão:

# Dados do teste A/B
n_a <- 8500  # e-mails versão A
x_a <- 612   # cliques versão A

n_b <- 8200  # e-mails versão B
x_b <- 697   # cliques versão B

# Calcular taxas de cliques
taxa_a <- x_a / n_a
taxa_b <- x_b / n_b

taxa_a

[1] 0.072

taxa_b

[1] 0.085

Diferença observada (B - A):

diferenca_observada <- taxa_b - taxa_a
diferenca_observada

[1] 0.013

Estimativa de um intervalo de 95% de confiança para a diferença entre as taxas de cliques (B - A):

# Comparar proporções (função calcula B - A diretamente)
resultado <- prop.test(x = c(x_b, x_a), n = c(n_b, n_a), conf.level = 0.95)

# Extrair intervalo de confiança para (B - A)
ic_diferenca <- resultado$conf.int
ic_diferenca

[1] 0.0047174 0.0212826
attr(,"conf.level")
[1] 0.95

Interpretação:

A versão B apresentou taxa de cliques de 8.5% versus 7.2% da versão A. O intervalo de 95% de confiança para a diferença (B - A) é [0.8%, 2.4%], indicando superioridade estatisticamente significativa da versão personalizada. Recomenda-se adotar a versão B como padrão para futuras campanhas.

Solução do Exercício 2

Resolução

# Dados dos métodos de atendimento
tradicional <- c(12, 15, 18, 14, 22, 16, 13, 19, 17, 21, 14, 16, 20, 
                 18, 15, 23, 17, 14, 19, 16, 18, 15, 20, 17, 16)

automatizado <- c(10, 12, 14, 11, 16, 13, 9, 15, 12, 18, 11, 14, 13, 
                  10, 17, 12, 15, 11, 13, 16, 14, 12, 15, 13, 11, 17, 14, 12)

# Cria a data frame para armazenamento dos dados
dados_atendimento <- data.frame(
  tempo = c(tradicional, automatizado),
  metodo = c(rep("Tradicional", length(tradicional)), 
             rep("Automatizado", length(automatizado)))
)

# Exibe a data frame
dados_atendimento

   tempo       metodo
1     12  Tradicional
2     15  Tradicional
3     18  Tradicional
4     14  Tradicional
5     22  Tradicional
6     16  Tradicional
7     13  Tradicional
8     19  Tradicional
9     17  Tradicional
10    21  Tradicional
11    14  Tradicional
12    16  Tradicional
13    20  Tradicional
14    18  Tradicional
15    15  Tradicional
16    23  Tradicional
17    17  Tradicional
18    14  Tradicional
19    19  Tradicional
20    16  Tradicional
21    18  Tradicional
22    15  Tradicional
23    20  Tradicional
24    17  Tradicional
25    16  Tradicional
26    10 Automatizado
27    12 Automatizado
28    14 Automatizado
29    11 Automatizado
30    16 Automatizado
31    13 Automatizado
32     9 Automatizado
33    15 Automatizado
34    12 Automatizado
35    18 Automatizado
36    11 Automatizado
37    14 Automatizado
38    13 Automatizado
39    10 Automatizado
40    17 Automatizado
41    12 Automatizado
42    15 Automatizado
43    11 Automatizado
44    13 Automatizado
45    16 Automatizado
46    14 Automatizado
47    12 Automatizado
48    15 Automatizado
49    13 Automatizado
50    11 Automatizado
51    17 Automatizado
52    14 Automatizado
53    12 Automatizado

Vericando a normalidade dos dados com um gráfico quantil-quantil:

# Gráfico quantil-quantil para verificar normalidade
ggqqplot(dados_atendimento, x = "tempo", color = "metodo")

O gráfico quantil-quantil sugere que os dados de ambos os grupos seguem aproximadamente uma distribuição normal

Estimativas pontuais dos tempos médios amostrais e da diferença observada:

# Estatísticas descritivas
tempo_medio_tradicional <- mean(tradicional)
tempo_medio_tradicional

[1] 17

tempo_medio_automatizado <- mean(automatizado)
tempo_medio_automatizado

[1] 13.214

# diferença observada
diferenca_observada <- tempo_medio_tradicional - tempo_medio_automatizado
diferenca_observada

[1] 3.7857

Estimativa de um intervalo de 95% de confiança para a diferença entre os tempos médios:

# Teste t para duas amostras independentes
resultado_tempo <- t.test(tradicional, automatizado, conf.level = 0.95)

# Extrai apenas o intervalo de confiança
ic_tempo <- resultado_tempo$conf.int
ic_tempo

[1] 2.3514 5.2200
attr(,"conf.level")
[1] 0.95

Interpretação:

O método tradicional apresenta tempo médio de 17.0 minutos versus 13.2 minutos do método automatizado. O intervalo de 95% de confiança [2.4, 5.4] minutos para a diferença (Tradicional - Automatizado) indica que o sistema automatizado reduz significativamente o tempo de resolução. Portanto, recomenda-se adotar o método automatizado como padrão para aumentar a eficiência.