Introdução à Ciência de Dados

Introdução à Inferência Estatística

Prof. Washington Santos da Silva

IFMG - Campus Formiga

27 de junho de 2025

Diário de Bordo

O que vimos até hoje?

  • Aula 1 ✅

    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Papéis Profissionais na Área de Dados ✅
    • Áreas de Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅
  • Aula 2 ✅

    • Metodologia CRISP-DM ✅

    • Tipos de Análise ✅

      • Descritiva ✅
      • Diagnóstica ✅
      • Preditiva ✅
      • Prescritiva ✅
    • Configurações: Git/GitHub ✅

  • Aula 3 ✅

    • Introdução ao RStudio ✅

      • Criação do seu Projeto RStudio da Disciplina ✅
  • Aula 4 ✅

    • Introdução ao Git e GitHub ✅

      • Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
  • Aula 5 ✅

    • Breve Revisão do IDE RStudio ✅

    • Introdução ao Sistema de Publicação Quarto ✅

    • Sessão Prática Guiada com Relatório 1 ✅

      • Execução dos comandos git essenciais ✅
  • Aula 6 ✅

    • Parte I ✅

      • O Relatório Junglivet e a Metodologia CRISP-DM ✅
      • Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
    • Parte II ✅

      • Para alunos com projetos estruturados ✅
      • Atividade prática ✅
      • Para alunos com dificuldades técnicas ✅
      • Atendimento individualizado para estruturação de projetos ✅
  • Aula 7 ✅

    • Introdução ao sistema Quarto (continuação) ✅

      • Gerar relatório no formato pdf ✅
      • Gerar relatório no formato docx ✅
    • Introdução à Linguagem R (continuação) ✅

      • Conceitos: Variáveis e observações ✅
      • Estrutura tabular organizada de dados ✅
      • Tipos e classes de dados principais em R ✅
      • Estruturas de dados: vetores e data frames ✅
  • Aula 8 ✅

    • Início do estudo do pacote dplyr para manipulação de dados ✅

      • CRISP-DM: Fase 2 (Entendimento dos dados) e Fase 3 (Preparação dos dados) ✅
        de um projeto de análise ou ciência de dados ✅
      • O que é o dplyr? ✅
      • A Filosofia Tidy Data (Dados Organizados) ✅
      • Dados Organizados (Tidy Data) ✅
      • Por que usar o dplyr? ✅
      • Fluxo de trabalho com dplyr ✅
      • Boas Práticas com dplyr ✅
      • Função dplyr::select() ✅
      • Função dplyr::filter() ✅
  • Aula 9 ✅

    • Solução dos exercícios práticos sobre as funções select e filter ✅
    • Função dplyr::mutate() ✅
  • Aula 10 ✅

    • Soluções dos exercícios práticos sobre a função mutate ✅
    • funções dplyr::group_by(), dplyr::summarize() e dplyr::arrange() ✅
  • Aula 11 ✅

    • Metodologia CRISP-DM e Pacote dplyr ✅
    • Revisão sobre Dados Organizados (Tidy Data) ✅
    • Exemplos de Dados Desorganizados Comuns em Administração ✅
    • Pacote tidyr: Função pivot_longer ✅
  • Aula 12 ✅

    • Metodologia CRISP-DM e o tidyverse ✅
    • Dados Organizados: Potencializando Análises ✅
  • Aula 13 ✅

    • Avaliação 1 ✅
  • Aula 14 ✅

    • Tipos Básicos de joins do pacote dplyr ✅
  • Aula 15 ✅

    • Variáveis Aleatórias em Finanças ✅
    • Distribuições de Probabilidade ✅
    • Início: Distribuição Normal (ou Gaussiana) ✅
  • Aula 16 ✅

    • Distribuição Normal (ou Gaussiana) - Parte 2 ✅
    • Características da Distribuição de uma VA ✅
      • Valor Esperado (Média) ✅
  • Aula 17 ✅

    • Características da Distribuição de uma VA ✅

      • Variância e Desvio-Padrão ✅
      • Variância: Propriedades Básicas ✅
      • Aplicação: Valor-em-Risco (VaR) ✅
      • Assimetria e Curtose ✅
  • Aula 18 ✅

    • Características da Distribuição de uma VA ✅

      • Covariância e Correlação ✅
      • Fundamentos de Simulação de Monte Carlo ✅
  • Aula 19 ✅

    • Teoria da Probabilidade e Análise Estatística de Dados ✅

    • CRISP-DM e Análise Exploratória de Dados ✅

    • Análise Exploratória Numérica ✅

      • Medidas de Posição (ou de Tendência Central) ✅
      • Medidas de Variabilidade ✅
      • Medidas de Correlação ✅
  • Aula 20 ✅

    • Análise Exploratória Gráfica ✅

      • Visualização de Dados e o Pacote ggplot2 ✅

      • Gráficos para Visualizar a Distribuição de Variáveis Numéricas ✅

        • Histograma ✅
        • Densidade Empírica (ou Kernel da Densidade) ✅
        • Boxplot ✅
        • Boxplot Comparativo ✅
  • Aula 21 ✅

    • Gráfico Univariado para Variáveis Categóricas:

      • Gráfico de Barras (Barplot)
    • Gráficos Bivariados:

      • Gráficos de Barras Agrupadas e Empilhadas - Variáveis Categóricas
      • Gráfico de Dispersão - Variáveis Numéricas
    • Gráfico para Séries Temporais:

      • Gráfico de Linha Univariado (1 Série Temporal)
      • Gráfico de Linha Bivariado (2 Séries Temporais)
  • Aula 22 ✅

    • Lista de Exercícios - Treino para Avaliação 2
  • Aula 23 ✅

    • Avaliação 2
  • Aula 24 ✅

    • CRISP-DM: Fase 4 - Modelagem/Análise

    • Introdução à Inferência Estatística

      • População e Amostra
      • Amostragem: Conceitos Básicos
      • Parâmetro, Estimador, Estimativa e Estatística

Nesta Aula

Tópicos

  • Introdução à Inferência Estatística

    • Distribuição Amostral da Média e Proporção
  • Tópico Extra

    • Interpretação de Gráficos de Séries Temporais

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Atenção na digitação
  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Distribuição Amostral

O Problema Central da Inferência Estatística

O que é uma Distribuição Amostral?

Um analista de dados coleta uma amostra de 100 funcionários e calcula satisfação média \(\bar{x} = 7.2\). Mas se ele repetisse o processo com outra amostra de 100 funcionários, obteria \(\bar{x} = 7.0\). Uma terceira amostra resultaria em \(\bar{x} = 7.4\).

A Distribuição Amostral é a distribuição de probabilidade de todas as possíveis médias amostrais que poderíamos obter se repetíssemos o processo de amostragem infinitas vezes.

Por que isso é importante? A distribuição amostral nos permite quantificar a variabilidade dos estimadores e fundamenta todos os métodos de inferência estatística.

Distribuição Amostral da Média

Demonstração Intuitiva

  • População com média \(\mu\) e variância \(\sigma^2\)

  • Amostra aleatória de tamanho \(n\): \(X_1, X_2, \dots, X_n\) (i.i.d.)

  • Média amostral:

\[ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \]

  • Valor Esperado da média amostral:

\[ \mathbb{E}[\bar{X}] = \mathbb{E}\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n} \sum_{i=1}^n \mathbb{E}[X_i] = \frac{1}{n} \cdot n \cdot \mu = \mu \]

  • Variância da média amostral:

\[ \text{Var}(\bar{X}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n X_i \right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} \cdot n \cdot \sigma^2 = \frac{\sigma^2}{n} \]

  • Desvio-padrão da média amostral (Erro Padrão):

\[ \text{EP}(\bar{X}) = \sqrt{\text{Var}(\bar{X})} = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} \]

📦 Interpretação: Quanto maior a amostra, menor a variabilidade de \(\bar{X}\). A média amostral é um estimador não-viesado de \(\mu\).

Forma da Distribuição de \(\bar{X}\)

Dois Casos

Caso 1: \(X_i \sim N(\mu, \sigma)\)

\[ \bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \quad \text{quando } n \to \infty \]

Caso 2: \(X_i\) não necessariamente normal

Pelo Teorema Central do Limite (TCL):

\[ \bar{X} \xrightarrow{d} N\left(\mu, \frac{\sigma}{\sqrt{n}} \right) \quad \text{quando } n \to \infty \]

Nota: O TCL exige que \(\sigma^2 < \infty\) e que \(X_i\) sejam i.i.d.

Simulação da Distr. Amostral da Média

Objetivo da Simulação

  • Simularemos 1.000 amostras diferentes para observar como as médias amostrais se distribuem.

  • Isso permitirá visualizar concretamente o conceito de distribuição amostral, mesmo quando a população original não é simétrica.

  • Cenário: População de 50.000 funcionários com níveis de satisfação gerados por uma distribuição exponencial truncada — ou seja, muitos com satisfação baixa, poucos com satisfação muito alta (assimetria à direita). Cada amostra terá 50 funcionários.

  • Meta: Verificar se a distribuição amostral da média amostral se comporta como prevê o Teorema Central do Limite.

Simulação da Distr. Amostral da Média

# A tibble: 3 × 2
  Parâmetro                  Valor
  <chr>                      <dbl>
1 μ (média populacional)      3.67
2 σ (desvio populacional)     3.04
3 N (tamanho)             50000   
# A tibble: 5 × 2
  Propriedade                       Valor
  <chr>                             <dbl>
1 Média das médias amostrais        3.66 
2 Erro padrão empírico (observado)  0.414
3 Erro padrão teórico (fórmula)     0.431
4 Média populacional (μ)            3.67 
5 Diferença (empírico - teórico)   -0.017

Distr. da População x Distr. Amostral da Média

Interpretação dos Resultados

O Teorema Central do Limite em Ação

Mesmo com uma população fortemente assimétrica (Exponencial), a distribuição das médias amostrais se aproxima de uma normal.

  • Isso confirma: não precisamos de população normal para aplicar inferência baseada em média, apenas de um tamanho amostral razoável (\(n \gtrapprox 30\)).

  • Ponto-chave: A distribuição amostral da média é mais estável e simétrica do que a própria população. Isso torna a média um ótimo estimador!

Distribuição Amostral da Proporção

Demonstração Intuitiva

  • População com proporção de sucesso \(p\)

  • Amostra aleatória de tamanho \(n\): variáveis indicadoras \(X_1, X_2, \dots, X_n \in {0, 1}\), onde:

\[ X_i = \begin{cases} 1 & \text{se sucesso} \\ 0 & \text{caso contrário} \end{cases} \]

com \(E[X_i] = p\) e \(V(X_i) = p(1 - p)\)

  • Proporção amostral:

\[ \hat{p} = \frac{1}{n} \sum_{i=1}^n X_i \]

  • Valor Esperado da proporção amostral:

\[ E[\hat{p}] = E\left[\frac{1}{n} \sum_{i=1}^n X_i\right] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n \cdot p = p \]

  • Variância da proporção amostral:

\[ V(\hat{p}) = V\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} \cdot n \cdot p(1 - p) = \frac{p(1 - p)}{n} \]

  • Usa-se \(V(aX) = a^2 V(X)\) e independência entre os \(X_i\): \(V\left(\sum X_i\right) = \sum V(X_i)\)

  • Erro padrão da proporção amostral:

\[ \text{EP}(\hat{p}) = \sqrt{\frac{p(1 - p)}{n}} \]

  • Interpretação: A proporção amostral \(\hat{p}\) é um estimador não-viesado de \(p\). Quanto maior \(n\), menor a variabilidade.

Forma da Distribuição de \(\hat{p}\)

Dois Casos

  • Caso 1: \(n\) pequeno

\(\hat{p} = \dfrac{X}{n}\), onde \(X \sim \text{Binomial}(n, p)\)

→ A distribuição de \(\hat{p}\) é discreta, pois \(X\) é uma variável discreta.

→ Quando \(p\) está próximo de 0 ou 1 e a amostra é pequena, a distribuição se comporta como um “dado viciado” — mais concentrada em 0 ou 1, e assimétrica.

  • Caso 2: \(n\) grande

Pelo Teorema Central do Limite (TCL):

\[ \hat{p} \approx N\left(p, \frac{p(1 - p)}{n} \right) \]

→ A distribuição de \(\hat{p}\) pode ser aproximada por uma normal.

Condições usuais para a aproximação normal serem válidas:

\[ np \ge 5 \quad \text{e} \quad n(1 - p) \ge 5 \]

Essas condições garantem que a distribuição binomial esteja próxima da normal.

Simulação: Proporção Amostral (\(\hat{p}\)) com População Pequena

Simulação

Agora, vamos simular todas as amostras possíveis de 5 elementos retirados sem reposição de uma população de apenas 20 indivíduos.

  • 8 dos 20 estão satisfeitos (\(p = 0.4\))
  • Calculamos a proporção de satisfeitos em todas as combinações possíveis

Isso nos dá uma distribuição exata da proporção amostral \(\hat{p}\).

Simulação e Visualização: Distr. de \(\hat{p}\) - Pop. Pequena

Interpretação: População Pequena

O que observamos?

  • A distribuição de \(\hat{p}\) é discreta, com poucos valores possíveis.
  • É simétrica em torno de \(0.4\) (a proporção real da população).
  • Como simulamos todas as combinações possíveis, essa é a distribuição exata, sem aproximações.
  • A aproximação normal não se aplica nesse cenário com \(n = 5\).

✅ Ideal para reforçar que, em populações pequenas ou com amostras p equenas, a inferência deve considerar a distribuição binomial ou exata, e não fórmulas normais.

Simulação: Proporção Amostral (\(\hat{p}\)) - População Grande

Simulação

Agora, vamos simular uma população grande de 20.000 clientes, onde 40% estão satisfeitos (\(p = 0.68\)).

Vamos calcular a proporção amostral \(\hat{p}\) para 800 amostras de tamanho 100, retiradas com reposição.

Simulação e Visualização: Distr. de \(\hat{p}\) - Pop. Grande

Análise das Proporções Amostrais

# A tibble: 5 × 2
  Estatística                      Valor
  <chr>                            <dbl>
1 Proporção populacional (p)       0.681
2 Média das proporções amostrais   0.682
3 Erro padrão empírico (observado) 0.046
4 Erro padrão teórico (fórmula)    0.047
5 Diferença entre erros padrão     0    

Interpretação: População Grande

O que observamos?

  • A distribuição amostral de \(\hat{p}\) é contínua e simétrica, mesmo com uma população assimétrica.

  • A distribuição amostral de \(\hat{p}\) converge para uma distribuição normal, mesmo com uma população assimétrica.

Teorema Central do Limite

Demonstração com Distribuição Exponencial

Usaremos uma distribuição exponencial (altamente assimétrica) para demonstrar que médias amostrais tendem à normalidade independentemente da forma populacional.

Cenário: Tempo entre chegadas de clientes (distribuição exponencial - muitas chegadas rápidas, poucas esperas longas).

Distribuição Exponencial

Resumo

A distribuição exponencial modela o tempo entre eventos aleatórios que ocorrem a uma taxa constante no tempo.

É usada para descrever tempos de espera entre eventos, como:

  • Tempo até a chegada de um cliente
  • Tempo de resposta de um serviço
  • Vida útil de um equipamento até falha

Seja \(X \sim \text{Exponencial}(\lambda)\):

  • \(\lambda\) é a taxa de ocorrência dos eventos por unidade de tempo
  • \(X\) representa o tempo até o próximo evento

Propriedades

  • Função densidade de Probabilidade:

\[ f(x) = \lambda e^{-\lambda x}, \quad x \ge 0 \]

  • Valor Esperado (Média): \(\mathbb{E}[X] = \frac{1}{\lambda}\)

  • Variância: \(\text{Var}(X) = \frac{1}{\lambda^2}\)

  • Desvio-padrão: \(\sigma = \frac{1}{\lambda}\)

  • A média e o desvio-padrão são iguais na exponencial — o que facilita a memorização!

Como simular com rexp() no R

Para gerar valores aleatórios com distribuição exponencial, usamos a função:

rexp(n, rate = lambda)
  • n: número de observações a serem geradas
  • rate: valor de $$, a taxa de ocorrência dos eventos

🔎 Exemplo:

rexp(9, rate = 0.25)
[1] 3.40906 0.21516 0.88472 9.13460 2.28940 1.43992 6.51687 6.01270 8.77200

Gera 10 tempos de espera com média esperada de \(1/\lambda = 4\) unidades de tempo.

Interpretação: Se \(\lambda = 0.25\), estamos modelando eventos que ocorrem a cada 4 unidades de tempo, em média.

Forma da Distribuição

  • Extremamente assimétrica à direita
  • Valor mínimo: \(0\)
  • Cauda longa: valores muito altos são raros, mas possíveis

TCL: Visualizando a Convergência para Normalidade

Por que o TCL é um Pilar da Estatística?

Importância do TCL

  • Permite usar métodos baseados na distribuição normal mesmo quando a população não segue uma dist. normal.

  • É por isso que tantas fórmulas estatísticas envolvem a distribuição normal!

  • Garante que estimativas médias têm distribuições previsíveis, mesmo em populações “estranhas”.

Implicações do Teorema Central do Limite

Consequências Práticas

Universalidade: Independentemente da forma populacional, médias amostrais seguem distribuição normal para \(n\) suficientemente grande. Isso funciona mesmo com distribuições muito assimétricas como a exponencial.

Aplicabilidade: Permite uso de métodos baseados na distribuição normal mesmo quando a população não é normal. Não precisamos conhecer a forma exata da população.

Fundamento Teórico: Explica por que a distribuição normal é central em estatística e análise de dados. É o resultado matemático que aparece naturalmente quando fazemos médias.

Robustez: Analistas podem aplicar técnicas de inferência sem conhecer a distribuição populacional completa. Isso torna os métodos estatísticos muito mais práticos e úteis.

Síntese: Distribuições Amostrais

Conceitos Fundamentais Consolidados

Definição: Distribuição amostral é a distribuição de probabilidade de um estimador considerando todas as amostras possíveis de mesmo tamanho.

Propriedades Essenciais: Centro igual ao parâmetro populacional (\(E[\bar{X}] = \mu\)), dispersão que diminui com \(\sqrt{n}\) (\(SE = \frac{\sigma}{\sqrt{n}}\)), e forma que tende à normal para amostras grandes.

Teorema Central do Limite: Garante normalidade das médias amostrais independentemente da forma da população original. É um dos resultados mais importantes da estatística.

Aplicação Fundamental: Serve como fundamento teórico para todos os métodos de inferência estatística que um analista de dados utiliza no dia a dia.

Da Distribuição Amostral à Inferência Estatística

Conectando Teoria e Aplicação

As distribuições amostrais fornecem o fundamento teórico para todos os métodos de inferência que estudaremos a seguir.

Intervalos de Confiança: Usam as propriedades da distribuição amostral para estimar onde o parâmetro populacional provavelmente se encontra. O erro padrão calculado aqui determina a largura do intervalo.

Testes de Hipóteses: Comparam estimativas observadas com valores hipotéticos usando a distribuição amostral como referência. Se um resultado é “muito improvável” segundo a distribuição amostral, rejeitamos a hipótese.

Bootstrap: Simula empiricamente a distribuição amostral quando não conhecemos a teoria subjacente. É uma versão computacional do que fizemos aqui com simulações.

Erro-padrão: O erro-padrão derivado da distribuição amostral quantifica a incerteza dos estimadores. Quanto menor o erro padrão, mais precisa é a estimativa.

Quiz: Distribuições Amostrais

Verificação de Compreensão

  1. Para uma amostra de 36 observações com desvio-padrão s = 1.8, o erro-padrão de \(\bar{x}\) é:

    1. 0.05
    2. 0.30
    3. 1.8
    4. 6.0
  2. Para reduzir o erro-padrão de \(\bar{x}\) pela metade, o tamanho da amostra deve ser:

    1. Dobrado
    2. Quadruplicado
    3. Reduzido pela metade
    4. Triplicado
  3. O Teorema Central do Limite se refere à distribuição:

    1. Da população
    2. Da amostra
    3. Amostral do estimador
    4. Normal padrão

Respostas

Gabarito

1. Resposta: b) 0.30

\(SE = \frac{s}{\sqrt{n}} = \frac{1.8}{\sqrt{36}} = \frac{1.8}{6} = 0.30\)

2. Resposta: b) Quadruplicado

O erro-padrão da média amostral \(\bar{x}\) é dado por:

\[ SE(\bar{x}) = \frac{\sigma}{\sqrt{n}} \]

Nosso objetivo é reduzir o erro-padrão pela metade. Suponha que o erro-padrão inicial seja:

\[ SE_1 = \frac{\sigma}{\sqrt{n}} \]

Queremos que:

\[ SE_2 = \frac{1}{2} \cdot SE_1 = \frac{1}{2} \cdot \frac{\sigma}{\sqrt{n}} \]

Vamos agora encontrar o novo tamanho da amostra, \(n_2\), que torna isso possível:

\[ SE_2 = \frac{\sigma}{\sqrt{n_2}} = \frac{1}{2} \cdot \frac{\sigma}{\sqrt{n}} \]

Cancelando \(\sigma\) dos dois lados:

\[ \frac{1}{\sqrt{n_2}} = \frac{1}{2} \cdot \frac{1}{\sqrt{n}} \]

Multiplicando ambos os lados por \(\sqrt{n_2}\):

\[ 1 = \frac{1}{2} \cdot \frac{\sqrt{n_2}}{\sqrt{n}} \]

Multiplicando os dois lados por 2:

\[ \frac{\sqrt{n_2}}{\sqrt{n}} = 2 \]

Multiplicando ambos os lados por \(\sqrt{n}\):

\[ \sqrt{n_2} = 2 \cdot \sqrt{n} \]

Elevando ambos os lados ao quadrado:

\[ (2 \cdot \sqrt{n})^2 = n_2 \Rightarrow n_2 = 4n \]

3. Resposta: c) Amostral do estimador

O TCL descreve o comportamento da distribuição amostral, não da população ou amostra individual.

Tópico Extra: Interpretação de Gráficos de Séries Temporais

Dados de Séries Temporais

Definição

  • Dados de séries temporais (time series data) referem-se a dados coletados ao longo do tempo (em geral, em intervalos regulares) sobre uma (série univariada) ou mais variáveis (série multivariada) de uma entidade.

Exemplo de Sériee Temporal Mensal Bivariada

data preço vendas
2020-01-01 100 1500
2020-02-01 105 1600
2020-03-01 102 1550
2020-04-01 108 1650
  • Dados de séries temporais são amplamente utilizados em Economia, Finanças, Administração da Produção, Marketing e em diversas outras áreas.

Norma ISO 8601

ISO 8601 - Padrão Internacional para Formato de Datas

  • Norma internacional emitida pela International Organization for Standardization (ISO).

  • Define formatos para representar datas e horas de forma clara e unificada.

Formato de Data

  • Ano-Mês-Dia (YYYY-MM-DD)

  • Exemplo: 2023-07-18

Padrões em Gráficos Séries Temporais

Padrões Comuns

  • Em gráficos de linhas de séries temporais, podemos identificar padrões como:

  • Tendências,

  • Sazonalidade,

  • Ciclos,

  • Valores Extremos (outliers)

Exemplos de Séries Temporais

Série Temporal do Preço Diário de uma Ação

Exemplos de Séries Temporais

Série Temporal de Produção Mensal

Exemplos de Séries Temporais

Série Temporal de Venda Mensal

Tendência

Descrição

  • A tendência refere-se ao comportamento de longo prazo de uma série temporal, refletindo a direção geral dos dados ao longo do tempo.

  • Pode ser crescente, decrescente ou estocástica (irregular).

  • A tendência representa mudanças persistentes no nível da série, geralmente associadas a fatores estruturais, como crescimento econômico, avanços tecnológicos ou mudanças demográficas.

  • Exemplo: Em uma série temporal de vendas de uma empresa ao longo de vários anos, uma tendência crescente pode indicar um aumento sustentado nas vendas.

Tipos de Tendência

Sazonalidade

Definição

  • A sazonalidade, ou padrão sazonal, refere-se a flutuações que se repetem em intervalos regulares de tempo, geralmente dentro de um ano (como variações mensais ou trimestrais).

  • Esses padrões decorrem de fatores sazonais, como estações do ano, feriados ou eventos recorrentes que influenciam o comportamento da variável ao longo do tempo.

  • A sazonalidade pode ser regular, quando as flutuações ocorrem de forma constante e previsível.

  • Ou irregular, quando as flutuações são recorrentes, mas ocorrem com variações na periodicidade, intensidade ou forma.

  • Exemplo: Aumento nas vendas de sorvetes durante o verão ou pico na venda de brinquedos no Natal.

Tipos de Sazonalidade

Séries com Tendência e Sazonalidade

Ciclos

Definição

  • Os ciclos representam flutuações de longo prazo em torno da tendência, que não se devem à sazonalidade e ocorrem em períodos não fixos, geralmente superiores a um ano.

  • São influenciados por fatores econômicos, como recessões e expansões, refletindo fases de crescimento e declínio na economia ou em outros sistemas.

  • Ciclo regular: as flutuações ocorrem em intervalos constantes e previsíveis, formando um padrão bem definido.

  • Ciclo irregular: as flutuações, embora recorrentes, ocorrem em intervalos variáveis, com períodos e amplitudes irregulares.

Tipos de Ciclos

Exemplo 1 - Análise de Gráfico de Série Temporal

Série Temporal do Preço Diário de uma Ação

Preço de Ação (Finanças)

  • A série apresenta uma tendência estocástica (irregular), marcada por mudanças abruptas entre fases de alta e de queda nos preços — um comportamento típico da intensa flutuação observada nos mercados acionários.

  • Devido à alta volatilidade, que reflete a variabilidade intrínseca desses mercados, torna-se difícil identificar uma tendência geral clara ao longo do tempo.

Exemplo 2 - Análise de Gráfico de Série Temporal

Série Temporal de Produção Mensal

Produção Mensal (Administração da Produção)

  • A série apresenta uma sazonalidade regular evidente, refletindo o padrão de produção mensal de uma fábrica.

  • Essa sazonalidade pode ser explicada por variações previsíveis na demanda ao longo do ano, como períodos de maior ou menor consumo do produto.

Exemplo 3 - Análise de Gráfico de Série Temporal

Série Temporal de Venda Mensal

Vendas Mensais (Marketing)

  • É possível identificar uma sazonalidade nas vendas, com picos significativos em determinados meses — como dezembro.

  • Esse padrão pode estar relacionado a datas comemorativas, como o Natal e outras, ou a ações promocionais realizadas nesse período.

Exercício 1

Enunciado

A Fig. 1 a seguir mostra o comportamento das vendas mensais de uma empresa ao longo de cinco anos.

Com base no gráfico, descreva os principais padrões observados na série temporal.

Você pode considerar aspectos como tendência, sazonalidade e outros da série temporal exibida.

Exercício 1

Figura 1: Vendas mensais de uma empresa ao longo de cinco anos.

Exercício 1 - Resposta

Resposta de Referência

  • Tendência:

Sim, há uma tendência crescente clara na série. Ao longo dos cinco anos, observa-se um aumento contínuo no nível geral das vendas. Isso pode indicar crescimento sustentado da empresa, aumento da demanda ou expansão de mercado.

  • Sazonalidade:

Sim, há sazonalidade regular. Notam-se picos e vales que se repetem regularmente, sugerindo um padrão sazonal típico, possivelmente influenciado por eventos como sazonalidade climática, campanhas promocionais ou datas comemorativas.

  • Variabilidade:

A variabilidade é moderada, com flutuações relativamente pequenas em torno da tendência e da sazonalidade. Essa volatilidade limitada facilita a modelagem e a previsão da série, já que os padrões principais (tendência e sazonalidade) são bem definidos.

Exercício 2 - ENADE/2022

Enunciado

Os executivos da área de gestão de processos e serviços de uma multinacional de telefonia móvel estão analisando o aumento das consultas ao Serviço de Atendimento ao Cliente (SAC) em determinada região do Brasil.

Durante três semanas consecutivas, os profissionais do Departamento de Pesquisa e Desenvolvimento da empresa coletaram dados do SAC relativos a dias úteis das três semanas estudadas, conforme mostra o gráfico a seguir.

Exercício 2 - ENADE/2022

Exercício 2 - ENADE/2022

Perguntas

A gestão da empresa, após analisar o resultado da pesquisa, observou que havia necessidade de expansão do serviço, mesmo considerando o risco associado à implantação desse projeto de expansão, dadas as mudanças no cenário macroeconômico.

Considerando que a amostra represente o universo do fenômeno em questão, avalie as afirmações a seguir.

I. O número de consultas estimado pela equação de regressão linear simples tem aumentado ao longo do tempo.

  1. O histórico de dados (n. de consultas ao SAC) apresenta, aparentemente, sazonalidade e distribuição regular.

  2. A regressão é o melhor método para prever dados sazonais como, por exemplo, o número de consultas ao SAC na segunda-feira da semana 4.

É correto o que se afirma em

  • A: I, apenas.
  • B: III, apenas.
  • C: I e II, apenas.
  • D: II e III, apenas.
  • E: I, II e III.