Introdução à Ciência de Dados

Prof. Washington Santos da Silva

IFMG - Campus Formiga

23 de abril de 2025

Diário de Bordo

O que vimos até hoje?

Aula 1 ✅
- Introdução e Contextualização ✅
- O que é Ciência de Dados? ✅
- Papéis Profissionais na Área de Dados ✅
- Áreas de Aplicações ✅
- Habilidades Interpessoais e Analíticas ✅
- Apresentação da Disciplina ✅
Aula 2 ✅
- Metodologia CRISP-DM ✅
- Tipos de Análise ✅
  - Descritiva ✅
  - Diagnóstica ✅
  - Preditiva ✅
  - Prescritiva ✅
- Configurações: Git/GitHub ✅
Aula 3 ✅
- Introdução ao RStudio ✅
  - Criação do seu Projeto RStudio da Disciplina ✅
Aula 4 ✅
- Introdução ao Git e GitHub ✅
  - Criação do seu repositório do projeto RStudio da disciplina no GitHub ✅
Aula 5 ✅
- Breve Revisão do IDE RStudio ✅
- Introdução ao Sistema de Publicação Quarto ✅
- Sessão Prática Guiada com Relatório 1 ✅
  - Execução dos comandos git essenciais ✅
Aula 6 ✅
- Parte I ✅
  - O Relatório Junglivet e a Metodologia CRISP-DM ✅
  - Primeiro contato com a linguagem R por meio dos códigos do relatório ✅
- Parte II ✅
  - Para alunos com projetos estruturados ✅
  - Atividade prática ✅
  - Para alunos com dificuldades técnicas ✅
  - Atendimento individualizado para estruturação de projetos ✅
Aula 7 ✅
- Introdução ao sistema Quarto (continuação) ✅
  - Gerar relatório no formato pdf ✅
  - Gerar relatório no formato docx ✅
- Introdução à Linguagem R (continuação) ✅
  - Conceitos: Variáveis e observações ✅
  - Estrutura tabular organizada de dados ✅
  - Tipos e classes de dados principais em R ✅
  - Estruturas de dados: vetores e data frames ✅

Nesta Aula

Tópicos

Iniciar o aprendizado das seis principais funções de manipulação de data frames do pacote dplyr da linguagem R.

Diretrizes para Aulas Mais Produtivas

🔊 Mantenha conversas em volume baixo

⌨️ Código com método:

95% dos erros são evitáveis com:

Atenção na digitação
Respeitar a sequência lógica de etapas
Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

Compartilhe conhecimento
Resolva questões técnicas simples com colegas próximos
Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Introdução ao Pacote dplyr

Arquivo para esta Aula

Instruções

Abra o RStudio e o seu Projeto da Disciplina
Crie a subpasta 04-relatorio dentro da pasta relatorios.
Acesse o site da disciplina e baixe o arquivo 04-relatorio.zip
Descompacte o arquivo, copie/recorte o arquivo 04-relatorio.qmd e cole dentro da subpasta 04-relatorio.

CRISP-DM - Fases 2 e 3

Fase 2 (Compreensão dos Dados) e Fase 3 (Preparação dos dados) consomem entre 60-80% do tempo de um projeto de análise ou ciência de dados

Um Princípio desta Disciplina

Foco em habilidades práticas e aplicáveis

Administradores precisam não apenas entender dados para tomada de decisão, mas também desenvolver, pelo menos, a capacidade de elaborar relatórios de análises descritivas e diagnósticas que fundamentem decisões estratégicas.
Para isso, a habilidade de saber efetuar manipulação de dados com a linguagem R e o pacote dplyr são de extrema importância.
Veremos o poder da linguagem R e do dplyr, principalmente, para a fase 3.
A ênfase da disciplina está nas aplicações práticas, não necessariamente no desenvolvimento de modelos estatísticos complexos.

O que é o dplyr?

O pacote dplyr no ecossistema tidyverse

O dplyr é um dos pacotes principais do tidyverse, criado por Hadley Wickham
Seu nome vem de “data plier” (alicate de dados) - uma ferramenta para manipular dados
Foi projetado seguindo a filosofia “tidy data” (dados organizados) - cada variável é uma coluna, cada observação é uma linha
É escrito em C++ para performance otimizada
Permite manipulação de dados de forma consistente, clara e encadeada

O dplyr no Ecossistema R

Contexto do dplyr

O pacote dplyr é parte do tidyverse, um conjunto de pacotes desenvolvidos para análise de dados em R
Enquanto os pacotes readr e readxl ajudam na importação de dados, o dplyr é especializado na manipulação desses dados
O dplyr trabalha com uma estrutura de dados de R que já conhecemos: data frames/tibbles
As funções do dplyr foram projetadas para serem usadas com o operador pipe (%>%), que já vimos brevemente no relatório Junglivet

A Filosofia Tidy Data (Dados Organizados)

Princípios fundamentais

O dplyr foi construído sobre o conceito de “tidy data” (dados organizados):

Cada variável é uma coluna; cada coluna é uma variável.
Cada observação é uma linha; cada linha é uma observação.
Cada valor é uma célula; cada célula é um único valor.

Esta estrutura:

Facilita a manipulação e visualização de dados
Torna o código mais consistente e previsível
É o padrão esperado por todas as ferramentas do tidyverse

Dados Organizados (Tidy Data)

Cada variável é uma coluna; Cada observação é uma linha; Cada valor é uma célula.

Uma Analogia para o dplyr

O dplyr como uma “linha de produção”

Imagine o processo de análise de dados como uma linha de produção:

Os dados brutos são sua “matéria-prima”
Cada função do dplyr é uma “estação de trabalho” que realiza uma operação específica:
- filter() seleciona apenas os materiais que atendem a certos critérios
- select() separa apenas as partes que você precisa
- mutate() transforma ou cria novos componentes
- group_by() + summarize() agrupam e calculam estatísticas
- arrange() organiza o resultado final
O operador pipe (%>%) é a “esteira” que move os dados de uma estação para outra

Operações Comuns em Análise de Dados

Operações rotineiras

Muitas vezes precisamos filtrar somente certas linhas (observações ) de uma data frame.
Muitas vezes precisamos selecionar somente certas colunas (variáveis) de uma data frame.
Muitas vezes precisamos agrupar os dados por uma determinada(s) variável(s) categórica.
Muitas vezes precisamos calcular estatísticas descritivas para esses subconjuntos de dados (função summarize).

Por que usar o dplyr?

Usando R base:

# pib per capita médio dos países do continente americano
mean(gapminder$gdpPercap[gapminder$continent == "Americas"])

[1] 7136.1104

Usando o pacote dplyr

# pib per capita médio dos países do continente americano
gapminder %>%
  filter(continent == "Americas") %>%
  summarize(mean(gdpPercap))

# A tibble: 1 × 1
  `mean(gdpPercap)`
              <dbl>
1             7136.

Por que usar o dplyr?

R base (aninhado):

# Calcular a média de PIB per capita para 
# países asiáticos com população > 50 milhões 
# em 2007
mean(gapminder$gdpPercap[
  gapminder$continent == "Asia" & 
  gapminder$pop > 50000000 & 
  gapminder$year == 2007
])

Difícil de ler e entender
Propenso a erros
Difícil de modificar

Com dplyr e pipe:

# O mesmo cálculo com dplyr
gapminder %>%
  filter(
    continent == "Asia",
    pop > 50000000,
    year == 2007
  ) %>%
  summarize(mean(gdpPercap))

Leitura sequencial, mais natural
Cada etapa claramente separada
Fácil de modificar ou expandir

Comparando Abordagens

Vantagens e Desvantagens

Base R: Funções aninhadas

Vantagens: Não requer pacotes adicionais, disponível em qualquer instalação do R
Desvantagens:
- Código difícil de ler com funções aninhadas
- Difícil de depurar quando há erros
- Funções com sintaxes inconsistentes

dplyr: Gramática da manipulação de dados

Vantagens:
- Código mais legível e expressivo
- Funções com nomes intuitivos e consistentes
- Ideal para análises sequenciais com pipes
Desvantagens:
- Requer aprender uma nova sintaxe
- Dependência de pacotes externos
- Algumas operações podem ser mais lentas que o R base em casos específicos

Fluxo de trabalho com dplyr

Gramática da manipulação de dados

O fluxo típico de uma análise de dados com dplyr segue este padrão:

Importar dados (com pacotes readr, readxl)
Filtrar observações (função filter)
Selecionar variáveis (função select)
Transformar dados (função mutate)
Agrupar dados (função group_by)
Resumir informações (função summarize)
Ordenar resultados (função arrange)

Um Exemplo Prático Completo

Informações sobre expectativa de vida por continente

# Um fluxo completo de análise com dplyr
relatorio_expectativa <- gapminder %>%
  # Filtra apenas os dados de 2007
  filter(year == 2007) %>%
  # Agrupa por continente
  group_by(continent) %>%
  # Calcula estatísticas resumidas
  summarize(
    expectativa_media = mean(lifeExp),
    expectativa_minima = min(lifeExp),
    expectativa_maxima = max(lifeExp),
    num_paises = n()
  ) %>%
  # Ordena do maior para o menor
  arrange(desc(expectativa_media))

# Visualiza o resultado final
relatorio_expectativa

Este exemplo demonstra como um conjunto de funções do dplyr pode ser combinado para transformar dados brutos em um relatório informativo com apenas algumas linhas de código.

Conexão com o Relatório Junglivet

O que já vimos na prática

No relatório Junglivet, já utilizamos algumas funções do dplyr:

# Trecho do relatório Junglivet
dados_destilaria_limpos <- dados_destilaria %>%
  # Remove a coluna MONTH
  select(-MONTH) %>%
  # Renomeia as colunas
  rename(
    dia = DAY,
    mestre_responsavel = MANUFACTURER,
    # ... outras colunas renomeadas
  ) %>%
  # Converte cada variável para seu tipo adequado
  mutate(
    dia = as.numeric(dia),
    # ... outras conversões
  ) %>%
  # Remove linhas com valores ausentes
  drop_na()

Agora vamos entender em detalhes cada uma dessas funções e como aplicá-las em diferentes contextos de análise de dados.

Pacote dplyr

Pacote dplyr: Vantagens

O pacote dplyr fornece uma série de funções muito úteis para manipular data frames de uma maneira que:

reduz a probabilidade de cometer erros
economiza digitação
o código é mais legível e compreensível

Pacote dplyr

Objetivos de Aprendizagem

Vamos aprender 5 das funções mais usadas do pacote dplyr,

Função	Descrição
`dplyr::filter()`	para filtrar linhas (observações)
`dplyr::select()`	para selecionar colunas (variáveis )
`dplyr::mutate()`	para criar novas variáveis
`dplyr::group_by()`	para operações “por grupo”
`dplyr::summarize()`	para calcular estatísticas
`dplyr::arrange()`	para ordenar resultados

Além disso, veremos como como usar o operador pipe (%>%) para combiná-las.

Boas Práticas com dplyr

Recomendações para código eficiente e legível

Indentação consistente:
- Um nível de identação para cada função
- Parâmetros adicionais alinhados
Nomeie seu código:
- Use nomes descritivos para variáveis intermediárias e finais
- Ex: dados_filtrados, relatorio_vendas_por_regiao
Comente seu código:
- Explique o “por quê”, não apenas o “o quê”
- Útil para você mesmo no futuro e para colegas
Dividir análises complexas em etapas:
- Para análises muito complexas, divida em objetos intermediários
- Facilita a depuração e compreensão
Consistência de estilo:
- Seja consistente com o estilo de nomeação (snake_case ou CamelCase)
- Seja consistente com o uso de aspas (simples ou duplas)

Dados dos Exemplos

Pacote gapminder

Descrição

O pacote gapminder da linguagem R contém uma data frame também chamada gapminder.
A df gapminder fornece informações detalhadas sobre indicadores socioeconômicos reais de vários países ao longo do tempo.
Este conjunto de dados é muito utilizado no ensino da linguagem R e de métodos estatísticos.

Pacote gapminder

Para acessar os dados gapminder, basta instalar e carregar o pacote gapminder:

# após instalar, carregue o pacote
library(tidyverse)
library(gapminder)

Data Frame gapminder: Fase 1 (CRISP-DM)

Descrição

A data frame gapminder contém as seguintes variáveis:

Variável	Descrição
`country`	nome do país.
`continent`	continente ao qual o país pertence.
`year`	ano da observação.
`lifeExp`	expectativa de vida ao nascer, em anos.
`pop`	população total do país.
`gdpPercap`	PIB per capita, ajustado pelas diferenças de poder de compra.

Data Frame gapminder: Fase 2 (CRISP-DM)

Para obter uma visão geral da estrutura da df gapminder, podemos usar a função glimpse do pacote dplyr:

# visualizando a estrutura dos dados
dplyr::glimpse(gapminder)

Rows: 1,704
Columns: 6
$ country   <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan", …
$ continent <fct> Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, …
$ year      <int> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, …
$ lifeExp   <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39.854, 40.8…
$ pop       <int> 8425333, 9240934, 10267083, 11537966, 13079460, 14880372, 12…
$ gdpPercap <dbl> 779.44531, 820.85303, 853.10071, 836.19714, 739.98111, 786.1…

Data Frame gapminder

# Mostrando que o gapminder já está no formato tidy
# Cada linha é uma observação (país-ano)
# Cada coluna é uma variável
# Cada célula é um valor único
head(gapminder)

# A tibble: 6 × 6
  country     continent  year lifeExp      pop gdpPercap
  <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
1 Afghanistan Asia       1952    28.8  8425333      779.
2 Afghanistan Asia       1957    30.3  9240934      821.
3 Afghanistan Asia       1962    32.0 10267083      853.
4 Afghanistan Asia       1967    34.0 11537966      836.
5 Afghanistan Asia       1972    36.1 13079460      740.
6 Afghanistan Asia       1977    38.4 14880372      786.

tail(gapminder)

# A tibble: 6 × 6
  country  continent  year lifeExp      pop gdpPercap
  <fct>    <fct>     <int>   <dbl>    <int>     <dbl>
1 Zimbabwe Africa     1982    60.4  7636524      789.
2 Zimbabwe Africa     1987    62.4  9216418      706.
3 Zimbabwe Africa     1992    60.4 10704340      693.
4 Zimbabwe Africa     1997    46.8 11404948      792.
5 Zimbabwe Africa     2002    40.0 11926563      672.
6 Zimbabwe Africa     2007    43.5 12311143      470.

Função select()

O que é a função select()?

Selecionando variáveis (colunas) de uma data frame

A função select() permite escolher quais variáveis (colunas) você quer manter ou remover de uma data frame
Enquanto select() trabalha com colunas (variáveis), filter() trabalha com linhas (observações),
É essencial para simplificar seus dados, focando apenas nas variáveis relevantes para sua análise

Função select()

Sintaxe da função select()

Sintaxe básica

# Estrutura básica
select(df, var1, var2, var3)

# Com operador pipe
df %>% select(var1, var2, var3)

df: A data frame da qual você quer selecionar variáveis
var1, var2, var3: Nomes das variáveis que você quer manter
Todas as variáveis não listadas serão removidas do resultado

Exemplo: Análise Financeira Simplificada

Cenário: Análise financeira de países

Imagine que você é um analista financeiro internacional e precisa preparar um relatório sobre PIB:

# Seleciona apenas as variáveis relevantes para análise financeira
dados_financeiros <- gapminder %>%
  select(country, year, gdpPercap)

# Visualiza as primeiras linhas do resultado
head(dados_financeiros)

# A tibble: 6 × 3
  country      year gdpPercap
  <fct>       <int>     <dbl>
1 Afghanistan  1952      779.
2 Afghanistan  1957      821.
3 Afghanistan  1962      853.
4 Afghanistan  1967      836.
5 Afghanistan  1972      740.
6 Afghanistan  1977      786.

Interpretação: Este código seria equivalente a extrair apenas os dados financeiros relevantes (país, ano e PIB per capita) de uma grande base de dados para uma análise específica de desempenho econômico.

Técnicas de Seleção Avançadas

Diversas formas de selecionar variáveis

# Selecionar variáveis por inclusão
gapminder %>% select(country, year, gdpPercap)

# Selecionar variáveis por exclusão (com sinal de menos)
gapminder %>% select(-continent, -lifeExp)

# Selecionar variáveis em sequência
gapminder %>% select(country:pop)

# Selecionar variáveis que começam com determinado texto
gapminder %>% select(starts_with("c"))

# Selecionar variáveis que terminam com determinado texto
gapminder %>% select(ends_with("p"))

# Selecionar variáveis que contêm determinado texto
gapminder %>% select(contains("exp"))

Técnicas de Seleção Avançadas

Aplicações práticas em negócios

Estas técnicas são muito úteis quando você trabalha com:

Grandes conjuntos de dados com dezenas ou centenas de variáveis
Planilhas de dados financeiros onde precisa focar em determinadas métricas
Relatórios onde precisa apresentar apenas informações específicas

Erros Comuns e Como Evitá-los

Os erros mais comuns com select()

Erro	Errado	Correto
Nomes de variáveis com aspas	`select(gapminder, "country")`	`select(gapminder, country)`
Tentar condições como em filter	`select(gapminder, gdpPercap > 1000)`	Use `filter()` para isso, não `select()`
Não salvar o resultado	`gapminder %>% select(country, year)`	`dados_novos <- gapminder %>% select(country, year)`
Remover variáveis necessárias	`select(country)` e depois tentar usar `continent`	Verifique se manteve todas as variáveis necessárias

Dica importante:

Lembre-se: select() é para escolher colunas (variáveis) e filter() é para escolher linhas (observações)!

Exemplo: Salvando o resultado

Seleção por Exclusão

Se quisermos remover apenas a variável continent, podemos usar a sintáxe abaixo e salvar o resultado em outro objeto:

variaveis_selecionadas <- select(gapminder, -continent)
variaveis_selecionadas

# A tibble: 1,704 × 5
   country      year lifeExp      pop gdpPercap
   <fct>       <int>   <dbl>    <int>     <dbl>
 1 Afghanistan  1952    28.8  8425333      779.
 2 Afghanistan  1957    30.3  9240934      821.
 3 Afghanistan  1962    32.0 10267083      853.
 4 Afghanistan  1967    34.0 11537966      836.
 5 Afghanistan  1972    36.1 13079460      740.
 6 Afghanistan  1977    38.4 14880372      786.
 7 Afghanistan  1982    39.9 12881816      978.
 8 Afghanistan  1987    40.8 13867957      852.
 9 Afghanistan  1992    41.7 16317921      649.
10 Afghanistan  1997    41.8 22227415      635.
# ℹ 1,694 more rows

Pacote dplyr e o operador `%>%`

Combinação de Operações com %>%

Nos slides anteriores, usamos a sintáxe ‘normal’ da linguagem R.
Mas o ponto forte do dplyr está na combinação de várias funções usando o operador pipe %>%.
Vamos analisar a gramática do uso de funções do dplyr combinadas com o operador %>%.
Atalho para inserir o operador pipe: Ctrl + shift + M

Operador Pipe: A “cola” da gramática dplyr

Significado conceitual do pipe %>%

O operador pipe pode ser lido como “então” ou “em seguida”
Fluxo da esquerda para a direita, similar à leitura natural
Transforma:

funcao(dados, arg1, arg2)

dados %>% funcao(arg1, arg2)

Operador Pipe

Analogia

Uma linha de montagem onde cada função faz uma operação nos dados

gapminder %>% # Pegue os dados gapminder, então...
  filter(year == 2007) %>% # Filtre para apenas o ano 2007, então...
  group_by(continent) %>% # Agrupe por continente, então...
  summarize( # Calcule resumos:
    mean(lifeExp), # expectativa de vida média
    sum(pop) # população total 
  )

Dica

Nomeie os resumos calculados com summarize

gapminder %>% # Pegue os dados gapminder, então...
  filter(year == 2007) %>% # Filtre para apenas o ano 2007, então...
  group_by(continent) %>% # Agrupe por continente, então...
  summarize( # Calcule resumos:
    exp_vida_media = mean(lifeExp), # expectativa de vida média
    populacao_total = sum(pop) # população total
  )

Função select() e o Operador Pipe

variaveis_selecionadas <- gapminder %>%
  dplyr::select(year, country, gdpPercap)

Vamos entender o código:

Primeiro invocamos a df gapminder e a passamos, usando o operador pipe %>%, para a próxima etapa, que é a função select().
Neste caso, não especificamos qual df usamos na função select(), porque que ela obtém essa informação do pipe anterior.
Salvamos o resultado no objeto variaveis_selecionadas

Resumo: Função select()

O que você precisa lembrar

Para que serve: Selecionar apenas as colunas (variáveis) que você deseja manter ou remover
Sintaxe básica:

dados %>% select(var1, var2, var3)  # Mantém apenas var1, var2 e var3
dados %>% select(-var4, -var5)      # Remove var4 e var5, mantém o resto

Técnicas úteis:
- Seleção por inclusão: select(país, ano, vendas)
- Seleção po exclusão: select(-observações, -notas)
- Seleção por padrão de texto: select(starts_with("venda"))
Lembre-se sempre:
- select() trabalha com COLUNAS
- filter() trabalha com LINHAS
- Sempre salve o resultado em um novo objeto!

novo_df <- dados %>% select(...)

Sua vez

Exercícios Práticos com select()

Nível 1: Primeiros Passos

Complete o código abaixo para selecionar apenas o país, o ano e a expectativa de vida:

dados_expectativa <- gapminder %>%
  select(___, ___, ___)

Escreva o código para selecionar todas as variáveis EXCETO população e PIB per capita.

Nível 2: Técnicas Avançadas com select()

Complete o código abaixo para selecionar apenas as variáveis que começam com a letra “c”:

variaveis_com_c <- gapminder %>%
  select(___(___))

Escreva o código para selecionar todas as variáveis desde “country” até “pop” (em sequência na tabela).

Desafio: Crie um código que selecione variáveis usando dois métodos diferentes na mesma instrução:

Todas as variáveis que contêm a letra “p” OU
Todas as variáveis que terminam com “p”

Dica: Lembre-se que você pode combinar seleções com vírgulas e use o atalho Ctrl+Shift+M para inserir o operador pipe (%>%).

Função dplyr::filter()

O que é a função filter()?

Filtrando observações (linhas) de uma data frame

A função filter() permite filtrar subconjuntos de observações (linhas) que atendem determinadas condições ou critérios.
É uma das funções mais utilizadas na análise de dados para criar subconjuntos específicos dos dados
Pense nela como um “filtro” que deixa passar apenas as observações que atendem aos critérios que você definir

O que é a função filter()?

Neste caso, duas linhas atendem às condições

O que é a função filter()?

Filtrando observações (linhas) de uma data frame

Imagine que você tem uma planilha de vendas e quer analisar apenas as vendas:
- de um produto específico
- acima de determinado valor
- em uma região específica
- em um período específico
A função filter() permite fazer essa filtragem de forma rápida e precisa

Sintaxe da função filter()

Sintaxe básica

# Estrutura básica
filter(df, condição)

# Com operador pipe
df %>% filter(condição)

df: A data frame a ser filtrada
condição: Expressão lógica que retorna TRUE/FALSE para cada linha
Somente as linhas que resultam em TRUE são mantidas no resultado

Operadores para construir condições

Operadores na linguagem dos negócios

Operador	Exemplo em Linguagem Natural	Código em R
`==`	Apenas os países europeus	`continent == "Europe"`
`!=`	Todos, exceto os países europeus	`continent != "Europe"`
`>`	Países com PIB per capita maior que 10.000	`gdpPercap > 10000`
`<`	Países com menos de 1 milhão de habitantes	`pop < 1000000`
`>=`	Países a partir do ano 2000	`year >= 2000`
`&`	Países europeus a partir de 2000	`continent == "Europe" & year >= 2000`
`\|`	Países da Europa ou da Ásia	`continent == “Europe” \| continent == “Asia”`

Operadores para construir condições

Dica

Dica para memorizar:

Use == para igualdade (lembre-se: dois sinais de igual, não apenas um)
Use & para “E” (quero este critério E aquele também)
Use | para “OU” (quero este critério OU aquele)

Exemplo básico

Cenário: Análise de vendas por continente

Imagine que a data frame gapminder representa dados de filiais de uma empresa multinacional:

# Filtra apenas países das Américas
# como se fossem filiais da região Américas

filiais_americas <- gapminder %>%
  filter(continent == "Americas")

# Visualiza as primeiras 6 linhas do resultado
head(filiais_americas)

# A tibble: 6 × 6
  country   continent  year lifeExp      pop gdpPercap
  <fct>     <fct>     <int>   <dbl>    <int>     <dbl>
1 Argentina Americas   1952    62.5 17876956     5911.
2 Argentina Americas   1957    64.4 19610538     6857.
3 Argentina Americas   1962    65.1 21283783     7133.
4 Argentina Americas   1967    65.6 22934225     8053.
5 Argentina Americas   1972    67.1 24779799     9443.
6 Argentina Americas   1977    68.5 26983828    10079.

Interpretação: Este filtro seria equivalente a selecionar apenas dados de filiais localizadas nas Américas para uma análise regional de desempenho.

Pensando como um Analista de Negócios

Perguntas de negócios traduzidas para filter()

Pergunta de Negócio	Código com filter()
Quais países tiveram PIB per capita acima de $20.000 em 2007?	`filter(year == 2007 & gdpPercap > 20000)`
Quais países da Ásia tiveram expectativa de vida acima de 75 anos?	`filter(continent == "Asia" & lifeExp > 75)`
Quais países tiveram população superior a 100 milhões em 2007?	`filter(year == 2007 & pop > 100000000)`
Quais países não são da Europa nem da América?	`filter(continent != "Europe" & continent != "Americas")`

Dica prática: Comece sempre pensando na pergunta de negócio, depois traduza para o código

Múltiplas condições com filter()

Combinando condições

Há duas maneiras principais de combinar condições:

# Método 1: Usando o operador & (E lógico) - equivalente ao método 1
europeus_2007_alt <- gapminder %>%
  filter(continent == "Europe" & year == 2007)

# Método 2: Usando o operador | (OU lógico)
europa_ou_asia <- gapminder %>%
  filter(continent == "Europe" | continent == "Asia")

Dica importante

Com & (“E” lógico) ambas as condições precisam ser TRUE para que a linha seja mantida
Com | (“OU” lógico), apenas uma das condições precisa ser TRUE

Filtrando com operadores relacionais

Exemplos com diferentes operadores

# Países com alta expectativa de vida (maior que 80 anos)
alta_exp_vida <- gapminder %>%
  filter(lifeExp > 80)

# Países com PIB per capita abaixo de 500 dólares
baixo_pib <- gapminder %>%
  filter(gdpPercap < 500)

# Anos diferentes de 2002
nao_2002 <- gapminder %>%
  filter(year != 2002)

Aplicações práticas

Utilize operadores relacionais para:

Encontrar valores acima/abaixo de limites importantes
Excluir períodos ou categorias específicas
Identificar casos extremos ou outliers

Combinando filter() com outras funções

A importância da ordem das operações

# Países europeus em 2007, mostrando apenas país e expectativa de vida
europeus_lifeExp_2007 <- gapminder %>%
  filter(continent == "Europe", year == 2007) %>%
  select(country, lifeExp)

# Ordenando o resultado por expectativa de vida (decrescente)
europeus_lifeExp_2007_ordenado <- gapminder %>%
  filter(continent == "Europe", year == 2007) %>%
  select(country, lifeExp) %>%
  arrange(desc(lifeExp))

head(europeus_lifeExp_2007_ordenado)

Ordem correta das operações

Comece com filter()
Use select() depois de filter
Se inverter a ordem, a função filter() pode falhar se você removeu colunas necessárias

Lembre-se: primeiro filter(), depois select()!

Erros Comuns e Como Evitá-los

Os 4 erros mais comuns com filter()

Erro	Errado	Correto
Usar = em vez de ==	`filter(continent = "Europe")`	`filter(continent == "Europe")`
Esquecer as aspas em nomes	`filter(continent == Europe)`	`filter(continent == "Europe")`
Não salvar o resultado	`gapminder %>% filter(year == 2007)`	`dados_2007 <- gapminder %>% filter(year == 2007)`

Exemplo Completo Comum

Países europeus com alta expectativa de vida em 2007?

# Países europeus com expectativa de vida acima de 78 anos em 2007
resultado_final <- gapminder %>%
  # Filtrar por continente, ano e expectativa de vida
  filter(continent == "Europe", year == 2007, lifeExp > 78) %>%
  # Selecionar variáveis de interesse
  select(country, lifeExp, gdpPercap) %>%
  # Ordenar por expectativa de vida (decrescente)
  arrange(desc(lifeExp))

# Mostrar resultados
resultado_final

Observe o fluxo de análise:

Filtramos os dados com critérios específicos
Selecionamos apenas as variáveis de interesse
Ordenamos os resultados para facilitar a interpretação
Todo o processo forma um “pipeline” de análise limpo e legível

Resumo: Função filter()

O que você precisa lembrar

Para que serve: Selecionar apenas as linhas (observações) que atendem a determinadas condições
Sintaxe básica:

dados %>% filter(condição1, condição2, ...)

Comparações mais usadas:
- Igual: == (dois sinais de igual!)
- Diferente: !=
- Maior/Menor: >, <, >=, <=
Múltiplas condições:
- Todas as condições (E): filter(condição1 & condição2)
- Qualquer condição (OU): filter(condição1 | condição2)
Lembre-se sempre de salvar o resultado:

nova_df <- dados %>% filter(...)

Sua vez

Exercícios Práticos

Nível 1: Primeiros Passos com filter()

Complete o código abaixo para filtrar apenas os países da América do Sul no ano de 2007:

paises_america_2007 <- gapminder %>%
  filter(continent == "___", year == ___)

Filtre a data frame gapminder para mostrar apenas os dados do Brasil.

Nível 2: Combinando Condições

Crie um filtro para encontrar países que atendam a TODAS estas condições:
- Pertencem à Ásia
- Têm população acima de 50 milhões
- Dados do ano 2007
Desafio: Encontre países com expectativa de vida acima de 75 anos, mas PIB per capita abaixo de 10.000 dólares em 2007.

Dica: Comece com um filtro simples e depois adicione condições gradualmente

Função mutate()

O que é a função mutate()?

Criando e transformando variáveis

A função mutate() permite criar novas variáveis ou modificar variáveis existentes
Enquanto filter() seleciona linhas e select() seleciona colunas, mutate() adiciona ou modifica colunas
É como ter uma “calculadora” que cria novas informações a partir dos dados existentes
Ideal para cálculos como: percentuais, totais, médias, categorias, etc.

Função mutate()

Cria novas variáveis a partir das variáveis existentes

Sintaxe da função mutate()

Como usar mutate() na prática

# Formato básico
dados %>% mutate(nova_coluna = expressão)

# Exemplos práticos
dados %>% mutate(valor_total = preco * quantidade)
dados %>% mutate(valor_com_desconto = preco * 0.9)

O que cada parte significa:

nova_coluna: Nome da nova variável que você está criando
expressão: Fórmula que calcula os valores da nova variável
A expressão é aplicada a cada linha individualmente

Aplicação: Análise de Vendas

Cenário: Relatório de análise comercial

Imagine que a data frame gapminder contém dados de vendas globais da sua empresa:

# Criando variáveis para análise de vendas
vendas_analise <- gapminder %>%
  filter(year == 2007) %>%  # Filtra dados somente de 2007
  mutate(
    # PIB total representa a receita total da região
    receita_total = gdpPercap * pop,
    # Receita em milhões (para facilitar a leitura)
    receita_milhoes = receita_total / 1000000,
    # Indicador de destaque (regiões com alta receita por pessoa)
    destaque = gdpPercap > 20000
  ) %>%
  # Vamos visualizar apenas algumas colunas e 5 linhas
  select(country, receita_milhoes, gdpPercap, destaque) %>%
  head(5)

vendas_analise

Interpretação administrativa: Este tipo de transformação é usado diariamente nas empresas para converter dados brutos em métricas de negócios úteis para tomada de decisão.

Mutações Simples

Transformações mais comuns: Operações aritméticas básicas

# Operações aritméticas básicas com mutate()
gapminder %>%
  filter(country == "Brazil", year >= 2000) %>%
  mutate(
    # Adição: adiciona um valor fixo
    pop_ajustada = pop + 1000000,
    # Multiplicação: multiplica por um fator
    gdp_reais = gdpPercap * 5.2,  # Convertendo para reais
    # Divisão: divide para mudar a escala 
    pop_milhoes = pop / 1000000   # População em milhões
  ) %>%
  select(year, pop, pop_ajustada, pop_milhoes, gdpPercap, gdp_reais)

Dica: As operações mais utilizadas em análises de negócios são multiplicação (para fatores, taxas, conversões) e divisão (para mudar escalas e calcular proporções).

Criando categorias com ifelse()

O que é a função ifelse()?

A função ifelse() permite criar novas variáveis categóricas baseadas em condições:

Como funciona: ifelse(condição, valor_se_verdadeiro, valor_se_falso)

# Criando categorias com ifelse
paises_categorizados <- gapminder %>%
  filter(year == 2007) %>%
  mutate(
    nivel_desenvolvimento = ifelse(gdpPercap > 10000, 
                                   "Desenvolvimento Alto", 
                                   "Desenvolvimento Baixo")
  ) %>%
  select(country, gdpPercap, nivel_desenvolvimento) %>%
  head(6)

paises_categorizados

É como dizer: “SE o PIB per capita for maior que 10.000, então classifique como ‘Desenvolvimento Alto’, SENÃO classifique como ‘Desenvolvimento Baixo’”

Criando KPIs com ifelse()

Criando KPIs com mutate() e ifelse()

gapminder %>%
 filter(year == 2007) %>%
 mutate(
   pib_total = gdpPercap * pop,  # PIB total
   pib_percentual_global = (pib_total/sum(pib_total))*100, # % do PIB global
   performance = ifelse(gdpPercap > mean(gdpPercap), 
                       "Acima da média", 
                       "Abaixo da média")
 ) %>% 
 select(country, pib_total, pib_percentual_global, performance)

Isso mostra como transformar dados brutos em informações gerenciais.

Múltiplas Categorias com case_when()

Quando precisamos de mais de duas categorias

case_when() é como um “sistema de classificação” para criar categorias mais complexas:

# Exemplo de múltiplas categorias
paises_classificados <- gapminder %>%
  filter(year == 2007) %>%
  mutate(
    classe_desenvolvimento = case_when(
      gdpPercap < 2000 ~ "Baixo",
      gdpPercap < 10000 ~ "Médio",
      gdpPercap >= 10000 ~ "Alto"
    )
  ) %>%
  select(country, gdpPercap, classe_desenvolvimento) %>%
  head(6)

paises_classificados

Como funciona:

Cada linha representa uma condição: condição ~ "valor a atribuir"
As condições são verificadas em ordem (de cima para baixo)
Quando uma condição é verdadeira, o valor correspondente é atribuído

Quando usar ifelse() vs. case_when()?

Escolhendo a função adequada

Função	Quando usar	Exemplo
`ifelse()`	Para divisões simples em duas categorias	`ifelse(vendas > meta, "Meta atingida", "Meta não atingida")`
`case_when()`	Para múltiplas categorias ou condições complexas	Classificar clientes em “Bronze”, “Prata”, “Ouro” e “Platina” baseado em diferentes critérios

Analogia de negócios:

ifelse() é como uma decisão “sim/não” (aprovação de crédito simples)
case_when() é como um sistema de classificação de clientes com várias categorias

Erros Comuns e Como Evitá-los

Os erros que todos cometem no início

Usar o operador de atribuição errado
- ERRADO: mutate(nova_var <- expressão) ❌
- CORRETO: mutate(nova_var = expressão) ✅
Esquecer de salvar o resultado
- ERRADO: dados %>% mutate(nova_var = x * 2) ❌ (resultado não salvo)
- CORRETO: dados_novos <- dados %>% mutate(nova_var = x * 2) ✅
Tentar usar variáveis que acabou de criar sem manter os resultados

ERRADO:

# Executando dois comandos separados:
dados %>% mutate(nova_var = x * 2)  # Resultado não salvo em lugar nenhum
dados %>% filter(nova_var > 10)     # ❌ Erro! nova_var não existe em 'dados'

CORRETO (Pipeline único):

dados_novos <- dados %>%
  mutate(nova_var = x * 2) %>%
  filter(nova_var > 10) # ✅ Funciona porque tudo está no mesmo pipeline

Resumo: Função mutate()

O que você precisa lembrar

O que faz: mutate() cria novas variáveis ou modifica existentes
Usos comuns no mundo dos negócios:
- Calcular totais, médias, porcentagens
- Converter unidades (dólares para reais, unidades para milhares)
- Criar categorias e classificações
Como usar na prática:

dados %>% mutate(nova_variavel = expressão)

Ferramentas complementares:
- ifelse() para classificações simples (sim/não)
- case_when() para classificações múltiplas
Lembre-se de salvar o resultado em um novo objeto:

novo_df <- dados %>% mutate(...)

Sua vez

Exercícios Práticos

Nível 1: Começando com mutate()

Complete o código abaixo para criar uma nova variável que converta a população para milhões:

gapminder %>%
  mutate(pop_em_milhoes = ___)

Crie uma nova variável que calcule a “receita total” (PIB per capita × população) para cada país.

Nível 2: Aplicando categorias

Usando ifelse(), crie uma variável chamada economia_grande que seja “Sim” quando a população for maior que 50 milhões e “Não” caso contrário.
Desafio: Usando dados de 2007, crie uma variável que classifique os países em três categorias baseadas na expectativa de vida:
- “Baixa”: menos de 60 anos
- “Média”: entre 60 e 75 anos
- “Alta”: mais de 75 anos

Dica: Não se preocupe se não conseguir resolver todos. Foque em entender a lógica!

Função group_by() e summarize()

O que são as funções group_by() e summarize()?

Agrupando e resumindo dados

A função group_by() permite agrupar dados por uma ou mais variáveis categóricas
A função summarize() (ou summarise()) permite calcular estatísticas resumidas para cada grupo
Estas funções geralmente trabalham juntas como uma ferramenta poderosa para análise
É como criar “subtotais” ou “relatórios consolidados” por categorias (ex: vendas por região, despesas por departamento)

Funções group_by() e summarize()

Sintaxe das funções group_by() e summarize()

Sintaxe básica

# Estrutura básica
df %>% 
  group_by(variavel_de_agrupamento) %>%
  summarize(nome_do_resumo = funcao(variavel))

# Exemplo prático
df %>%
  group_by(departamento) %>%
  summarize(media_vendas = mean(vendas))

df: A data frame que contém os dados
variavel_de_agrupamento: Variável categórica pela qual agrupar (ex: região, produto)
nome_do_resumo: Nome que você escolhe para o resultado calculado
funcao: Função estatística (ex: mean, sum, max, min, sd, n)
variavel: Variável para calcular a estatística

Exemplo: Análise Financeira por Continente

Cenário: Relatório para executivos sobre desempenho regional

Imagine que você é um analista financeiro e precisa preparar um relatório executivo comparando regiões:

# Cria um relatório de PIB médio por continente
relatorio_continentes <- gapminder %>%
  filter(year == 2007) %>%  # Filtra para dados mais recentes
  group_by(continent) %>%   # Agrupa por continente
  summarize(
    PIB_medio = mean(gdpPercap),         # Média do PIB per capita
    Total_populacao = sum(pop),          # População total
    Paises_analisados = n(),             # Número de países
    PIB_minimo = min(gdpPercap),         # PIB mínimo
    PIB_maximo = max(gdpPercap)          # PIB máximo
  ) %>%
  arrange(desc(PIB_medio))  # Ordena do maior para o menor PIB médio

# Visualiza o resultado
relatorio_continentes

Interpretação Este tipo de relatório consolidado por região é crítico para análises comparativas entre mercados e para apresentações executivas. Mostra claramente as estatísticas-chave para cada grupo (continente), facilitando comparações e decisões estratégicas.

Funções Estatísticas Mais Usadas com summarize()

Funções Estatísticas da linguagem R

Função	O que calcula	Exemplo em R	Uso em Negócios
`mean()`	Média	`mean(vendas)`	Valor médio de vendas por região
`sum()`	Soma total	`sum(receita)`	Receita total por categoria
`min()`	Valor mínimo	`min(preco)`	Menor preço praticado
`max()`	Valor máximo	`max(despesa)`	Maior despesa do período
`sd()`	Desvio padrão	`sd(producao)`	Variabilidade da produção
`n()`	Contagem de linhas	`n()`	Número de transações
`n_distinct()`	Contagem de valores únicos	`n_distinct(cliente)`	Número de clientes únicos
`median()`	Mediana	`median(vendas)`	Valor típico de vendas

Dica para gestores: Sempre inclua tanto medidas de “tendência central” (média, mediana) quanto de “variação” (desvio padrão) para ter uma visão mais completa dos dados.

Agrupando por Múltiplas Variáveis

Análises mais detalhadas

# Análise de expectativa de vida por continente e ano
tendencias_por_continente <- gapminder %>%
  group_by(continent, year) %>%  # Agrupa por DUAS variáveis
  summarize(
    expectativa_vida_media = mean(lifeExp),
    paises_analisados = n()
  ) %>%
  arrange(continent, year)

# Mostra resultados parciais
tendencias_por_continente %>% 
  filter(continent == "Americas") %>%
  head(3)

# A tibble: 3 × 4
# Groups:   continent [1]
  continent  year expectativa_vida_media paises_analisados
  <fct>     <int>                  <dbl>             <int>
1 Americas   1952                   53.3                25
2 Americas   1957                   56.0                25
3 Americas   1962                   58.4                25

Contexto empresarial: Este tipo de análise é comum em:

Relatórios de vendas por região e trimestre
Análise de desempenho por departamento e mês
Monitoramento de métricas por produto e canal de vendas

Erros Comuns e Como Evitá-los

Os erros que todos cometem no início

Erro	Errado	Correto
Não usar summarize após group_by	`dados %>% group_by(regiao)`	`dados %>% group_by(regiao) %>% summarize(...)`
Tentar agrupar antes de filtrar	`group_by(regiao) %>% filter(mean(vendas) > 1000)`	Usar `filter()` ANTES de `group_by()`
Esquecer de desagrupar	Continuar usando dados agrupados	Usar `ungroup()` quando terminar com análises agrupadas

Dica: group_by por si não produz nenhum resultado.

Resumo: Funções group_by() e summarize()

O que você precisa lembrar

Para que servem:
- group_by(): Agrupa dados por categorias (como agrupar linhas em uma planilha)
- summarize(): Calcula estatísticas para cada grupo (como criar subtotais)
Sintaxe básica:

dados %>% 
  group_by(categoria) %>%
  summarize(resumo = funcao(variavel))

Funções estatísticas básicas:
- Para totais: sum()
- Para médias: mean()
- Para contagens: n()
- Para mínimos/máximos: min(), max()
Fluxo de trabalho típico:
- Primeiro filtre os dados (filter())
- Depois agrupe (group_by())
- Em seguida calcule estatísticas (summarize())
- Por fim, ordene os resultados (arrange())
Lembre-se sempre de salvar o resultado:

relatorio_final <- dados %>% group_by(...) %>% summarize(...)

Sua Vez

Exercícios Práticos

Nível 1: Primeiros Passos

Complete o código abaixo para calcular a média de expectativa de vida por continente:

expectativa_por_continente <- gapminder %>%
  group_by(___) %>%
  summarize(expectativa_media = ___(___))

Calcule a população total por continente no ano de 2007.

Nível 2: Análise de Negócios

Imagine que cada país representa uma filial da sua empresa. Crie um relatório que mostre, para cada continente:
- O número de “filiais” (países)
- O PIB per capita médio (indicador de desempenho)
- O PIB per capita da melhor “filial” (máximo)
Desafio: Crie um relatório que mostre a evolução da expectativa de vida média do continente americano ao longo dos anos (dica: agrupe por ano, filtre para mostrar apenas as Américas).

Dica: Lembre-se de salvar seus resultados em objetos com nomes descritivos e de usar arrange() para organizar seus resultados de forma lógica.

Função arrange()

Ordena resultados

A função arrange() ordena as linhas (observações) de uma data frame com base nos valores de uma ou mais colunas (variáveis)
Por padrão, organiza em ordem crescente (do menor para o maior)
Use desc() para ordenar em ordem decrescente (do maior para o menor)

Função arrange()

Reordena as linhas de uma data frame segundo uma variável, por padrão em ordem crescente, com desc() em ordem decrescente

Sintaxe da função arrange()

Como usar arrange() na prática

# Formato básico
df %>% arrange(variavel)         # ordem crescente
df %>% arrange(desc(variavel))   # ordem decrescente

# Ordenar por múltiplas variáveis
dados %>% arrange(var1, var2)       # Ordenar primeiro por var1, depois var2

df: A data frame que contém os dados
variavel: Nome da coluna pela qual você quer ordenar as observações
Use desc() para ordem descrescente (do maior para o menor)
Quando ordenando por múltiplas variáveis, a primeira tem prioridade

Aplicação: Análise de Desempenho

Cenário: Relatório de análise de mercado

Imagine que você é um analista de mercado e precisa identificar rapidamente os países mais promissores para expansão:

# Criando um ranking de países por PIB per capita em 2007
ranking_paises <- gapminder %>%
  filter(year == 2007) %>%                # Filtra dados apenas de 2007
  select(country, continent, gdpPercap) %>% # Seleciona colunas relevantes
  arrange(desc(gdpPercap)) %>%            # Ordena do maior para o menor PIB
  head(6)                                # Mostra os 10 primeiros resultados

# Visualiza o resultado
ranking_paises

# A tibble: 6 × 3
  country          continent gdpPercap
  <fct>            <fct>         <dbl>
1 Norway           Europe       49357.
2 Kuwait           Asia         47307.
3 Singapore        Asia         47143.
4 United States    Americas     42952.
5 Ireland          Europe       40676.
6 Hong Kong, China Asia         39725.

Interpretação Este tipo de ordenação é relevante em análises de mercado para identificar rapidamente os países mais ricos (potenciais mercados premium) ou para encontrar as regiões que precisam de mais atenção (ordenando do menor para o maior).

Erros Comuns e Como Evitá-los

Cuidados ao usar arrange()

Erro	Problema	Solução
Ordem incorreta	`arrange(dados, desc())` sem especificar a variável	`arrange(dados, desc(variavel))`
Tentar ordenar por variável não existente	`arrange(vendas_por_regiao)` quando a coluna não existe	Verificar primeiro os nomes das colunas com `names()`
Não salvar o resultado ordenado	Ordenar mas não atribuir a um objeto	`dados_ordenados <- dados %>% arrange(...)`

Lembre-se: A ordenação é temporária se você não salvar o resultado em um novo objeto!

Resumo: Função arrange()

O que você precisa lembrar

Para que serve: Ordenar as linhas (observações) com base nos valores de uma ou mais colunas
Sintaxe básica:

dados %>% arrange(variavel)         # ordem crescente 
dados %>% arrange(desc(variavel))   # ordem decrescente

Usos comuns em negócios:
- Criar rankings de vendedores, produtos ou regiões
- Identificar os maiores clientes (Top 10)
- Encontrar problemas (itens com menor desempenho)
- Preparar dados para relatórios e apresentações
Lembre-se sempre:
- Use desc() para ordem decrescente
- Para ordenar por múltiplas colunas: arrange(var1, var2)
- Salve o resultado em um novo objeto!

dados_ordenados <- dados %>% arrange(...)

Sua Vez

Exercícios Práticos

Nível 1: Primeiros Passos

Complete o código abaixo para ordenar os países por expectativa de vida (do maior para o menor):

paises_ordenados <- gapminder %>%
  filter(year == 2007) %>%
  arrange(___(___))

Escreva um código para listar os 5 países com menor PIB per capita em 2007.

Nível 2: Aplicação em Negócios

Imagine que você trabalha no departamento internacional de uma empresa. Crie uma lista dos países das Américas ordenados por população (do maior para o menor) em 2007.
Desafio: Crie um ranking dos continentes baseado na expectativa de vida média de seus países em 2007. Use group_by(), summarize() e arrange().

Dica: Lembre-se de usar head() para limitar o número de resultados quando necessário!

Resumo e Bibliografia Recomendada

Resumo das Funções dplyr

Resumo das seis funções principais

Função	Propósito
`dplyr::filter()`	Seleciona linhas baseadas em condições
`dplyr::select()`	Seleciona colunas específicas
`dplyr::mutate()`	Cria ou modifica colunas
`dplyr::group_by()`	Agrupa dados por categorias
`dplyr::summarize()`	Calcula estatísticas resumidas
`dplyr::arrange()`	Ordena linhas

Lembre-se: O poder do dplyr está em combinar estas funções com o operador pipe %>%

Bibliografia Recomendada

Atualizando os Repositórios

Instruções

No terminal do RStudio, verifique quais arquivos/pastas foram modificados ou criados com:

git status

Você pode adicionar todos os arquivos de uma vez com:

git add .

Execute git status novamente para confirmar que todos os arquivos foram adicionados (aparecerão em verde sob “Changes to be committed”):

git status

Se tudo estiver em verde, faça um commit com uma mensagem descritiva:

git commit -m "atualizacoes aula 8"

Se algum arquivo ou pasta ainda aparecer em vermelho após o segundo git status, adicione as pastas/arquivos um por um:

git add relatorios/04-relatorio/04-relatorio.qmd

Execute git status novamente e faça o commit quando todos os arquivos estiverem em verde:

git commit -m "atualizacoes aula 8"

Envie o repositório local atualizado para o GitHub:

git push origin main

Introdução à Ciência de Dados

Diário de Bordo

Nesta Aula

Introdução ao Pacote dplyr

Arquivo para esta Aula

CRISP-DM - Fases 2 e 3

Um Princípio desta Disciplina

O que é o dplyr?

O dplyr no Ecossistema R

A Filosofia Tidy Data (Dados Organizados)

Dados Organizados (Tidy Data)

Uma Analogia para o dplyr

Operações Comuns em Análise de Dados

Por que usar o dplyr?

Por que usar o dplyr?

Comparando Abordagens

Fluxo de trabalho com dplyr

Um Exemplo Prático Completo

Conexão com o Relatório Junglivet

Pacote dplyr

Pacote dplyr

Boas Práticas com dplyr

Dados dos Exemplos

Pacote gapminder

Pacote gapminder

Data Frame gapminder: Fase 1 (CRISP-DM)

Data Frame gapminder: Fase 2 (CRISP-DM)

Data Frame gapminder

Função select()

O que é a função select()?

Função select()

Sintaxe da função select()

Exemplo: Análise Financeira Simplificada

Técnicas de Seleção Avançadas

Técnicas de Seleção Avançadas

Erros Comuns e Como Evitá-los

Exemplo: Salvando o resultado

Pacote dplyr e o operador %>%

Operador Pipe: A “cola” da gramática dplyr

Operador Pipe

Dica

Função select() e o Operador Pipe

Resumo: Função select()

Sua vez

Função dplyr::filter()

O que é a função filter()?

O que é a função filter()?

O que é a função filter()?

Sintaxe da função filter()

Operadores para construir condições

Operadores para construir condições

Exemplo básico

Pensando como um Analista de Negócios

Múltiplas condições com filter()

Filtrando com operadores relacionais

Combinando filter() com outras funções

Erros Comuns e Como Evitá-los

Exemplo Completo Comum

Resumo: Função filter()

Sua vez

Função mutate()

O que é a função mutate()?

Função mutate()

Sintaxe da função mutate()

Aplicação: Análise de Vendas

Mutações Simples

Criando categorias com ifelse()

Criando KPIs com ifelse()

Múltiplas Categorias com case_when()

Quando usar ifelse() vs. case_when()?

Erros Comuns e Como Evitá-los

Resumo: Função mutate()

Sua vez

Função group_by() e summarize()

O que são as funções group_by() e summarize()?

Funções group_by() e summarize()

Sintaxe das funções group_by() e summarize()

Exemplo: Análise Financeira por Continente

Funções Estatísticas Mais Usadas com summarize()

Agrupando por Múltiplas Variáveis

Pacote dplyr e o operador `%>%`