Introdução à Ciência de Dados

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

10 de abril de 2025

Diário de Bordo

O que vimos até aqui?

  • Aula 1 ✅

    • Apresentação da Disciplina ✅
    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Pesquisa Reproduzível e Ciência de Dados ✅
    • Papéis Profissionais ✅
    • Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅
    • Configurações: Git/GitHub ✅
  • Aula 2

    • Metodologia CRISP-DM
    • Tipos de Análise de Dados
    • Introdução ao RStudio e criação do seu Projeto da Disciplina
    • Introdução ao Sistema de Publicação Quarto
    • Introdução ao Git e GitHub: controle de versão e criação do seu repositório no GitHub

Nesta Aula

Tópicos

  • Breve Revisão sobre o RStudio

  • Sistema de Publicação Quarto: (Continuação)

  • Introdução ao Git e GitHub: (Continuação)

  • Sessão Prática: Fluxo de trabalho integrando RStudio/Quarto/R/Git/GitHub

Diretrizes para Aulas Mais Produtivas

⌨️ Código com método:

95% dos erros são evitáveis com:

  • Atenção na digitação
  • Respeitar a sequência lógica de etapas
  • Revisão antes de pedir ajuda

🤝 Inteligência colaborativa:

  • Compartilhe conhecimento
  • Resolva questões técnicas simples com colegas próximos
  • Reserve ao professor as dúvidas conceituais complexas

💪 Capacidade de Resolver Problemas

Cada erro resolvido é uma evolução da sua habilidade analítica

Breve Revisão sobre o RStudio

O que é o RStudio?

Um Ambiente de Desenvolvimento Integrado (Integrated Development Environment, IDE)

  • IDE que suporta múltiplas linguagens (R, Python, SQL, C++…), mas é especialmente útil para a linguage R

  • Facilita a escrita de código, gerenciamento de projetos, criação de documentos computacionais (arquivos quarto, scripts, notebooks…)

  • Integra ferramentas para desenvolvimento, depuração e publicação

Interface do RStudio

Interface do RStudio

Interface do RStudio

Painel Superior Esquerdo: - Editor de código - Documentos Quarto (.qmd) - Scripts R (.R)

Painel Inferior Esquerdo: - Console R (execução de comandos R) - Terminal (acesso ao sistema operacional)

Painel Superior Direito: - Ambiente (variáveis e objetos) - Histórico de comandos - Conexões - Git (controle de versão)

Painel Inferior Direito: - Arquivos - Pacotes - Ajuda - Visualização (documentos html)

Instalação de Pacotes R

Usando a Guia Packages

Para instalar pacotes usando a guia Packages no RStudio:

  • Clique na guia Packages.

  • Clique em Install Packages.

  • Digite o nome de cada pacote que deseja instalar separados por um espaço ou vírgula na caixa de texto, ou copie os pacotes abaixo e cole na caixa de texto:

tidyverse here usethis fs

Console vs Terminal no RStudio

Console

  • Ambiente de execução da linguagem R
  • Interpreta comandos R diretamente
  • Para análises interativas

Terminal

  • Interface para o sistema operacional
  • Executa comandos do shell (Git Bash, PowerShell, etc.)
  • Acesso a Git, pip, npm e outras ferramentas
  • Permite navegação pelo sistema de arquivos

Projetos RStudio

O que são projetos RStudio?

  • Unidades organizacionais para seu trabalho
  • Cada projeto tem sua própria pasta
  • Facilita a organização de arquivos relacionados
  • Permite integração com controle de versão (Git)

Etapas para Criar um Projeto RStudio com Git/GitHub

Etapas para Criar um Projeto RStudio com Git

  1. Criar repositório (vazio) no GitHub

  2. Clonar o repositório para seu computador

  3. Criar o projeto RStudio na pasta clonada

  4. Vamos executar estas etapas.

Criando um projeto RStudio

Etapa 1: Criar Repositório Vazio no GitHub

  • Acesse sua conta no GitHub: github.com

  • Selecione “Create repository

  • No campo abaixo de Repository name, digite o nome do repositório, ex: “seunome_icd2025_projeto

    • Caso tenha criado um projeto Rstudio na última aula, utilize um nome diferente do projeto que você criou.

    • NÃO USE acentos, espaços vazios ou caracteres especiais 😡

  • Agora, apenas clique em “Create repository”, no canto inferior esquerdo da página.

Criando um projeto RStudio

Etapa 2: Clonar Repositório para seu Computador (Windows)

  1. Na página do repositório vazio que você acaba de criar no GitHub

  2. Copie o endereço https exibido

  3. Abra o Windows Explorer e entre na pasta onde você irá guardar a pasta do repositório que vamos clonar

    • Computadores do Laboratório: pasta Downloads (recomendada)

    • Notebook Próprio: alguns criaram a pasta github na última aula, se sim, entre nesta pasta.

  4. Clique com o botão direito do mouse em um espaço vazio desta pasta e selecione “Git Bash Here” (Caso necessário, clique em Mais opções)

  5. No terminal Git Bash que abrir, digite git clone, espaço, e cole o endereço do repositório que você criou clicando no botão direito do mouse e em Paste:

git clone https://github.com/mariasilva/seunome_icd2025_projeto.git

Criando um projeto RStudio

1. Clique no menu Project: Canto Superior Direito

Criando um projeto RStudio

2. Escolha Existing Directory

Criando um projeto RStudio

3. Clique em Browse, encontre e clique na pasta do repositório clonado e em Create Project

RStudio: Atalhos de Teclado Úteis

Ação Windows/Linux macOS
exibe todos os atalhos Ctrl+Shift+P Option+Shift+K
Completar código Tab ou Ctrl+Espaço Tab ou Ctrl+Espaço
Procurar e substituir Ctrl+F Cmd+F
Indentar código Tab (com texto selecionado) Tab (com texto selecionado)
Desindentar código Shift+Tab (com texto selecionado) Shift+Tab (com texto selecionado)
Mover para linha Alt+G Option+G
Selecionar todas ocorrências Alt+Shift+A Ctrl+Option+G

Guia de Consulta Rápida (Resumão)

Sistema de Publicação Quarto: (Continuação)

O que é o sistema de publicação Quarto?

Definição

  • É um sistema de publicação científica e técnica de código aberto que une texto narrativo e código para produzir documentos elegantemente formatados.

  • Com o Quarto, você pode criar diversos produtos:

    • Relatórios (html, pdf, docx )
    • Apresentações (RevealJS, Beamer,…)
    • Dashboards, websites, blogs e livros

O que é o sistema de publicação Quarto?

Figura 1: Sistema Quarto: um formato, diversos produtos.

Como funciona o Quarto?

Figura 2: Funcionamento do Sistema Quarto com a linguagem R.

Definição

  • Quando você renderiza um arquivo Quarto (que possui a extensão .qmd) contendo código R, primeiro o pacote knitr da linguagem R executa todas as células de código R e cria um novo arquivo markdown (.md), que inclui o código e sua saída.

  • O arquivo markdown gerado é então processado pelo programa pandoc, que gera o formato escolhido.

  • O botão Render do Rstudio encapsula essas ações e as executa na ordem correta para você.

Sistema Quarto e RStudio

Integração com RStudio

No RStudio, você pode criar e editar arquivos Quarto facilmente:

  • File → New File → Quarto Document
  • Botão “Render” para renderizar o arquivo.

Por que usar o sistema Quarto?

Principais benefícios

  • Reprodutibilidade: Documenta todo o processo de análise de dados, garantindo que seu trabalho possa ser reproduzido.

  • Integração de código e narrativa: Combina texto explicativo, código e resultados em um único documento.

  • Múltiplos formatos de saída: Gera diferentes formatos (html, pdf, docs, apresentações) a partir do mesmo arquivo fonte.

  • Atualizações automáticas: Ao modificar dados ou código, basta renderizar o documento para atualizar todos os resultados.

Anatomia de um Arquivo Quarto

Anatomia de um Arquivo Quarto

Nota

Um arquivo Quarto (.qmd) consiste de três elementos fundamentais:

  1. Metadados (YAML): Controla o formato e opções do documento
  2. Texto em Markdown: O conteúdo narrativo do documento
  3. Células de Código: Código executável com suas opções

Metadados (YAML)

---
title: "Análise de Vendas"
author: "Seu Nome"
format: 
  html:
    toc: true
    theme: cosmo
execute:
  echo: true
  warning: false
---

Atenção à indentação!

  • A sintaxe YAML é sensível à indentação
  • Use sempre 2 espaços para aninhar elementos
  • Erros de indentação são a causa mais comum de problemas

Texto em Markdown

Código Markdown:

# Título da seção

Este é um parágrafo com **texto em negrito** e *itálico*.

- Item da lista
- Outro item
  - Subitem

[Link para tutorial](https://website.com)

Tutorial completo

Acesse o tutorial sobre Markdown para mais detalhes.

Células de Código

Exemplo de célula de código R básica:

```{r}
x <- 1:10
mean(x)
```

Como inserir células de código quarto no RStudio?

Você pode adicionar uma célula de código de três maneiras:

  1. Usando o atalho de teclado: Ctrl+Alt+I (Windows/Linux) ou Cmd+Option+I (Mac).

  2. Clicando no ícone CInsert a new code chunk” na barra superior de ferramentas do RStudio e selecionando “R”.

  3. Digitando manualmente os delimitadores de célula: ```{r} e `````.

Células de Código

Exemplo de célula de código R com opções:

```{r}
#| echo: true
#| warning: false
#| message: false

# Esta célula mostrará o código (echo: true), 
# mas ocultará avisos (warning) e mensagens
library(dplyr)
mtcars %>% 
  group_by(cyl) %>%
  summarise(
    n = n(),
    mpg_média = mean(mpg, na.rm = TRUE)
  )
```

Figura com legenda

```{r}
#| label: fig-1
#| fig-cap: "Gráfico de dispersão entre qualidade e fornecedor."

# Boxplot da qualidade por fornecedor de malte

ggplot(dados_destilaria_limpos, aes(x = fornecedor_malte, y = indicador_qualidade)) +
  # Cria boxplots para representar a distribuição dos dados
  geom_boxplot() +
  # Aplica um tema minimalista para melhor visualização
  theme_minimal() +
  # Define títulos e rótulos dos eixos
  labs(title = "Qualidade do Whisky por Fornecedor de Malte",
       x = "Fornecedor",
       y = "Pontuação de Qualidade")
```

Opções comuns para células de código

Opção Descrição Exemplo
echo Mostrar o código? #| echo: true
eval Executar o código? #| eval: true
warning Mostrar avisos? #| warning: false
message Mostrar mensagens? #| message: false
label Identificador único para uma figura #| label: fig-analise
fig-cap Legenda da figura #| fig-cap: "Gráfico de dispersão"

Opções comuns para células de código

Configuração global

Defina opções de código para todo o documento no YAML:

execute:
  echo: false
  warning: false
  message: false

Demonstração no RStudio

Sessão Prática

Agora vamos ver um documento Quarto em ação no RStudio:

  1. Abra o arquivo:

    • relatorios/01-relatorio/01-relatorio-html.qmd do seu projeto RStudio.

Tutorial completo

Para informações mais detalhadas sobre o sistema Quarto, consulte o tutorial sobre Quarto

Fluxo de Trabalho com Arquivos Quarto

Executar primeiro, renderizar depois!

  1. Elabore gradualmente seu arquivo quarto

    • Escreva uma seção de texto e/ou célula de código de cada vez
    • Evite escrever muitas células de código sem testá-las
  2. Execute individualmente as células de código

    • Clique em para executar uma célula de código.
  3. Somente depois de testar o código de todas as células, renderize o documento completo. Este fluxo:

    • Facilita identificar e corrijir erros previamente
    • Verificação de resultados intermediários
    • Economiza tempo e evita frustrações

Fluxo de Trabalho com Arquivos Quarto

Dicas Adicionais

  • Salve seu arquivo frequentemente (Ctrl+S)

  • Use a opção eval: false para “desativar” temporariamente células de código com problemas:

```{r}
#| eval: false

# Esta célula inteira será exibida mas não será executada
dados <- read_csv("arquivo_com_problema.csv")
```
  • Atualize pacotes regularmente para evitar incompatibilidades

Solução de Problemas

Erros comuns e como resolvê-los

  • Tipos comuns de erros:

    • Erro de sintaxe: parênteses faltando, vírgulas, etc.
    • Nome de objeto inexistente
    • Pacote não carregado
    • Arquivo ou caminho não encontrado
  • Para depurar erros:

    • Verifique se os pacotes estão instalados e carregados
    • Verifique o caminho relativo do arquivo de dados
    • Peça ajuda a um LLM (chatgpt) para corrigir o erro
    • Pesquise a mensagem de erro no google

Dicas para Organização e Prevenção

Mantenha seu projeto organizado

  • Mantenha um Projeto Organzido

    • Mantenha pastas e arquivos organizados
    • Documente a estrutura de pastas/arquivos de um projeto no arquivo README
    • Use caminhos relativos (com here)
  • Mantenha células pequenas e focadas

    • Uma tarefa = uma célula
    • Facilita identificar problemas
    • Melhora legibilidade
  • Use cabeçalhos YAML válidos

    • Copie/adapte de exemplos funcionais
    • Cuidado com a indentação (use espaços, não tabs)

RStudio: Atalhos para Arquivos Quarto

Ação Windows/Linux macOS
Inserir célula de código R Ctrl+Alt+I Cmd+Option+I
Inserir operador pipe (%>%) Ctrl+Shift+M Cmd+Shift+M
Renderizar documento Quarto Ctrl+Shift+K Cmd+Shift+K
Comentar/descomentar linhas Ctrl+Shift+C Cmd+Shift+C

Lembre-se

Todo especialista já foi iniciante!

  • Erros são parte normal do processo de aprendizado
  • Desenvolva a habilidade de ler e interpretar mensagens de erro
  • Pratique regularmente para ganhar fluência
  • O mais importante: Aprenda a ser paciente, detalhista e persistente!

Guia de Consulta Rápida (Resumão)

Cabeçalho para Relatório pdf

---
title: "Caso Junglivet Whisky Company"
subtitle: "Introdução à CRISP-DM, RStudio, Sistema Quarto e Linguagem R"
lang: pt-BR
author: "Seu Nome"
date: 2025-04-02
date-format: long
format:
  typst:
    columns: 1
    toc: true
    papersize: a4
    fontsize: 12pt
    number-sections: true
execute:
  echo: true
  warning: false
  message: false
---

Cabeçalho para Relatório docx

---
title: "Caso Junglivet Whisky Company"
subtitle: "Introdução à CRISP-DM, RStudio, Sistema Quarto e Linguagem R"
lang: pt-BR
author: "Seu Nome"
date: 2025-04-02
format: 
  docx:
    number-sections: true
execute:
  message: false
  warning: false
  echo: true
---

Explorando o Sistema Quarto

Em seu projeto RStudio mpa_icd2025:

  • Crie a subpasta tests dentro da pasta reports

  • Baixe o arquivo aula03.zip do site da disciplina.

  • Descompacte esse arquivo e recorte/copie os seguintes arquivos para a subpasta tests.

    - 01-tests.qmd 
    - referencias.bib
    - associacao-brasileira-de-normas-tecnicas-ipea.csl

Introdução ao Git e GitHub

O que é Git?

Um sistema de controle de versão

  • Um “sistema de salvamento inteligente” que registra cada versão dos seus documentos.

  • Armazena apenas as mudanças entre versões, economizando espaço.

  • Funciona como uma “máquina do tempo” para seu trabalho.

  • Facilita o trabalho em equipe sem conflitos graves.

Comandos essenciais do Git

Comandos Essenciais

Os quatro comandos básicos que você usará com mais frequência (seu fluxo de trabalho padrão no Terminal do RStudio) são:

  • git status: consulta o estado atual dos seus arquivos
  • git add: prepara as mudanças para serem salvas
  • git commit: salva as mudanças no repositório local
  • git push origin main: envia as mudanças para o GitHub

Pense nestes comandos como um processo de 4 passos:

  1. Verificar o que mudou (status).
  2. Adicionar/Selecionar o que você quer salvar (add).
  3. Salvar as mudanças localmente com uma descrição (commit).
  4. Enviar para a nuvem/GitHub (push).

O que é GitHub?

Uma plataforma colaborativa baseada em Git

  • “Nuvem para projetos Git” - armazena seus repositórios online
  • Facilita compartilhamento e colaboração em projetos
  • Oferece ferramentas para revisão de código, discussão e documentação
  • Funciona como um portfólio para profissionais e estudantes

Fluxo de trabalho com Git e GitHub

Figura 3: Fluxo de trabalho Básico

Insira no arquivo .gitignore do seu projeto

# Arquivos de sistema do Windows
Thumbs.db
Desktop.ini

# Arquivos de sistema do MacOS
.DS_Store

# Arquivos do RStudio
.Rproj.user/
.Rhistory
.RData
.Ruserdata

# Arquivos temporários R
*_cache/
/cache/

# Arquivos de saída
*.pdf
*.docx

# Arquivos temporários
*~
.~lock.*
*.tmp
*.bak

Por que ignorar arquivos no Git?

Arquivos Desnecessários

  • Arquivos temporários ou gerados automaticamente

    • .Rhistory, .RData: Histórico e dados da sessão do R.
    • _cache/: Arquivos de cache que podem ser recriados.
    • .Rproj.user/: Configurações pessoais do RStudio.
  • Arquivos específicos do sistema operacional

    • Thumbs.db, .DS_Store: Arquivos de metadados do Windows/Mac.
  • Arquivos de saída/resultados

    • Documentos gerados (pdf…): São resultado do código, não o código em si.

    • Podem ser muito grandes, mudar frequentemente.

Benefícios de um bom .gitignore

Descrição

  • Repositórios mais limpos e leves

    • Menos arquivos = downloads e operações mais rápidas
    • Evita ocupar espaço com arquivos regeneráveis
  • Evita conflitos desnecessários

    • Arquivos de configuração pessoal causariam conflitos entre colaboradores
    • Arquivos binários (PDF, imagens) são difíceis de resolver em conflitos
  • Mantém o foco no que importa

    • Apenas o código-fonte e dados essenciais são versionados
    • Facilita a revisão de mudanças significativas

Boas práticas

Descrição

  • Versionando o que é importante

    • Código-fonte (arquivos .R, .py, .qmd)
    • Dados brutos (se não forem muito grandes)
    • Documentação (.md, README)
  • Ignorando o que é regenerável

    • Resultados que podem ser recriados executando o código
    • Configurações específicas do ambiente de cada usuário
    • Arquivos temporários e de cache

Sua Vez - Git/GitHub

Sessão prática

Vamos executar um fluxo de trabalho básico com Git em seu projeto RStudio para incorporar as mudanças que fizemos na aula de hoje.

Sua Vez - Git/GitHub

Para quem usa máquinas do laboratório

  1. Abra o Git Bash (no Windows) e digite:
git config user.name
  1. Se seu nome de usuário for exibido, pode prosseguirs.

  2. Se não nada for exibido ou se for exibido o nome de outro usuário, você precisará configurar o git nesta máquina com o seu perfil executando os seguintes comandos em sequência:

git config --global user.name "seu_nome_de_usuario"
git config --global user.email "seu_email@exemplo.com"

Para verificar se você está logado no git:

git config user.name

Sua Vez - Git/GitHub

Sessão prática

No terminal do RStudio, execute os seguintes comandos em sequência:

git status
git add .
git status
git commit -m "atualizacoes da aula 5"
git push origin main

Recursos adicionais

Referências