Mestrado Profissional em Administração
IFMG - Campus Formiga
3 de abril de 2025
Diário de Bordo
Aula 1 ✅
Tópicos
Metodologia CRISP-DM
Tipos de Análise de Dados
Introdução ao RStudio e criação do seu Projeto da Disciplina
Introdução ao Sistema de Publicação Quarto
Introdução ao Git e GitHub: controle de versão e criação do seu repositório no GitHub
Sessão Prática: Fluxo de trabalho integrando RStudio/Quarto/R/Git/GitHub
O problema do “código antes do plano”
Empresas frequentemente iniciam projetos de dados sem metodologia clara, resultando em:
Desalinhamento entre soluções técnicas e necessidades de negócio.
Ciclos repetitivos de retrabalho e correções, desperdicio de tempo e recurso.
Dificuldade para escalar de projetos-piloto para soluções corporativas.
O papel do administrador
Como futuro Mestre em Administração, você poderá ser responsável por:
Garantir que projetos de dados comecem com objetivos de negócio claros.
Estabelecer critérios mensuráveis de sucesso antes da implementação técnica.
Criar ponte entre equipes técnicas e necessidades organizacionais.
Ferramentas são meios, não fins
R, Python, SQL, Quarto e Git, são ferramentas poderosas, mas:
Sem metodologia, mesmo o melhor código pode resolver o problema errado.
CRISP-DM proporciona contexto e direção para aplicação dessas ferramentas.
A execução técnica é apenas uma parte (modelagem) do processo completo.
CRISP-DM: Metodologia para Ciência de Dados
CRISP-DM como estrutura orientadora
Metodologia testada e aprovada para organizar projetos de dados.
Ciclo iterativo que começa com compreensão do negócio, não com código.
Pontos de verificação claros para avaliar progresso e alinhar expectativas.
IBM Corporation (2023)
Foco: Alinhar análise de dados com objetivos empresariais
Determinar objetivos de negócios: Identificar problemas como “Reduzir a evasão de clientes em 15%” ou “Aumentar vendas cruzadas em lojas físicas”.
Avaliar a situação: Mapear os dados disponíveis, pessoas e ferramentas necessárias, avaliar orçamento e prazo, e identificar restrições operacionais.
Definir objetivos de mineração de dados: Traduzir “Aumentar vendas” em “Criar modelo que identifique clientes com maior propensão à compra de produtos complementares”.
Produzir plano de projeto: Desenvolver cronograma realista com responsáveis, recursos e entregas para cada fase do projeto analítico.
# | Tarefa | Resultados |
---|---|---|
1.1 | Determinar objetivos de negócio | • Contexto • Objetivos de negócio • Critérios de sucesso |
1.2 | Avaliar situação | • Recursos e capacidades • Requisitos e restrições • Riscos e contingências |
1.3 | Determinar objetivos de análise | • Objetivos de análise • Critérios de sucesso técnico |
1.4 | Produzir plano do projeto | • Plano do projeto • Avaliação de ferramentas |
Foco: Conhecer profundamente os dados disponíveis
Coletar dados iniciais: Extrair dados de vendas do ERP, histórico de interações de CRM ou pesquisas de satisfação de clientes.
Descrever dados: Documentar volume (ex: 50.000 registros), período (últimos 12 meses), formatos e variáveis disponíveis (categóricas/numéricas).
Explorar dados: Analisar distribuições de vendas por região, correlações entre idade e valor de compra, ou sazonalidade em séries temporais.
Verificar qualidade dos dados: Identificar problemas como registros duplicados, valores extremos em preços ou campos incompletos em cadastros.
# | Tarefa | Resultados |
---|---|---|
2.1 | Coletar dados iniciais | • Relatório de coleta inicial de dados |
2.2 | Descrever dados | • Relatório de descrição dos dados |
2.3 | Explorar dados | • Relatório de exploração dos dados |
2.4 | Verificar qualidade dos dados | • Relatório de qualidade dos dados |
Foco: Transformar dados brutos em formato adequado para análise
Selecionar dados: Filtrar apenas clientes ativos nos últimos 6 meses ou selecionar variáveis relevantes para o problema de negócio.
Limpar dados: Corrigir CEPs incorretos, padronizar nomes de produtos ou remover transações duplicadas no sistema.
Construir dados: Criar indicadores como “tempo desde última compra”, “ticket médio” ou categorizar clientes por faixa de valor.
Integrar e formatar dados: Unificar dados de vendas online e offline ou converter datas para formato padronizado adequado para análise.
# | Tarefa | Resultados |
---|---|---|
3.1 | Selecionar dados | • Justificativa para inclusão/exclusão |
3.2 | Limpar dados | • Relatório de limpeza de dados |
3.3 | Construir dados | • Atributos derivados • Registros gerados |
3.4 | Integrar dados | • Dados mesclados |
3.5 | Formatar dados | • Dados reformatados • Conjunto de dados • Descrição do conjunto de dados |
Foco: Aplicar técnicas analíticas para extrair insights dos dados
Selecionar técnicas de modelagem: Escolher segmentação (K-means) para perfis de clientes ou regressão logística para prever cancelamentos.
Gerar design de teste: Dividir dados em 70% para treino e 30% p ara teste, garantindo representação de todos os segmentos de clientes.
Construir modelos: Ajustar parâmetros do algoritmo, como número de clusters ou variáveis preditoras, baseado nos dados preparados.
Avaliar modelos tecnicamente: Analisar métricas como precisão (87%), recall (76%) ou coeficiente de silhueta para modelos de segmentação.
# | Tarefa | Resultados |
---|---|---|
4.1 | Selecionar técnicas de modelagem | • Técnica de modelagem • Pressupostos de modelagem |
4.2 | Gerar design de teste | • Design de teste |
4.3 | Construir modelo | • Configurações de parâmetros • Modelos • Descrições dos modelos |
4.4 | Avaliar modelo | • Avaliação do modelo • Configurações de parâmetros revisadas |
Foco: Verificar se os resultados geram valor para o negócio
Avaliar resultados de negócio: Determinar se o modelo realmente ajuda a reduzir custos de aquisição de clientes ou aumentar conversão.
Revisar processo: Verificar se todas as etapas foram executadas corretamente e se alguma análise adicional seria relevante.
Determinar próximos passos: Decidir entre implementar o modelo em produção, refinar análises ou explorar novas oportunidades identificadas.
# | Tarefa | Resultados |
---|---|---|
5.1 | Avaliar resultados | • Avaliação de resultados em relação aos critérios de sucesso • Modelos aprovados (se houver) |
5.2 | Revisar processo | • Revisão do processo |
5.3 | Determinar próximos passos | • Lista de possíveis ações e decisões |
Foco: Transformar modelos em ferramentas de decisão empresarial
Planejar implementação: Definir como integrar previsões do modelo ao sistema de gestão ou aos processos de tomada de decisão.
Monitorar e manter: Estabelecer KPIs para acompanhar eficácia do modelo e cronograma para retreinamento com novos dados.
Produzir relatório final: Criar dashboard para gestores ou documento executivo destacando principais descobertas e recomendações.
Revisar projeto: Documentar aprendizados, como “dados de mídia social melhoraram previsões em 12%” para referência em projetos futuros.
# | Tarefa | Resultados |
---|---|---|
6.1 | Planejar Implantação | • Plano de implantação |
6.2 | Planejar Monitoramento e Manutenção | • Plano de monitoramento e manutenção |
6.3 | Produzir relatório final | • Relatório final • Apresentação final |
6.4 | Revisar projeto | • Documentação de experiência |
Visão Geral
Analytics representa um espectro contínuo de técnicas que evoluem em complexidade e valor estratégico: da compreensão do passado (descritiva) à otimização do futuro (prescritiva).
Cada tipo de análise responde a uma pergunta fundamental de negócios, utilizando métodos progressivamente mais sofisticados.
As organizações geralmente avançam nesta jornada analítica de forma sequencial, construindo capacidades em cada estágio antes de progredir para o próximo.
A maturidade analítica de uma empresa pode ser avaliada pelo equilíbrio e profundidade de implementação destes quatro tipos de análise em seus processos decisórios.
Na pesquisa acadêmica, estes tipos de análise formam a espinha dorsal metodológica para investigações quantitativas robustas e reproduzíveis.
CRISP-DM na Pesquisa Acadêmica
A metodologia CRISP-DM, embora originalmente desenvolvida para projetos de mineração de dados empresariais, oferece um processo estruturado valioso para pesquisas acadêmicas quantitativas:
Este processo cíclico e iterativo se alinha naturalmente com o método científico.
O que aconteceu?
Objetivo: Sumarizar dados históricos para identificar padrões e tendências.
Técnicas: Estatísticas descritivas, visualizações, dashboards.
Complexidade: ★☆☆☆
Exemplos em Administração:
Relatório de vendas por canal (físico vs. e-commerce) durante períodos promocionais como Black Friday.
Dashboard de monitoramento de indicadores operacionais em tempo real via Power BI.
Análise de segmentação de clientes por região e comportamento de compra no varejo.
Aplicações Acadêmicas
Linha 1: Finanças Comportamentais e Tomada de Decisão
Caracterização da distribuição de retornos em diferentes classes de ativos durante períodos de crise.
Análise comparativa do perfil de investidores individuais por faixa etária e nível educacional.
Mapeamento de padrões de comportamento de investimento antes e após mudanças regulatórias.
Linha 2: Finanças Corporativas e Investimentos
Análise da evolução temporal de indicadores financeiros das empresas listadas no Ibovespa.
Estudo da estrutura de capital de empresas brasileiras por setor econômico.
Caracterização do comportamento de índices de governança corporativa em diferentes ciclos econômicos.
Por que aconteceu?
Objetivo: Investigar causas e relações entre variáveis.
Técnicas: Correlação, drill-down (detalhamento), segmentação, análise de fatores.
Complexidade: ★★☆☆
Exemplos em Administração:
Análise dos fatores que influenciaram a queda nas vendas após reajuste de preços.
Investigação das causas de aumento no turnover em unidades específicas do negócio.
Identificação dos elementos que mais impactam a satisfação do cliente em redes de supermercados brasileiras.
Aplicações Acadêmicas
Linha 1: Finanças Comportamentais e Tomada de Decisão
Investigação dos fatores cognitivos associados ao excesso de confiança em decisões de investimento.
Análise da relação entre aversão à perda e comportamento de investimento em diferentes cenários econômicos.
Estudo dos determinantes sociodemográficos do comportamento de poupança e investimento no Brasil.
Linha 2: Finanças Corporativas e Investimentos
Análise dos fatores que influenciam as decisões de estrutura de capital em empresas familiares.
Investigação da relação entre práticas de governança corporativa e valorização de ações em mercados emergentes.
Identificação das variáveis que impactam a eficácia de estratégias de hedging em empresas exportadoras brasileiras.
O que provavelmente acontecerá?
Objetivo: Prever tendências futuras e comportamentos com base em dados históricos.
Técnicas: Regressão, séries temporais, machine learning, classificação.
Complexidade: ★★★☆
Exemplos em Administração:
Previsão de demanda para produtos sazonais considerando fatores como feriados nacionais.
Modelo de propensão à inadimplência para empresas de crédito como fintechs brasileiras.
Previsão de giro de estoque para otimizar compras no setor de varejo farmacêutico.
Aplicações Acadêmicas
Linha 1: Finanças Comportamentais e Tomada de Decisão
Modelagem preditiva do comportamento de investidores individuais em cenários de volatilidade usando dados de questionários e transações.
Previsão de tendências de investimento ESG com base em fatores comportamentais e sociodemográficos.
Desenvolvimento de modelos para prever susceptibilidade a vieses cognitivos específicos em diferentes perfis de investidores.
Linha 2: Finanças Corporativas e Investimentos
Previsão do desempenho de IPOs brasileiros com base em características da empresa e condições de mercado.
Modelagem de volatilidade de ativos financeiros em períodos de instabilidade política usando GARCH e variantes.
Previsão da probabilidade de default corporativo combinando indicadores contábeis e dados de mercado.
O que devemos fazer?
Objetivo: Recomendar ações otimizadas com base em análises anteriores.
Técnicas: Otimização, simulação, algoritmos de decisão, sistemas de recomendação.
Complexidade: ★★★★
Exemplos em Administração:
Otimização de mix de produtos por loja baseada em características regionais e perfil do consumidor.
Sistema de recomendação personalizada para clientes de e-commerce baseado em histórico e tendências.
Definição automática de rotas logísticas considerando restrições urbanas específicas de grandes cidades brasileiras.
Aplicações Acadêmicas
Linha 1: Finanças Comportamentais e Tomada de Decisão
Desenvolvimento de frameworks de decisão que mitigam vieses cognitivos em decisões de investimento de longo prazo.
Criação de algoritmos de recomendação para educação financeira personalizada com base no perfil comportamental do investidor.
Modelagem de estratégias de nudging financeiro para otimizar comportamentos de poupança e investimento.
Linha 2: Finanças Corporativas e Investimentos
Otimização de portfólios de investimento considerando preferências de risco não-lineares e restrições regulatórias brasileiras.
Modelagem de estratégias ótimas de emissão de dívida corporativa em cenários de instabilidade econômica.
Desenvolvimento de algoritmos para timing ideal de operações de fusões e aquisições baseados em indicadores macroeconômicos e setoriais.
Qual é a relação de causa e efeito?
Objetivo: Estabelecer relações causais robustas entre variáveis, além de meras correlações.
Técnicas: Experimentos controlados, experimentos naturais, diferenças-em-diferenças, regressão descontínua, variáveis instrumentais, métodos de pareamento.
Complexidade: ★★★★
Importância na Pesquisa Acadêmica:
Aplicações Acadêmicas
Linha 1: Finanças Comportamentais e Tomada de Decisão
Experimentos controlados para identificar o efeito causal da apresentação de informações financeiras sobre decisões de investimento.
Uso de choques econômicos exógenos para avaliar mudanças causais na tolerância ao risco dos investidores.
Análise do impacto causal de programas de educação financeira sobre comportamentos de poupança usando desenhos experimentais.
Linha 2: Finanças Corporativas e Investimentos
Uso de métodos de diferenças-em-diferenças para avaliar o efeito causal de mudanças regulatórias sobre decisões de investimento corporativo.
Emprego de variáveis instrumentais para identificar o impacto causal da governança corporativa sobre o valor da empresa.
Aplicação de regressão descontínua para avaliar o efeito causal do rating de crédito sobre o custo de capital das empresas.
Abordagem Metodológica Completa
Uma pesquisa acadêmica robusta em finanças frequentemente combina múltiplos tipos de análise:
Análise Descritiva: Exploração e caracterização inicial dos dados financeiros
Análise Diagnóstica: Identificação de relações e padrões entre variáveis financeiras
Análise Causal: Estabelecimento de relações de causa e efeito nas questões financeiras
Análise Preditiva: Desenvolvimento de modelos para previsão de comportamentos financeiros
Análise Prescritiva: Recomendações baseadas em evidências para decisões financeiras
Esta abordagem integrada fortalece tanto a validade interna quanto externa da pesquisa.
Autonomia na Resolução de Problemas
Os códigos são testados previamente - erros costumam ser de digitação ou por pular etapas.
Revise seu código com atenção antes de solicitar ajuda.
Colabore com colegas próximos para resolver questões técnicas simples.
Reserve as dúvidas ao professor para conceitos ou problemas mais complexos.
Ambiente de Aprendizado Colaborativo
Compartilhe conhecimento - explicar conceitos solidifica seu próprio entendimento.
Ao ajudar um colega, oriente sem resolver por ele.
Lembre-se: o progresso de cada um contribui para o aprendizado coletivo.
Desenvolvimento de Sofisticação Técnica
A habilidade de resolver problemas técnicos é valiosa em qualquer área de atuação.
“Aprenda a aprender” - invista tempo explorando além do que é apresentado em aula.
O objetivo não é apenas dominar ferramentas, mas desenvolver os pensamentos analítico e crítico.
Persista diante dos desafios - a resolução de erros é parte fundamental do processo de aprendizagem.
Documente suas descobertas para criar um repositório pessoal de conhecimento.
Um Ambiente de Desenvolvimento Integrado (Integrated Development Environment, IDE)
IDE que suporta múltiplas linguagens (R, Python, SQL, C++…), mas é especialmente útil para a linguage R
Facilita a escrita de código, gerenciamento de projetos, criação de documentos computacionais (arquivos quarto, scripts, notebooks…)
Integra ferramentas para desenvolvimento, depuração e publicação
Interface do RStudio
Painel Superior Esquerdo: - Editor de código - Documentos Quarto (.qmd
) - Scripts R (.R
)
Painel Inferior Esquerdo: - Console R (execução de comandos) - Terminal (acesso ao sistema)
Painel Superior Direito: - Ambiente (variáveis e objetos) - Histórico de comandos - Conexões - Git (controle de versão)
Painel Inferior Direito: - Arquivos - Pacotes - Ajuda - Visualização (gráficos, documentos HTML)
Usando a Guia Packages
Para instalar pacotes usando a guia Packages no RStudio:
Clique na guia Packages.
Clique em Install Packages.
Digite o nome de cada pacote que deseja instalar separados por um espaço ou vírgula na caixa de texto, ou copie os pacotes abaixo e cole na caixa de texto:
O que são projetos RStudio?
Visão Geral
Nesta aula, vamos criar um projeto estruturado para nossas análises
Seguiremos um fluxo organizado usando GitHub, Git e RStudio
O objetivo é criar uma estrutura padronizada para todos os alunos
Por que criar projetos estruturados?
Organização dos arquivos e códigos
Facilidade para compartilhar seu trabalho
Reprodutibilidade das análises
Integração com controle de versão
Boas práticas para ciência de dados
Etapas do Processo
Importante: Mudança de Estratégia
Na aula anterior, criamos projetos RStudio locais que tentamos enviar ao GitHub com usethis::use_github()
Muitos tiveram problemas com tokens de autenticação
Hoje, usaremos uma abordagem mais direta: GitHub → Local → RStudio
Se você já criou um projeto, temos duas opções:
Como migrar um projeto existente
Se deseja preservar arquivos do projeto anterior:
Siga todas as etapas para criar o novo projeto
Copie manualmente os arquivos importantes do projeto anterior para a nova estrutura
Não copie o arquivo .Rproj do projeto antigo
Certifique-se de que os arquivos estejam nas pastas corretas da nova estrutura
1. Crie um Repositório no GitHub
Acesse sua conta no GitHub (github.com)
Clique no botão “+” no canto superior direito
Selecione “New repository”
Nomeie seu repositório como “mpa_icd2025”
Deixe como “Public”
Não adicione README, .gitignore ou licença agora
Clique em “Create repository”
Atenção com o nome do repositório
Use exatamente “mpa_icd2025” como nome
Respeite letras maiúsculas e minúsculas
Não use espaços ou caracteres especiais
Como obter o link do repositório para clonar?
Vá para a página do seu repositório no GitHub
Clique no botão verde “Code”
Copie a *URL HTTPS** exibida
2. Clone o Repositório (Windows)
Se você usa Windows:
Crie uma pasta em seu computador onde deseja guardar o projeto
Navegue até essa pasta no Windows Explorer
Clique com o botão direito em um espaço vazio e selecione “Git Bash Here”
No terminal Git Bash que abrir, digite git clone
e cole o endereço do repositório clicando no botão direito do mouse e em Paste
3. Crie um Projeto RStudio
Abra o RStudio
Clique em Project → New Project
Selecione Existing Directory
Clique em Browse e navegue até a pasta “mpa_icd2025” que você acabou de clonar
Selecione a pasta e clique em Open
Clique em Create Project
Estrutura do Projeto
mpa_icd2025/
├── dados/
│ ├── brutos/ # Dados originais, sem processamento
│ └── limpos/ # Dados após limpeza e transformações
├── relatorios/ # Relatórios em Quarto
│ └── 01-relatorio/ # Relatório HTML
| └── 02-relatorio/ # Relatório PDF a ser criado
| └── 03-relatorio/ # Relatório DOCX a ser criado
└── mpa_icd2025.Rproj # Arquivo do projeto RStudio
└── README.md # Arquivo de documentação do projeto
Crie a Estrutura de Pastas
No RStudio, no painel Files (canto inferior direito):
Clique em New Folder e crie a pasta “dados”
Dentro da pasta “dados”, crie as subpastas “brutos” e “limpos”
Volte à pasta principal, clique em “New Folder” e crie a pasta “relatorios”
Dentro da pasta “relatorios”, crie as subpastas “01-relatorio”, “02-relatorio” e “03-relatorio”
Adicione os Arquivos Necessários
Baixe o arquivo 01-relatorio-html.qmd
do site da disciplina
Salve-o dentro da pasta “relatorios/01-relatorio”
Baixe o arquivo productionlog_sample.zip
do site da disciplina
Descompacte o arquivo baixado
Salve o arquivo descompactado dentro da pasta “dados/brutos”
Como descompactar arquivos ZIP?
Windows: Clique com o botão direito no arquivo ZIP → Extract All
MacOS: Dê um duplo clique no arquivo ZIP (em versões atuais, um arquivo zip é automaticamente descompactado após o download)
Linux: Clique com o botão direito → Extract Here ou use o comando unzip no terminal
Verificando o Projeto
Seu projeto deve ter a seguinte estrutura:
mpa_icd2025/
├── dados/
│ ├── brutos/
│ │ └── productionlog_sample.csv
│ └── limpos/
├── relatorios/
│ ├── 01-relatorio/
│ │ └── 01-relatorio-html.qmd
│ ├── 02-relatorio/
│ └── 03-relatorio/
├── mpa_icd2025.Rproj
└── README.md
Parabéns!!! 👏
Você acaba de criar um projeto estruturado para a disciplina
Esta estrutura organizará nosso trabalho ao longo do semestre
Nos próximos encontros, aprenderemos a utilizar o RStudio,Sistema Quarto, R, Git e GitHub para análise de dados
Definição e importância
É um arquivo de documentação em formato Markdown que serve como porta de entrada para seu repositório.
Normalmente, é o primeiro arquivo que as pessoas visualizam ao acessar seu repositório no GitHub.
Funciona como a “página inicial” do seu projeto, explicando:
Benefícios para a disciplina:
Passos
No menu superior do RStudio clique em:
File
-> New File
-> Markdown File
Salve o arquivo com o nome README.md
na raíz do seu projeto RStudio.
# Introdução à Ciência dos Dados - Mestrado em Administração (2025/1)
Este repositório contém materiais e projetos desenvolvidos para a disciplina
de Introdução à Ciência dos Dados do Programa de Mestrado em Administração,
cursada no primeiro semestre de 2025.
## Objetivos de Aprendizagem
Nesta disciplina, estou desenvolvendo competências em Ciência de Dados
aplicadas à pesquisa em Administração. Isso inclui:
- Aplicação da metodologia CRISP-DM em projetos de análise de dados para
pesquisa
- Domínio do ambiente RStudio para análises estatísticas e tratamento
de dados
- Elaboração de relatórios reproduzíveis com o sistema Quarto
- Estruturação e organização de projetos de pesquisa quantitativa
- Implementação de práticas de controle de versão com Git e GitHub
- Utilização da linguagem R para análise de dados em pesquisas acadêmicas
- Desenvolvimento de habilidades para análise crítica de dados no contexto
de tomada de decisão
## Estrutura do Projeto (Organização das Pastas)
- **dados/**
- **brutos/**: Arquivos de dados originais, sem alterações
- **limpos/**: Dados processados e preparados para análise
- **relatorios/**
- **01_relatorio/**: Relatório exploratório em formato HTML
- **02_relatorio/**: Relatório analítico em formato PDF
- **03_relatorio/**: Relatório executivo em formato DOCX
## Aplicações na Pesquisa
Este projeto serve como base metodológica para a aplicação de técnicas
de ciência de dados tanto nas linhas de pesquisa específicas do Mestrado
em Finanças quanto em outros contextos de análise de dados em Administração.
### Aplicações em Outros Contextos de Administração
As técnicas e metodologias aprendidas também podem ser aplicadas em:
- Análises de marketing e comportamento do consumidor
- Estudos de gestão de operações e processos
- Análises de recursos humanos e comportamento organizacional
- Pesquisas em sustentabilidade e responsabilidade social
- Estudos em estratégia e inovação empresarial
## Princípios Metodológicos
- **Reprodutibilidade:** Todo o processo analítico deve ser documentado
de forma que outros pesquisadores possam reproduzir os resultados.
- **Transparência:** Explicitar todas as etapas de coleta, tratamento e \
análise de dados.
- **Rigor metodológico:** Aplicar técnicas estatísticas apropriadas
ao contexto da pesquisa.
- **Ética na pesquisa:** Respeitar princípios éticos no uso e apresentação
dos dados.
## Aplicação na Dissertação
[Neste espaço, reflita sobre como as técnicas e ferramentas aprendidas
na disciplina podem ser aplicadas em sua pesquisa de dissertação.
Considere aspectos como coleta de dados, análise estatística, visualização
e apresentação de resultados.]
## Anotações e Insights Metodológicos
[Registre dicas, reflexões, insights metodológicos e lições aprendidas
durante o processo de análise de dados]
- Dica 1
- Lição 1
# Glossário de Termos
Este glossário apresenta uma **versão inicial** dos termos relacionados
às ferramentas, tecnologias e métodos que utilizaremos na disciplina de
Introdução à Ciência de Dados, com ênfase em sua aplicação na pesquisa
acadêmica.
> **IMPORTANTE**: Este é apenas um ponto de partida. Você deve assumir o
protagonismo na ampliação e manutenção deste glossário, adicionando novos
termos e conceitos à medida que avança no seu aprendizado. Anote definições
de conceitos que encontrar durante as aulas e leituras, reescreva explicações
com suas próprias palavras e personalize este recurso para que ele realmente
apoie seu desenvolvimento na disciplina e em sua pesquisa de dissertação.
O glossário que você construir será uma ferramenta valiosa não apenas
durante a disciplina e no desenvolvimento de seu projeto de dissertação,
mas também em seus futuros estudos e atividades profissionais. Consulte-o e, principalmente, enriqueça-o sempre que encontrar termos ou conceitos
importantes.
## A
**Ambiente de Desenvolvimento Integrado (IDE)**: Software que combina
editor de código ou texto, console, gerenciamento de arquivos e outras
ferramentas para facilitar o desenvolvimento de software.
## C
**Cabeçalho YAML**: Seção no início de um documento Quarto, delimitada
por três traços (---), onde são definidos metadados e opções de formatação
para o documento.
**Células de Código** (*Code Chunks*): Blocos de código em um arquivo
quarto que podem ser executados, gerando resultados que são incluídos
no documento final.
**Chave-valor** (*key-value*): Formato de dados usado em YAML que
associa um nome de propriedade (chave) a um conteúdo ou configuração
específica (valor).
**Clone**: Cópia completa de um repositório, incluindo todos os arquivos,
histórico e branches, para o computador local.
**Código Inline**: Código R incorporado diretamente no texto de um
documento Quarto, indicado pela sintaxe `` `r ` ``, que é executado
durante a renderização.
**Commit**: "Fotografia" do estado do projeto em um determinado
momento feita pelo Git, com uma mensagem descritiva das alterações
realizadas.
**Conflito**: Situação onde o Git não consegue mesclar automaticamente
alterações de diferentes fontes porque ambas modificaram a mesma parte
de um arquivo.
**Console**: Interface de linha de comando onde os códigos R são
executados interativamente e os resultados são mostrados imediatamente.
## E
**echo**: Opção de célula de código que controla se o código fonte
é exibido (true) ou ocultado (false) no documento quarto final.
**Editor de texto/código**: Componente de um IDE onde você escreve e
edita o código antes de executá-lo.
**eval**: Opção de célula de código que determina se o código deve
ser executado (true) ou não (false) durante a renderização de
um arquivo quarto.
## F
**fig-cap**: Opção de célula de código que adiciona uma legenda a
uma figura gerada pelo código em um arquivo quarto.
**Formato de Saída**: Tipo de documento final gerado pelo Quarto,
como HTML, PDF, DOCX, apresentações, entre outros.
## G
**Git**: Sistema de controle de versão distribuído que registra
alterações em arquivos ao longo do tempo.
**Git Bash**: Terminal especial instalado com o Git no Windows que
permite executar comandos Git e outros comandos Unix.
**GitHub**: Plataforma online que hospeda repositórios Git e oferece
ferramentas adicionais para colaboração e desenvolvimento de projetos.
## H
**Hash**: Identificador único (como `f7d2e09`) gerado para cada commit,
permitindo referenciar versões específicas dos arquivos.
## I
**Indentação**: Espaçamento consistente utilizado no YAML para indicar
hierarquia e aninhamento de opções, crucial para o funcionamento
correto dos metadados.
**Issue**: Funcionalidade do GitHub para rastrear tarefas, melhorias,
bugs e outras questões relacionadas a um projeto.
## K
**knitr**: Pacote R responsável por executar o código R em documentos
Quarto, transformando (ou renderizando) o arquivo .qmd em um arquivo
markdown intermediário (.md).
## L
**Linguagem de Marcação**: Sistema de anotações inseridas em um
texto para definir como ele deve ser estruturado, formatado ou
apresentado. Ao contrário das linguagens de programação que executam
comandos, as linguagens de marcação utilizam tags ou comandos para
identificar elementos do documento (como títulos, parágrafos,
listas) sem se preocupar com a lógica computacional. Exemplos
incluem HTML (para páginas web), XML (para dados estruturados),
LaTeX (para documentos científicos) e Markdown (usada no Quarto
para formatação simplificada de texto).
## M
**Main**: Branch principal de um repositório Git (anteriormente
chamado de "master").
**Markdown**: Linguagem de marcação leve usada para formatar textos
nos documentos Quarto, permitindo cabeçalhos, listas, negrito,
itálico, links, entre outros elementos.
**Metadados**: Informações sobre o documento (como título, autor,
data, formato) definidas no cabeçalho YAML de um arquivo quarto.
## O
**Origin**: Nome padrão dado ao repositório remoto (normalmente no
GitHub) a partir do qual um repositório local foi clonado.
## P
**Pacote**: Coleção de funções, dados e documentação que estende
as funcionalidades da linguagem R.
**Painel** (*Pane*): Áreas da interface do RStudio que contêm
diferentes ferramentas, como editor, console, ambiente, etc.
**Pandoc**: Ferramenta universal de conversão de documentos que
o Quarto utiliza para transformar arquivos markdown em formatos
finais como HTML, PDF e DOCX.
**Projeto RStudio**: Sistema que organiza arquivos relacionados a
uma análise específica em uma estrutura coerente, facilitando a
organização e reprodutibilidade.
**Pull**: Ação de baixar as alterações do repositório remoto (GitHub)
para o repositório local, atualizando-o.
**Push**: Ação de enviar commits do repositório local para o
repositório remoto (GitHub).
**Publicação Técnica e Científica**: Processo de criar e disseminar
documentos com conteúdo acadêmico ou técnico, seguindo padrões
estabelecidos de formatação e referenciação.
## Q
**QMD**: Extensão de arquivo (.qmd) específica dos documentos Quarto,
que contém texto em Markdown, células de código e metadados YAML.
**Quarto**: Sistema de publicação científica e técnica de código
aberto que permite combinar código, texto narrativo, equações e
visualizações em um único documento. Sucessor do R Markdown.
## R
**R**: Linguagem de programação especializada em análise estatística e
visualização de dados.
**Referência Cruzada**: Recurso que permite fazer referência a elementos
como figuras, tabelas e seções em qualquer parte do documento usando
identificadores únicos.
**Render**: Processo de transformar um arquivo Quarto (.qmd) em seu
formato final (HTML, PDF, etc.), executando código e formatando o
conteúdo conforme as especificações.
**Repositório**: Coleção de arquivos e pastas de um projeto, junto
com o histórico completo de alterações.
**Repositório Local**: Versão do repositório armazenada no seu
computador.
**Repositório Remoto**: Versão do repositório armazenada em um
servidor (como o GitHub).
**Reprodutibilidade**: Princípio que permite que outros pesquisadores
e profissionais possam replicar exatamente os mesmos resultados
utilizando os mesmos dados e códigos. No contexto corporativo, garante
a auditabilidade de análises, facilita a transferência de conhecimento
entre equipes, permite verificação de resultados por diferentes
stakeholders e assegura a continuidade de projetos mesmo com
mudanças de pessoal.
## S
**Stage/Staging Area**: Área intermediária onde as alterações são
adicionadas (via `git add`) antes de serem definitivamente salvas
em um commit.
## T
**Terminal**: Interface de linha de comando onde os comandos Git
são executados.
**TOC** (*Table of Contents*): Sumário ou índice automático gerado
pelo Quarto com base na estrutura de títulos e subtítulos do documento.
**Typst**: Sistema moderno de tipografia utilizado pelo Quarto como
alternativa ao LaTeX para produzir documentos PDF com alta qualidade
tipográfica.
## W
**warning**: Opção de célula de código que controla se os avisos
gerados durante a execução do código são exibidos (true) ou ocultados
(false) no documento quarto final.
**Working Directory**: Diretório local onde os arquivos do projeto
estão sendo editados ativamente.
## Y
**YAML** (*Yet Another Markup Language*): Linguagem de serialização
de dados legível por humanos usada para os metadados de documentos
Quarto, caracterizada pelo formato de pares chave-valor e indentação
significativa.
Como manter seu README atualizado
Definição
É um sistema de publicação científica e técnica de código aberto que une texto narrativo e código para produzir documentos elegantemente formatados.
Com o Quarto, você pode criar diversos produtos:
Figura 1: Sistema Quarto: um formato, diversos produtos.
Figura 2: Funcionamento do Sistema Quarto com a linguagem R.
Definição
Quando você renderiza um arquivo Quarto (que possui a extensão .qmd
) contendo código R, primeiro o pacote knitr da linguagem R executa todas as células de código R e cria um novo arquivo markdown (.md
), que inclui o código e sua saída.
O arquivo markdown gerado é então processado pelo programa pandoc, que gera o formato escolhido.
O botão Render
do Rstudio encapsula essas ações e as executa na ordem correta para você.
Integração com RStudio
No RStudio, você pode criar e editar arquivos Quarto facilmente:
Principais benefícios
Reprodutibilidade: Documenta todo o processo de análise de dados, garantindo que seu trabalho possa ser reproduzido.
Integração de código e narrativa: Combina texto explicativo, código e resultados em um único documento.
Múltiplos formatos de saída: Gera diferentes formatos (html, pdf, docs, apresentações) a partir do mesmo arquivo fonte.
Atualizações automáticas: Ao modificar dados ou código, basta renderizar o documento para atualizar todos os resultados.
Nota
Um arquivo Quarto (.qmd
) consiste de três elementos fundamentais:
---
title: "Análise de Vendas"
author: "Seu Nome"
format:
html:
toc: true
theme: cosmo
execute:
echo: true
warning: false
---
Atenção à indentação!
Código Markdown:
# Título da seção
Este é um parágrafo com **texto em negrito** e *itálico*.
- Item da lista
- Outro item
- Subitem
[Link para tutorial](https://website.com)
Tutorial completo
Acesse o tutorial sobre Markdown para mais detalhes.
Exemplo de célula de código R básica:
Como inserir células de código quarto no RStudio?
Você pode adicionar uma célula de código de três maneiras:
Usando o atalho de teclado: Ctrl+Alt+I
(Windows/Linux) ou Cmd+Option+I
(Mac).
Clicando no ícone C “Insert a new code chunk” na barra superior de ferramentas do RStudio e selecionando “R”.
Digitando manualmente os delimitadores de célula: ```{r}
e `````.
Exemplo de célula de código R com opções:
```{r}
#| label: fig-1
#| fig-cap: "Gráfico de dispersão entre qualidade e fornecedor."
# Boxplot da qualidade por fornecedor de malte
ggplot(dados_destilaria_limpos, aes(x = fornecedor_malte, y = indicador_qualidade)) +
# Cria boxplots para representar a distribuição dos dados
geom_boxplot() +
# Aplica um tema minimalista para melhor visualização
theme_minimal() +
# Define títulos e rótulos dos eixos
labs(title = "Qualidade do Whisky por Fornecedor de Malte",
x = "Fornecedor",
y = "Pontuação de Qualidade")
```
Opção | Descrição | Exemplo |
---|---|---|
echo |
Mostrar o código? | #| echo: true |
eval |
Executar o código? | #| eval: true |
warning |
Mostrar avisos? | #| warning: false |
message |
Mostrar mensagens? | #| message: false |
label |
Identificador único para uma figura | #| label: fig-analise |
fig-cap |
Legenda da figura | #| fig-cap: "Gráfico de dispersão" |
Configuração global
Defina opções de código para todo o documento no YAML:
Vamos à prática!
Agora vamos ver um documento Quarto em ação no RStudio:
Tutorial completo
Para informações detalhadas sobre o sistema Quarto, consulte o tutorial sobre Quarto
---
title: "Caso Junglivet Whisky Company"
subtitle: "Introdução à CRISP-DM, RStudio, Sistema Quarto e Linguagem R"
lang: pt-BR
author: "Seu Nome"
date: 2025-04-02
date-format: long
format:
typst:
columns: 1
toc: true
papersize: a4
fontsize: 12pt
number-sections: true
execute:
echo: true
warning: false
message: false
---
Um sistema de controle de versão
Um “sistema de salvamento inteligente” que registra cada versão dos seus documentos.
Armazena apenas as mudanças entre versões, economizando espaço.
Funciona como uma “máquina do tempo” para seu trabalho.
Facilita o trabalho em equipe sem conflitos graves.
Comandos Essenciais
Os quatro comandos básicos que você usará com mais frequência (seu fluxo de trabalho padrão no Terminal do RStudio) são:
git status
: consulta o estado atual dos seus arquivosgit add
: prepara as mudanças para serem salvasgit commit
: salva as mudanças no repositório localgit push origin main
: envia as mudanças para o GitHubPense nestes comandos como um processo de 4 passos:
status
).add
).commit
).push
).Uma plataforma colaborativa baseada em Git
Métodos de integração
Vamos usar a função use_github()
do pacote usethis
para criar e publicar um projeto RStudio local em repositório do GitHub.
No Console R do Rstudio digite (ou copie e cole) o seguinte comando:
Figura 3: Fluxo de trabalho Básico
Arquivos Desnecessários
Arquivos temporários ou gerados automaticamente
.Rhistory
, .RData
: Histórico e dados da sessão do R._cache/
: Arquivos de cache que podem ser recriados..Rproj.user/
: Configurações pessoais do RStudio.Arquivos específicos do sistema operacional
Thumbs.db
, .DS_Store
: Arquivos de metadados do Windows/Mac.Arquivos de saída/resultados
Documentos gerados (pdf…): São resultado do código, não o código em si.
Podem ser muito grandes, mudar frequentemente.
Descrição
Repositórios mais limpos e leves
Evita conflitos desnecessários
Mantém o foco no que importa
Descrição
Versionando o que é importante
Ignorando o que é regenerável
Demonstração prática
Vamos executar um fluxo de trabalho básico com Git e publicar o projeto RStudio que você criou no GitHub usando usethis::use_github()
.
Para aprofundamento
Prof. Washington Silva - Introdução à Ciência de Dados