Introdução à Ciência de Dados

Bacharelado em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

28 de março de 2025

O que vimos até o momento?

Tópicos

  • Aula 1 ✅

    • Introdução e Contextualização ✅
    • O que é Ciência de Dados? ✅
    • Papéis Profissionais na Área de Dados ✅
    • Áreas de Aplicações ✅
    • Habilidades Interpessoais e Analíticas ✅
    • Apresentação da Disciplina ✅

Nesta Aula

Tópicos

  • Metodologia CRISP-DM

  • Tipos de Análise

    • Descritiva
    • Diagnóstica
    • Preditiva
    • Prescritiva
  • Configurações: Git/GitHub

Metodologia CRISP-DM: O mapa antes da jornada

Metodologia CRISP-DM: O Mapa Antes da Jornada

O problema do “código antes do plano”

Empresas frequentemente iniciam projetos de dados sem metodologia clara, resultando em:

  • Desalinhamento entre soluções técnicas e necessidades de negócio.

  • Ciclos repetitivos de retrabalho e correções, desperdicio de tempo e recurso.

  • Dificuldade para escalar de projetos-piloto para soluções corporativas.

Metodologia CRISP-DM: O Mapa Antes da Jornada

O papel do administrador

Como futuro administrador, você será responsável por:

  • Garantir que projetos de dados comecem com objetivos de negócio claros.

  • Estabelecer critérios mensuráveis de sucesso antes da implementação técnica.

  • Criar ponte entre equipes técnicas e necessidades organizacionais.

Metodologia CRISP-DM: O Mapa Antes da Jornada

Ferramentas são meios, não fins

R, Python, SQL, Quarto e Git, são ferramentas poderosas, mas:

  • Sem metodologia, mesmo o melhor código pode resolver o problema errado.

  • O CRISP-DM proporciona contexto e direção para aplicação dessas ferramentas.

  • A execução técnica é apenas uma parte (modelagem) do processo completo.

CRISP-DM

CRISP-DM: Metodologia para Ciência de Dados

  • CRISP-DM = Cross-Industry Standard Process for Data Mining.

CRISP-DM como estrutura orientadora

  • Metodologia testada e aprovada para organizar projetos de dados.

  • Ciclo iterativo que começa com compreensão do negócio, não com código.

  • Pontos de verificação claros para avaliar progresso e alinhar expectativas.

  • IBM Corporation (2023)

CRISP-DM - Fases

Fase 1: Compreensão do Negócio (Business Understanding)

Foco: Alinhar análise de dados com objetivos empresariais

Determinar objetivos de negócios: Identificar problemas como “Reduzir a evasão de clientes em 15%” ou “Aumentar vendas cruzadas em lojas físicas”.

Avaliar a situação: Mapear os dados disponíveis, pessoas e ferramentas necessárias, avaliar orçamento e prazo, e identificar restrições operacionais.

Definir objetivos de mineração de dados: Traduzir “Aumentar vendas” em “Criar modelo que identifique clientes com maior propensão à compra de produtos complementares”.

Produzir plano de projeto: Desenvolver cronograma realista com responsáveis, recursos e entregas para cada fase do projeto analítico.

Fase 1: Compreensão do Negócio - Checklist

# Tarefa Resultados
1.1 Determinar objetivos de negócio • Contexto
• Objetivos de negócio
• Critérios de sucesso
1.2 Avaliar situação • Recursos e capacidades
• Requisitos e restrições
• Riscos e contingências
1.3 Determinar objetivos de análise • Objetivos de análise
• Critérios de sucesso técnico
1.4 Produzir plano do projeto • Plano do projeto
• Avaliação de ferramentas

Fase 2: Compreensão dos Dados (Data Understanding)

Foco: Conhecer profundamente os dados disponíveis

Coletar dados iniciais: Extrair dados de vendas do ERP, histórico de interações de CRM ou pesquisas de satisfação de clientes.

Descrever dados: Documentar volume (ex: 50.000 registros), período (últimos 12 meses), formatos e variáveis disponíveis (categóricas/numéricas).

Explorar dados: Analisar distribuições de vendas por região, correlações entre idade e valor de compra, ou sazonalidade em séries temporais.

Verificar qualidade dos dados: Identificar problemas como registros duplicados, valores extremos em preços ou campos incompletos em cadastros.

Fase 2: Compreensão dos Dados - Checklist

# Tarefa Resultados
2.1 Coletar dados iniciais • Relatório de coleta inicial de dados
2.2 Descrever dados • Relatório de descrição dos dados
2.3 Explorar dados • Relatório de exploração dos dados
2.4 Verificar qualidade dos dados • Relatório de qualidade dos dados

Fase 3: Preparação dos Dados (Data Preparation)

Foco: Transformar dados brutos em formato adequado para análise

Selecionar dados: Filtrar apenas clientes ativos nos últimos 6 meses ou selecionar variáveis relevantes para o problema de negócio.

Limpar dados: Corrigir CEPs incorretos, padronizar nomes de produtos ou remover transações duplicadas no sistema.

Construir dados: Criar indicadores como “tempo desde última compra”, “ticket médio” ou categorizar clientes por faixa de valor.

Integrar e formatar dados: Unificar dados de vendas online e offline ou converter datas para formato padronizado adequado para análise.

Fase 3: Preparação dos Dados - Checklist

# Tarefa Resultados
3.1 Selecionar dados • Justificativa para inclusão/exclusão
3.2 Limpar dados • Relatório de limpeza de dados
3.3 Construir dados • Atributos derivados
• Registros gerados
3.4 Integrar dados • Dados mesclados
3.5 Formatar dados • Dados reformatados
• Conjunto de dados
• Descrição do conjunto de dados

Fase 4: Modelagem (Modeling)

Foco: Aplicar técnicas analíticas para extrair insights dos dados

Selecionar técnicas de modelagem: Escolher segmentação (K-means) para perfis de clientes ou regressão logística para prever cancelamentos.

Gerar design de teste: Dividir dados em 70% para treino e 30% p ara teste, garantindo representação de todos os segmentos de clientes.

Construir modelos: Ajustar parâmetros do algoritmo, como número de clusters ou variáveis preditoras, baseado nos dados preparados.

Avaliar modelos tecnicamente: Analisar métricas como precisão (87%), recall (76%) ou coeficiente de silhueta para modelos de segmentação.

Fase 4: Modelagem - Checklist

# Tarefa Resultados
4.1 Selecionar técnicas de modelagem • Técnica de modelagem
• Pressupostos de modelagem
4.2 Gerar design de teste • Design de teste
4.3 Construir modelo • Configurações de parâmetros
• Modelos
• Descrições dos modelos
4.4 Avaliar modelo • Avaliação do modelo
• Configurações de parâmetros revisadas

Fase 5: Avaliação (Evaluation)

Foco: Verificar se os resultados geram valor para o negócio

Avaliar resultados de negócio: Determinar se o modelo realmente ajuda a reduzir custos de aquisição de clientes ou aumentar conversão.

Revisar processo: Verificar se todas as etapas foram executadas corretamente e se alguma análise adicional seria relevante.

Determinar próximos passos: Decidir entre implementar o modelo em produção, refinar análises ou explorar novas oportunidades identificadas.

Fase 5: Avaliação - Checklist

# Tarefa Resultados
5.1 Avaliar resultados • Avaliação de resultados em relação aos critérios de sucesso
• Modelos aprovados (se houver)
5.2 Revisar processo • Revisão do processo
5.3 Determinar próximos passos • Lista de possíveis ações e decisões

Fase 6: Implementação (Deployment) - Checklist

Foco: Transformar modelos em ferramentas de decisão empresarial

Planejar implementação: Definir como integrar previsões do modelo ao sistema de gestão ou aos processos de tomada de decisão.

Monitorar e manter: Estabelecer KPIs para acompanhar eficácia do modelo e cronograma para retreinamento com novos dados.

Produzir relatório final: Criar dashboard para gestores ou documento executivo destacando principais descobertas e recomendações.

Revisar projeto: Documentar aprendizados, como “dados de mídia social melhoraram previsões em 12%” para referência em projetos futuros.

Fase 6: Implementação

# Tarefa Resultados
6.1 Planejar Implantação • Plano de implantação
6.2 Planejar Monitoramento e Manutenção • Plano de monitoramento e manutenção
6.3 Produzir relatório final • Relatório final
• Apresentação final
6.4 Revisar projeto • Documentação de experiência

Tipos de Análise

Tipos de Análise

Visão Geral

  • Analytics representa um espectro contínuo de técnicas que evoluem em complexidade e valor estratégico: da compreensão do passado (descritiva) à otimização do futuro (prescritiva).

  • Cada tipo de análise responde a uma pergunta fundamental de negócios, utilizando métodos progressivamente mais sofisticados.

  • As organizações geralmente avançam nesta jornada analítica de forma sequencial, construindo capacidades em cada estágio antes de progredir para o próximo.

  • A maturidade analítica de uma empresa pode ser avaliada pelo equilíbrio e profundidade de implementação destes quatro tipos de análise em seus processos decisórios.

Análise Descritiva

O que aconteceu?

  • Objetivo: Sumarizar dados históricos para identificar padrões e tendências.

  • Técnicas: Estatísticas descritivas, visualizações, dashboards.

  • Complexidade: ★☆☆☆

Exemplos em Administração:

  • Relatório de vendas por canal (físico vs. e-commerce) durante períodos promocionais como Black Friday.

  • Dashboard de monitoramento de indicadores operacionais em tempo real via Power BI.

  • Análise de segmentação de clientes por região e comportamento de compra no varejo.

Análise Diagnóstica

Por que aconteceu?

  • Objetivo: Investigar causas e relações entre variáveis.

  • Técnicas: Correlação, drill-down (detalhamento), segmentação, análise de fatores.

  • Complexidade: ★★☆☆

Exemplos em Administração:

  • Análise dos fatores que influenciaram a queda nas vendas após reajuste de preços.

  • Investigação das causas de aumento no turnover em unidades específicas do negócio.

  • Identificação dos elementos que mais impactam a satisfação do cliente em redes de supermercados brasileiras.

Análise Preditiva

O que provavelmente acontecerá?

  • Objetivo: Prever tendências futuras e comportamentos com base em dados históricos.

  • Técnicas: Regressão, séries temporais, machine learning, classificação.

  • Complexidade: ★★★☆

Exemplos em Administração:

  • Previsão de demanda para produtos sazonais considerando fatores como feriados nacionais.

  • Modelo de propensão à inadimplência para empresas de crédito como fintechs brasileiras.

  • Previsão de giro de estoque para otimizar compras no setor de varejo farmacêutico.

Análise Prescritiva

O que devemos fazer?

  • Objetivo: Recomendar ações otimizadas com base em análises anteriores.

  • Técnicas: Otimização, simulação, algoritmos de decisão, sistemas de recomendação.

  • Complexidade: ★★★★

Exemplos em Administração:

  • Otimização de mix de produtos por loja baseada em características regionais e perfil do consumidor.

  • Sistema de recomendação personalizada para clientes de e-commerce baseado em histórico e tendências.

  • Definição automática de rotas logísticas considerando restrições urbanas específicas de grandes cidades brasileiras.

Referências

IBM CORPORATION. Guia do IBM SPSS Modeler CRISP-DM. [s.l.] IBM Corporation, 2023.