Introdução à Ciência de Dados

Mestrado Profissional em Administração

Prof. Washington Santos da Silva

IFMG - Campus Formiga

27 de março de 2025

Nesta Aula

Tópicos

  • Apresentação da Disciplina
  • Introdução e Contextualização
  • O que é Ciência de Dados?
  • Pesquisa Reproduzível e Ciência de Dados
  • Papéis Profissionais
  • Aplicações
  • Habilidades Interpessoais e Analíticas
  • Apresentação da Disciplina
  • Referências

Apresentação da Disciplina

Ambiente da Disciplina

Site

Introdução e Contextualização

Histórico da Economia de Dados

O Nascimento da Economia de Dados

  • Raízes Iniciais (Século XIX): As primeiras aplicações de dados para entender o público começaram com pesquisas de jornais nos EUA na década de 1820 para prever resultados eleitorais.

  • Era do Marketing (1910-1930): Pioneiros como Charles Coolidge Parlin (1911) e empresas como J. Walter Thompson iniciaram departamentos de pesquisa para estudar setores inteiros e comportamento do consumidor.

  • Revolução Estatística (1930-1950): George Gallup revolucionou a pesquisa aplicando técnicas de amostragem estatística para prever comportamentos, superando métodos cientificamente frágeis.

  • Observação vs. Perguntas (1950-1980): Nielsen e outras empresas desenvolveram sistemas para monitorar hábitos de consumo e mídia, descobrindo que “observar é melhor que perguntar”.

Histórico da Economia de Dados

O Nascimento da Economia de Dados

  • Era Digital (1990-2000): Com códigos de barras e cartões de fidelidade, empresas como Tesco começaram a trocar descontos por dados dos clientes.

  • Revolução das Mídias Sociais (2004-presente): Plataformas como Facebook e Google transformaram a coleta de dados em escala global, criando perfis detalhados dos usuários.

  • Era dos Grandes Modelos (2018-presente): Os LLMs e outros sistemas de IA avançados representam o ápice da economia de dados, treinados com volumes massivos de informações para gerar capacidades preditivas e generativas sem precedentes.

  • Futuro (2020s): Evolução para modelos de aprendizado federado que protegem a privacidade enquanto continuam permitindo insights valiosos, com IA desenvolvida para funcionar em arquiteturas descentralizadas

Histórico da Economia de Dados

Referências

Volume de Dados Gerados

A cada:

  • Compra online
  • Uso de redes sociais
  • Uso do GPS do seu smartphone
  • Você produz dados valiosos para a economia de dados do séc. XXI.

Big Data - The Economist

Capa Histórica - Dilúvio de Dados - 25/02/2010

Big Data - HBR

Capa de Outubro/2012

The Economist - Outra Capa Histórica

O Recurso mais Valioso do Mundo: Dados - 06/05/2017

O Nascimento de Uma Nova Área/Profissão

Resumo

Vimos:

  • o nascimento da economia de ou baseada em dados…

  • a explosão no volume de dados na primeria década dos anos 2000 e os desafios que isso trouxe…

  • mas afinal, por que surgiu a necessidade de uma nova área chamada Ciência de Dados?

O que é Ciência de Dados?

O que é Ciência de Dados?

Figura 1: Super-homem/mulher?

Metodologias Criadas

Figura 2: CRISP-DM

Modelo de Projeto de Ciência de Dados Típico

Figura 3: R for Data Science

Pesquisa Reproduzível e Ciência de Dados

O que é Pesquisa Reproduzível?

Definição

  • Reprodutibilidade: Capacidade de um pesquisador independente obter os mesmos resultados usando os mesmos dados e métodos.

  • Replicabilidade: Capacidade de obter resultados consistentes usando novos dados, mas seguindo o mesmo método.

  • Transparência metodológica: Documentação clara e completa de todos os passos da pesquisa, desde a coleta de dados até a análise final.

Por que a Reprodutibilidade é Relevante?

Figura 4: https://www.nature.com/articles/533452a

Por que a Reprodutibilidade é Relevante?

Importância

  • Crise de Reprodutibilidade: Diversos campos científicos enfrentam dificuldades em reproduzir resultados publicados (computação, medicina, psicologia, economia…)

  • Confiança na Ciência: A reprodutibilidade fortalece a credibilidade da pesquisa científica.

  • Avanço do Conhecimento: Permite que outros pesquisadores construam sobre trabalhos existentes com confiança.

  • Eficiência no Processo Científico: Reduz o desperdício de recursos em tentativas de replicar resultados não reproduzíveis.

Ferramentas para Pesquisa Reproduzível

Ecossistema Tecnológico

  • Controle de versão (Git/GitHub): Rastreamento de mudanças no código e colaboração transparente.

  • Análises baseadas em scripts: Uso de linguagens como R e Python em vez de ferramentas point-and-click.

  • Documentos computacionais (Quarto/Jupyter): Integração de código, visualizações e texto explicativo em um único documento.

  • Ambientes computacionais reproduzíveis: Uso de tecnologias como Docker, renv ou virtualenv.

  • Dados abertos e compartilhados: Disponibilização de conjuntos de dados em repositórios públicos ou sob demanda.

O Pesquisador como Cientista de Dados

Convergência de Papéis

  • Habilidades compartilhadas: Manipulação de dados, análise estatística, visualização, programação e comunicação.

  • Fluxo de trabalho semelhante: Formulação de perguntas, coleta e preparação de dados, análise, interpretação e comunicação.

  • Mentalidade de verificação: Validação rigorosa de resultados e questionamento constante das próprias conclusões.

  • Implementação metodológica: Transformação de teoria em código executável e verificável.

Benefícios Acadêmicos da Reprodutibilidade

Impacto na Carreira Acadêmica

  • Maior visibilidade e citações: Trabalhos reproduzíveis tendem a ser mais citados.

  • Colaborações ampliadas: Facilita parcerias multidisciplinares e internacionais.

  • Detecção precoce de erros: Revisão por pares mais eficaz.

  • Legado científico durável: Pesquisas continuam úteis e verificáveis por mais tempo.

  • Requisito crescente: Cada vez mais periódicos e agências de fomento exigem práticas reproduzíveis.

Valor para o Mercado

Aplicações Empresariais

  • Auditabilidade de decisões: Rastreamento do processo decisório baseado em dados.

  • Transferência de conhecimento: Facilita a integração de novos membros à equipe.

  • Escalabilidade de soluções: Modelos documentados podem ser adaptados para novos contextos.

  • Manutenção e atualização: Redução de custos para manter e atualizar soluções analíticas.

  • Conformidade regulatória: Atende a requisitos de transparência em setores regulados (finanças, saúde).

Desafios da Pesquisa Reproduzível

Barreiras a Superar

  • Curva de aprendizado: Domínio de ferramentas computacionais e boas práticas.

  • Tempo adicional: Preparação da documentação e organização meticulosa.

  • Infraestrutura tecnológica: Necessidade de armazenamento e computação adequados.

  • Mudança cultural: Resistência a novas práticas de trabalho.

  • Restrições de dados: Questões de privacidade, propriedade intelectual ou confidencialidade.

Habilidades para Pesquisa Reproduzível

Competências Essenciais

  • Programação: R e/ou Python para análises baseadas em scripts.

  • Organização de projetos: Estrutura clara de diretórios e arquivos.

  • Documentação: Comentários no código e documentação abrangente.

  • Controle de versão: Uso eficiente de Git/GitHub.

  • Ambientes computacionais: Gerenciamento de dependências e pacotes.

  • Comunicação técnica: Capacidade de explicar métodos e resultados.

  • Pensamento estatístico: Compreensão de incertezas e validação de resultados.

Nesta Disciplina…

Nossa Abordagem

  • Desenvolver as habilidades técnicas e analíticas para conduzir pesquisas reproduzíveis.

  • Utilizar o ecossistema R + RStudio + Quarto + Git/GitHub.

  • Praticar a documentação clara e completa de todo o processo analítico.

Referências sobre Pesquisa Reproduzível

Leituras Recomendadas

Profissionais da Área de Dados

Resumo

  • Visão geral de Ciência de Dados…

  • Agora, quem são os profissionais que compõem as equipes de dados nas organizações?

  • E são muito poucas as empresas no Brasil com setores estruturados nessa área!

Papéis Profissionais

Visão Geral

Papéis em Ciência de Dados

  • Analista de Dados/Business Intelligence
  • Cientista de Dados
  • Engenheiro de Dados
  • Arquiteto de Dados
  • Cientista de Machine Learning
  • Engenheiro de Inteligência Artificial

Analista de Dados

Habilidades Técnicas

  • Domínio de ferramentas de visualização de dados como Power BI/Tableau, conhecimento avançado em planilhas eletrônicas, como MS Excel.

  • Proficiência em linguagens de programação como R e/ou Python.

  • Experiência ou noções básicas e práticas com bancos de dados (SQL).

Habilidades Analíticas

  • Capacidade de realizar análises estatísticas e interpretar grandes volumes de dados para identificar tendências e padrões.

Analista de Dados

Exemplos de Aplicações Práticas

  • Análise de dados em setores como finanças, saúde e turismo, fornecendo insights para melhorar, por exemplo, a gestão de recursos e o atendimento ao cliente.

  • Elaboração de análises descritivas e diagnósticas: a análise descritiva busca entender o que aconteceu, enquanto a análise diagnóstica, qual o motivo – o porquê.

Analista de Business Intelligence

Habilidades Técnicas

  • Proficiência em ferramentas de BI como Power BI/Tableau/Qlik, com foco na criação e manutenção de dashboards.

  • Conhecimento sólido em bancos de dados e linguagem SQL para extração de dados.

  • Familiaridade com ETL (Extração, Transformação e Carga) e data warehousing.

  • Conhecimento em Excel avançado e noções de linguagens como R, e/ou Python.

Habilidades Analíticas

  • Capacidade de traduzir necessidades de negócio em requisitos técnicos para dashboards e relatórios.

  • Habilidade para identificar KPIs relevantes e criar visualizações eficientes.

Analista de BI (Business Intelligence)

Exemplos de Aplicações Práticas

  • Desenvolvimento de painéis interativos para acompanhamento de indicadores de desempenho em áreas como vendas, RH e operações.

  • Criação de relatórios automatizados para apoiar a tomada de decisão estratégica.

  • Foco em análises preditivas e prescritivas: identificar o que pode acontecer e sugerir o que deve ser feito.

Analista de BI vs Analista de Dados

Como as funções se confundem

  • Sobreposição de ferramentas: ambos utilizam ferramentas de visualização como Power BI e conhecimentos em SQL.

  • Foco diferenciado: enquanto o Analista de Dados concentra-se na exploração e interpretação aprofundada dos dados, o Analista de BI foca na criação de soluções de visualização e monitoramento contínuo.

  • Ciclo de trabalho: o Analista de BI tende a trabalhar mais em ciclos regulares (relatórios periódicos), enquanto o Analista de Dados frequentemente trabalha em projetos específicos com prazos definidos.

  • Na prática: em empresas menores, um mesmo profissional frequentemente assume ambos os papéis.

Cientista de Dados (Iniciante)

Habilidades Técnicas

  • Proficiência em linguagens de programação como Python e/ou R, com conhecimento de bibliotecas específicas (pandas, tidyverse, scikit-learn, tidymodels).

  • Conhecimento em SQL e bancos de dados relacionais e não-relacionais.

  • Familiaridade com ferramentas de versionamento (Git) e ambientes de desenvolvimento.

Habilidades Analíticas

  • Conhecimentos em estatística aplicada e modelagem matemática.

  • Capacidade de preparar e transformar conjuntos de dados para análise e modelagem.

  • Capas de Implementar os principais algoritmos de machine learning.

Cientista de Dados (Iniciante)

Exemplos de Aplicações Práticas

  • Desenvolvimento de modelos de classificação e regressão para problemas como previsão, segmentação de clientes e detecção de anomalias.

  • Análises preditivas e prescritivas: utilizando dados históricos para prever comportamentos futuros e recomendar ações.

  • Criação de provas de conceito (POCs) para validação de hipóteses de negócio baseadas em dados.

  • Apresentação de resultados técnicos em formato acessível para partes interessadas não-técnicos.

Outros Papeis em uma Equipe de Dados

Engenheiro de Dados

  • Profissional especializado na construção e manutenção de infraestruturas de dados. Responsável por projetar, desenvolver e otimizar* pipelines de dados, data warehouses e data lakes.

  • Seu foco está em garantir dados de qualidade, acessíveis e escaláveis para as equipes de análise e ciência de dados.

Cientista de Machine Learning (Aprendizagem de Máquina)

  • Especialista focado no desenvolvimento e implementação de algoritmos de aprendizado de máquina avançados para criar modelos preditivos complexos. Domina técnicas deep learning, processamento de linguagem natural e visão computacional.

Outras Habilidades…

Resumo

Além do conhecimento técnico visto nas aplicações…

Quais outras competências são essenciais para profissionais de dados?

Habilidades Interpessoais e Analíticas

Habilidades Interpessoais e Analíticas

Relevantes para Profissionais de Dados

  • Boa comunicação oral e escrita: Saber explicar resultados técnicos para pessoas sem conhecimento técnico, usando linguagem simples e exemplos práticos.

  • Capacidade analítica: Abordar problemas de forma estruturada, fazer as perguntas certas e buscar soluções baseadas em evidências.

  • Pensamento crítico: Questionar suposições, avaliar a qualidade de informações e considerar interpretações alternativas antes de chegar a conclusões.

  • Conhecimento do negócio: Entender os objetivos da empresa, o mercado e como as análises se conectam às metas organizacionais.

  • Narrativa com dados: Capacidade de transformar números e resultados em histórias convincentes que influenciam decisões e destacam os insights mais relevantes.

Habilidades Interpessoais e Analíticas

Relevantes para Profissionais de Dados

  • Trabalho em equipe: Colaborar efetivamente com colegas de diferentes áreas, entender suas necessidades e integrar diferentes perspectivas.

  • Gerenciamento de projetos: Planejar etapas de trabalho, estabelecer prazos realistas e comunicar progresso aos interessados.

  • Adaptabilidade: Lidar bem com mudanças de requisitos, prioridades e tecnologias em um campo em constante evolução.

  • Curiosidade intelectual: Fazer perguntas relevantes, buscar constantemente novos conhecimentos e ter interesse genuíno em explorar dados.

Perfil Profissional Demandado

Trilhas/Certificados Online

Referências

HARKNESS, T. The history of the data economy: Part I: The birth of customer insight. Significance, v. 18, n. 2, p. 12–15, a2021.
___. The history of the data economy: Part II: Analytics arrives. Significance, v. 18, n. 4, p. 16–19, b2021.
___. The history of the data economy: Part III: The new kings and queens of data. Significance, v. 18, n. 5, p. 16–19, c2021.
___. The history of the data economy: Part IV: The future. Significance, v. 18, n. 6, p. 12–15, d2021.