Mestrado Profissional em Administração
IFMG - Campus Formiga
27 de março de 2025
Tópicos
Site
Vamos instalar os programas necessários.
O Nascimento da Economia de Dados
Raízes Iniciais (Século XIX): As primeiras aplicações de dados para entender o público começaram com pesquisas de jornais nos EUA na década de 1820 para prever resultados eleitorais.
Era do Marketing (1910-1930): Pioneiros como Charles Coolidge Parlin (1911) e empresas como J. Walter Thompson iniciaram departamentos de pesquisa para estudar setores inteiros e comportamento do consumidor.
Revolução Estatística (1930-1950): George Gallup revolucionou a pesquisa aplicando técnicas de amostragem estatística para prever comportamentos, superando métodos cientificamente frágeis.
Observação vs. Perguntas (1950-1980): Nielsen e outras empresas desenvolveram sistemas para monitorar hábitos de consumo e mídia, descobrindo que “observar é melhor que perguntar”.
O Nascimento da Economia de Dados
Era Digital (1990-2000): Com códigos de barras e cartões de fidelidade, empresas como Tesco começaram a trocar descontos por dados dos clientes.
Revolução das Mídias Sociais (2004-presente): Plataformas como Facebook e Google transformaram a coleta de dados em escala global, criando perfis detalhados dos usuários.
Era dos Grandes Modelos (2018-presente): Os LLMs e outros sistemas de IA avançados representam o ápice da economia de dados, treinados com volumes massivos de informações para gerar capacidades preditivas e generativas sem precedentes.
Futuro (2020s): Evolução para modelos de aprendizado federado que protegem a privacidade enquanto continuam permitindo insights valiosos, com IA desenvolvida para funcionar em arquiteturas descentralizadas
A cada:
Capa Histórica - Dilúvio de Dados - 25/02/2010
Capa de Outubro/2012
O Recurso mais Valioso do Mundo: Dados - 06/05/2017
Resumo
Vimos:
o nascimento da economia de ou baseada em dados…
a explosão no volume de dados na primeria década dos anos 2000 e os desafios que isso trouxe…
mas afinal, por que surgiu a necessidade de uma nova área chamada Ciência de Dados?
O que é Ciência de Dados?
Pode parecer intimidador, mas em essência:
Trata-se de uma abordagem estruturada para extrair significado e valor das enormes quantidades de dados gerados diariamente.
Figura 1: Super-homem/mulher?
Figura 2: CRISP-DM
Figura 3: R for Data Science
Definição
Reprodutibilidade: Capacidade de um pesquisador independente obter os mesmos resultados usando os mesmos dados e métodos.
Replicabilidade: Capacidade de obter resultados consistentes usando novos dados, mas seguindo o mesmo método.
Transparência metodológica: Documentação clara e completa de todos os passos da pesquisa, desde a coleta de dados até a análise final.
Figura 4: https://www.nature.com/articles/533452a
Importância
Crise de Reprodutibilidade: Diversos campos científicos enfrentam dificuldades em reproduzir resultados publicados (computação, medicina, psicologia, economia…)
Confiança na Ciência: A reprodutibilidade fortalece a credibilidade da pesquisa científica.
Avanço do Conhecimento: Permite que outros pesquisadores construam sobre trabalhos existentes com confiança.
Eficiência no Processo Científico: Reduz o desperdício de recursos em tentativas de replicar resultados não reproduzíveis.
Ecossistema Tecnológico
Controle de versão (Git/GitHub): Rastreamento de mudanças no código e colaboração transparente.
Análises baseadas em scripts: Uso de linguagens como R e Python em vez de ferramentas point-and-click.
Documentos computacionais (Quarto/Jupyter): Integração de código, visualizações e texto explicativo em um único documento.
Ambientes computacionais reproduzíveis: Uso de tecnologias como Docker, renv ou virtualenv.
Dados abertos e compartilhados: Disponibilização de conjuntos de dados em repositórios públicos ou sob demanda.
Convergência de Papéis
Habilidades compartilhadas: Manipulação de dados, análise estatística, visualização, programação e comunicação.
Fluxo de trabalho semelhante: Formulação de perguntas, coleta e preparação de dados, análise, interpretação e comunicação.
Mentalidade de verificação: Validação rigorosa de resultados e questionamento constante das próprias conclusões.
Implementação metodológica: Transformação de teoria em código executável e verificável.
Impacto na Carreira Acadêmica
Maior visibilidade e citações: Trabalhos reproduzíveis tendem a ser mais citados.
Colaborações ampliadas: Facilita parcerias multidisciplinares e internacionais.
Detecção precoce de erros: Revisão por pares mais eficaz.
Legado científico durável: Pesquisas continuam úteis e verificáveis por mais tempo.
Requisito crescente: Cada vez mais periódicos e agências de fomento exigem práticas reproduzíveis.
Aplicações Empresariais
Auditabilidade de decisões: Rastreamento do processo decisório baseado em dados.
Transferência de conhecimento: Facilita a integração de novos membros à equipe.
Escalabilidade de soluções: Modelos documentados podem ser adaptados para novos contextos.
Manutenção e atualização: Redução de custos para manter e atualizar soluções analíticas.
Conformidade regulatória: Atende a requisitos de transparência em setores regulados (finanças, saúde).
Barreiras a Superar
Curva de aprendizado: Domínio de ferramentas computacionais e boas práticas.
Tempo adicional: Preparação da documentação e organização meticulosa.
Infraestrutura tecnológica: Necessidade de armazenamento e computação adequados.
Mudança cultural: Resistência a novas práticas de trabalho.
Restrições de dados: Questões de privacidade, propriedade intelectual ou confidencialidade.
Competências Essenciais
Programação: R e/ou Python para análises baseadas em scripts.
Organização de projetos: Estrutura clara de diretórios e arquivos.
Documentação: Comentários no código e documentação abrangente.
Controle de versão: Uso eficiente de Git/GitHub.
Ambientes computacionais: Gerenciamento de dependências e pacotes.
Comunicação técnica: Capacidade de explicar métodos e resultados.
Pensamento estatístico: Compreensão de incertezas e validação de resultados.
Nossa Abordagem
Desenvolver as habilidades técnicas e analíticas para conduzir pesquisas reproduzíveis.
Utilizar o ecossistema R + RStudio + Quarto + Git/GitHub.
Praticar a documentação clara e completa de todo o processo analítico.
Leituras Recomendadas
WILSON, G. et al. Good enough practices in scientific computing. PLOS Computational Biology, v. 13, n. 6, 2017. https://doi.org/10.1371/journal.pcbi.1005510
PRUIM, R., GÎRJĂU, M.-C., & HORTON, N. J. (2023). Fostering Better Coding Practices for Data Scientists. Harvard Data Science Review, 5(3). https://doi.org/10.1162/99608f92.97c9f60f
BROMAN, K. W.; WOO, K. H. Data organization in spreadsheets. The American Statistician, v. 72, n. 1, p. 2-10, 2018. https://doi.org/10.1080/00031305.2017.1375989
Resumo
Visão geral de Ciência de Dados…
Agora, quem são os profissionais que compõem as equipes de dados nas organizações?
E são muito poucas as empresas no Brasil com setores estruturados nessa área!
Nota: Utilize uma imagem representativa do ecossistema de dados.
Habilidades Técnicas
Domínio de ferramentas de visualização de dados como Power BI/Tableau, conhecimento avançado em planilhas eletrônicas, como MS Excel.
Proficiência em linguagens de programação como R e/ou Python.
Experiência ou noções básicas e práticas com bancos de dados (SQL).
Habilidades Analíticas
Exemplos de Aplicações Práticas
Análise de dados em setores como finanças, saúde e turismo, fornecendo insights para melhorar, por exemplo, a gestão de recursos e o atendimento ao cliente.
Elaboração de análises descritivas e diagnósticas: a análise descritiva busca entender o que aconteceu, enquanto a análise diagnóstica, qual o motivo – o porquê.
Habilidades Técnicas
Proficiência em ferramentas de BI como Power BI/Tableau/Qlik, com foco na criação e manutenção de dashboards.
Conhecimento sólido em bancos de dados e linguagem SQL para extração de dados.
Familiaridade com ETL (Extração, Transformação e Carga) e data warehousing.
Conhecimento em Excel avançado e noções de linguagens como R, e/ou Python.
Habilidades Analíticas
Capacidade de traduzir necessidades de negócio em requisitos técnicos para dashboards e relatórios.
Habilidade para identificar KPIs relevantes e criar visualizações eficientes.
Exemplos de Aplicações Práticas
Desenvolvimento de painéis interativos para acompanhamento de indicadores de desempenho em áreas como vendas, RH e operações.
Criação de relatórios automatizados para apoiar a tomada de decisão estratégica.
Foco em análises preditivas e prescritivas: identificar o que pode acontecer e sugerir o que deve ser feito.
Como as funções se confundem
Sobreposição de ferramentas: ambos utilizam ferramentas de visualização como Power BI e conhecimentos em SQL.
Foco diferenciado: enquanto o Analista de Dados concentra-se na exploração e interpretação aprofundada dos dados, o Analista de BI foca na criação de soluções de visualização e monitoramento contínuo.
Ciclo de trabalho: o Analista de BI tende a trabalhar mais em ciclos regulares (relatórios periódicos), enquanto o Analista de Dados frequentemente trabalha em projetos específicos com prazos definidos.
Na prática: em empresas menores, um mesmo profissional frequentemente assume ambos os papéis.
Habilidades Técnicas
Proficiência em linguagens de programação como Python e/ou R, com conhecimento de bibliotecas específicas (pandas, tidyverse, scikit-learn, tidymodels).
Conhecimento em SQL e bancos de dados relacionais e não-relacionais.
Familiaridade com ferramentas de versionamento (Git) e ambientes de desenvolvimento.
Habilidades Analíticas
Conhecimentos em estatística aplicada e modelagem matemática.
Capacidade de preparar e transformar conjuntos de dados para análise e modelagem.
Capas de Implementar os principais algoritmos de machine learning.
Exemplos de Aplicações Práticas
Desenvolvimento de modelos de classificação e regressão para problemas como previsão, segmentação de clientes e detecção de anomalias.
Análises preditivas e prescritivas: utilizando dados históricos para prever comportamentos futuros e recomendar ações.
Criação de provas de conceito (POCs) para validação de hipóteses de negócio baseadas em dados.
Apresentação de resultados técnicos em formato acessível para partes interessadas não-técnicos.
Engenheiro de Dados
Profissional especializado na construção e manutenção de infraestruturas de dados. Responsável por projetar, desenvolver e otimizar* pipelines de dados, data warehouses e data lakes.
Seu foco está em garantir dados de qualidade, acessíveis e escaláveis para as equipes de análise e ciência de dados.
Cientista de Machine Learning (Aprendizagem de Máquina)
Resumo
Além do conhecimento técnico visto nas aplicações…
Quais outras competências são essenciais para profissionais de dados?
Relevantes para Profissionais de Dados
Boa comunicação oral e escrita: Saber explicar resultados técnicos para pessoas sem conhecimento técnico, usando linguagem simples e exemplos práticos.
Capacidade analítica: Abordar problemas de forma estruturada, fazer as perguntas certas e buscar soluções baseadas em evidências.
Pensamento crítico: Questionar suposições, avaliar a qualidade de informações e considerar interpretações alternativas antes de chegar a conclusões.
Conhecimento do negócio: Entender os objetivos da empresa, o mercado e como as análises se conectam às metas organizacionais.
Narrativa com dados: Capacidade de transformar números e resultados em histórias convincentes que influenciam decisões e destacam os insights mais relevantes.
Relevantes para Profissionais de Dados
Trabalho em equipe: Colaborar efetivamente com colegas de diferentes áreas, entender suas necessidades e integrar diferentes perspectivas.
Gerenciamento de projetos: Planejar etapas de trabalho, estabelecer prazos realistas e comunicar progresso aos interessados.
Adaptabilidade: Lidar bem com mudanças de requisitos, prioridades e tecnologias em um campo em constante evolução.
Curiosidade intelectual: Fazer perguntas relevantes, buscar constantemente novos conhecimentos e ter interesse genuíno em explorar dados.
Quinto Andar
Prof. Washington Silva - Introdução à Ciência de Dados