Ciência de Dados em R: Um Tutorial Interativo sobre a Linguagem R
Um tutorial interativo sobre o uso da linguagem R em Ciência de Dados para iniciantes.
1 Introdução
Seja bem-vindo(a) a “Linguagem R: Um Tutorial Interativo”!
Este tutorial foi criado especialmente para estudantes e profissionais das áreas de administração, economia e contabilidade, que buscam aprimorar suas habilidades na análise e modelagem de dados com a linguagem R.
O que você encontrará neste tutorial?:
Uma introdução completa à linguagem R, incluindo Tipos e Estruturas de Dados. Técnicas para sumarização, visualização e modelagem de dados.
Você não precisará instalar nenhum software em seu computador! Por que utilizaremos WebR, que é uma versão da linguagem R compilada para navegadores, que possibilita a execução de código R no seu navegador, sem a necessidade de um servidor para executar o código.
Aplicações práticas da linguagem R à problemas nas áreas de administração, economia e contabilidade.
Público-alvo:
Alunos do Mestrado Profissional em Administração e do Bacharelado em Administração do IFMG - Campus Formiga.
Estudantes e profissionais de administração, economia e contabilidade que desejam aprender a utilizar a linguagem R para a análise de dados.
Pré-requisitos:
- Acesso a um computador
- Acesso à internet
Esperamos que este tutorial seja uma ferramenta relevante para o seu aprendizado e desenvolvimento profissional.
2 Algumas dicas
Uma pergunta que nos é feita com frequência é “qual é a melhor forma de aprender R?”. Infelizmente, não temos uma resposta pronta para essa pergunta, pois, em geral, todos tendem a aprender R (ou qualquer outra linguagem) à sua maneira e no seu próprio ritmo.
Dito isso, aqui estão algumas coisas a ter em mente que podem ajudar:
Use R com frequência e regularmente - encontre qualquer desculpa para ativar o interpretador da linguagem R ou algum Ambiente de Desenvolvimento Integrado adequado para a linguagem R.
Aprender R não é um teste de memória. Uma das vantagens de uma linguagem como R é que você sempre terá seu código para se referir quando inevitavelmente esquecer como fazer algo.
Você não precisa saber tudo sobre R para usá-la de forma produtiva. Se você ficar preso, pesquise no Google, não é trapaça, e escrever uma boa consulta de pesquisa é uma habilidade muito importante. Apenas certifique-se de verificar cuidadosamente se o código que você encontra está fazendo o que você quer que ele faça.
Se você se encontrar olhando para o código por horas tentando descobrir por que não está funcionando, então faça uma pausa. Perdemos a conta do número de vezes que conseguimos identificar erros quase imediatamente depois de voltar de uma pequena pausa.
Em qualquer linguagem e em R, há muitas maneiras de resolver um problema específico. Se o seu código não se parece com o de outra pessoa, mas faz o que você quer que ele faça em um tempo razoável e de forma robusta, então não se preocupe com isso - trabalho feito.
Relacionado ao ponto anterior, lembre-se de que R é apenas uma ferramenta para ajudá-lo a responder às suas perguntas interessantes. Embora possa ser divertido mergulhar em uma linguagem, não perca de vista o que é importante - sua(s) pergunta(s) de pesquisa e seus dados. Nenhuma quantidade de habilidade usando R ajudará se sua pergunta for vaga e os dados forem de baixa qualidade.
Aceite que haverá momentos em que as coisas ficarão um pouco difíceis ou frustrantes, isso acontece com todos nós. Tente aceitar esses períodos como parte do processo natural de aprender uma nova habilidade, lembre-se de que o tempo e a energia que você investir agora serão mais do que pagos em um futuro não muito distante.
3 A Linguagem R
Conforme Venables, Smith e R Core Team (2023), a linguagem R pode ser considerada uma implementação da linguagem S, que foi desenvolvida nos Laboratórios Bell por Rick Becker, John Chambers e Allan Wilks, e que também serviu como base para os sistemas S-PLUS.
A linguagem S foi iniciada em 1976 como uma linguagem para análise estatística originalmente implementada como um conjunto de bibliotecas Fortran. O objetivo da linguagem S, conforme expresso por John Chambers, era “traduzir ideias em software, de forma rápida e fiel”.
A evolução da linguagem S é caracterizada por três livros de John Chambers e coautores. Para R, a referência básica é Becker, Chambers e Wilks (1988). As novas características da versão de 1991 da linguagem S são abordadas em Chambers e Hastie (1992). Os métodos e classes formais do pacote methods são baseados em Chambers (1998).
R é uma linguagem de programação para computação estatística e visualização de dados, sendo adotada em diversas áreas do conhecimento e na indústria. A linguagem principal é aumentada por um grande número de pacotes, os quais contém, em geral, código reutilizável, documentação e dados.
A linguagem R é de código aberto e livre. É licenciada pelo Projeto GNU e disponível sob a General Public Licnce (GPL). A linguagem é escrita principalmente em C, Fortran e R. Existem executáveis pré-compilados para vários sistemas operacionais.
A sessão de informações a seguir contém um breve histórico do desenvolvimento das linguagens S e R, clique na caixa para que o conteúdo seja expandido.
1976: A linguagem S é iniciada nos Laboratórios Bell por Rick Becker, John Chambers e Allan Wilks como uma linguagem para análise estatística originalmente implementada como um conjunto de bibliotecas Fortran.
1988: a linguagem S é reescrita em C e começa a se parecer com o sistema atual (S3).
1991: A linguagem R é iniciada pelos professores Ross Ihaka e Robert Gentleman como uma linguagem de programação para ensinar estatística introdutória na Universidade de Auckland, Nova Zelândia. A linguagem foi inspirada na linguagem S, com a maioria dos programas S capazes de ser executadas inalteradas em R. A linguagem também foi inspirada no escopo léxico da linguagem Scheme, permitindo variáveis locais.
1993: Primeiro anúnico da linguagem R ao Público.
1995: Martin Machler convence Ross e Robert a usarem a licença GNU para tornar R um software Livre.
1997: The R Core Group é criado. Este grupo controla o código fonte da linguagem.
1998: A versão 4 (S4) da linguagem S foi lançada, esta é a versão que usada atualmente hoje. John Chambers recebe o Association for Computing Machinery’s Software System Award pela linguagem S.
2000: A versão R 1.0.0 é lançada.
2024: R version 4.4.1 é lançada.
5 Exercícios
Filtre o conjunto de dados starwars
de modo que apenas os personagens droides sejam incluídos.