3 Introduzindo o universo do tidyverse
Os próximos capítulos buscam introduzir os pacotes que compõe o core do tidyverse
. Em suma, o tidyverse
é uma coleção de pacotes que compartilham de uma mesma filosofia, gramática e estrutura de dados, de modo que, ao aprender um de seus pacotes você tem mais facilidade de aprender o próximo deles (WICKHAM et al., 2019). Cada pacote do tidyverse
é focado em uma atividade específica (importação, transformação, formatação, visualização, etc.) na análise de dados. Porém, todos eles compartilham de uma mesma “base”, de forma que, juntos, esses pacotes se complementam.
Grande parte da filosofia do universo tidyverse
é tornar a análise de dados no R mais rápida e prática. Nesse sentido, o tidyverse
se assemelha e muito ao principal módulo da linguagem Python voltado para análise de dados, o pandas
. Uma outra parte importante da filosofia do tidyverse
está intrinsicamente conectada ao fluxo da ciência de dados introduzido por WICKHAM; GROLEMUND (2017), e que está descrito na Figura 3.1.
A ideia básica desse fluxo, é que todo projeto de análise de dados pode ser resumido em 6 etapas específicas. Importar, arrumar, transformar, visualizar, modelar e comunicar. Perceba que, eu listei (em azul escuro) os nomes dos pacotes geralmente empregados em cada uma dessas 6 etapas desse fluxo. Parte desses pacotes listados não serão descritos nessa obra e, portanto, estão apenas como referências nesse fluxo.
Portanto, seguindo o fluxo, você começa uma análise de dados, importando a sua base de dados para dentro do R. Ou seja, você precisa tornar esse conjunto de dados acessível ao R. Por isso, o fluxo se inicia com a etapa “Importar”. Em seguida, temos a etapa “Arrumar”, onde você geralmente aplica diversas correções e ajustes sobre esse conjunto de dados. Pois são extremamente raros os casos em que uma base de dados está exatamente no formato que você precisa para a sua análise, e, por isso, você quase sempre precisa gastar um certo tempo “arrumando” essa base.
Após arrumar sua base de dados, você geralmente inicia um ciclo de análises, o qual envolve quase sempre 3 etapas: “Transformar”, “Visualizar” e “Modelar”: você adiciona novas colunas, filtra as observações de seu interesse, calcula certos indicadores e produz estatísticas sumárias desses dados. Depois, você visualiza esses resultados em algum gráfico, tentando identificar padrões e características que os seus dados carregam. Mais tarde, você começa a aplicar modelos que possam explicar esses padrões. Porém, talvez o primeiro modelo que você aplique se mostre ineficiente e, por essa razão, você acaba aplicando novas transformações e ajustes, calculando novos indicadores e filtrando novas observações com o objetivo de gerar melhores visualizações e modelos desses dados, reiniciando assim o ciclo.
Dentro desse ciclo, haverá um momento em que você vai chegar ao modelo desejado, e com ele, às conclusões de sua análise. Após ter essas conclusões em mãos, você provavelmente deseja publicar ou apresentar esses resultados para um público específico. A partir daí temos a etapa “Comunicar”, que conciste em produzir artigos, apresentações e materiais pelos quais você é capaz de descrever e apresentar concisamente os seus resultados. Finalizando assim, o fluxo da ciência de dados.
3.1 Os diferentes pacotes do tidyverse
A lista abaixo contém os pacotes que formam o core do tidyverse
. Para cada pacote, temos uma breve descrição de sua especialidade. Não se preocupe em entender exatamente o que eles fazem, pois isso ficará mais claro a medida em que você caminhar por este livro.
ggplot2
: visualização de dados, ou produção de gráficos.dplyr
: verbos para manipulação de tabelas.readr
: importação e exportação de dados em arquivos de texto.tibble
:data.frame
’s modernos.stringr
: manipulação de texto (character
).forcats
: trabalhando com fatores (factor
).tidyr
: formatar e limpar os seus dados.purrr
: repita você mesmo com functional programming.
3.2 Acessando o tidyverse
O tidyverse
nada mais é do que um conjunto de pacotes dentro dele aglomerados em um único pacote. Portanto, para ter acesso a esses vários pacotes que estendem as funcionalidades do R, basta instalar o tidyverse
na sua máquina, com a função install.packages()
. Assim, sempre que você quiser usar um desses pacotes em sua sessão do R, basta carregar o tidyverse
para sua sessão com a função library()
.
# Primeiro, instale o tidyverse:
install.packages("tidyverse")
# Em seguida, importe ele para sua sessão:
library(tidyverse)