Capítulo 1 R
1.1 O que é?
É uma linguagem de programação derivada da linguagem S (1976) e desenvolvida na Bell Laboratories (Atualmente Lucen Technologies) pelo estatístico John McKinley Chambers e colaboradores a qual no início da década de 90 foi implementada pelos estatísticos Ross Ihaka e Robert Gentleman e liberada oficialmente como linguagem R em 1995, sendo a primeira versão estável liberada em 2000 e tem sido constantemente atualizada. Atualmente tem se tornado a principal ferramenta para análise de dados, tanto em meio acadêmico quanto empresarial, principalmente devido ao seu caráter open-source (código aberto).
Para maiores informações acesse o site do projeto R em: https://www.r-project.org/about.html.
1.2 Porque usar o R para análise de dados?
A estatística é uma ferramenta essencial para entendermos melhor os ecossistemas que estudamos. Com ela podemos compreender melhor os dados que coletamos, sejam dados biológicos ou ambientais tanto no âmbito de organismos microscópicos como macroscópicos.
Existe uma grande variedade de programas estatísticos que podem satisfazer nossas necessidades de análise dos nossos dados (Statistica, SPSS, past, Primer-E etc). Então, porque devemos usar o programa R?
Primeiramente, o R é gratuito, enquanto a maioria dos outros programas disponíveis no mercado não são baratos podendo a chegar a valores próximo de $6000,00 doláres a assinatura por ano, como no caso do programa SPSS. Em segundo lugar, no R é possível fazer todas as análises que os outros programas fazem, portanto, não é necessário ter mais de um programa para se realizar diversas análises.
Vocês podem estar se perguntando se terão que aprender programação para trabalhar com R. A resposta é sim e não. As análises feitas no R são realizadas através de linhas de comando como em uma linguagem de programação, porém modificada, de mais fácil compreensão e intuítiva. Todavia, nosso objetivo com esta obra é facilitar o seu aprendizado desta linguagem para o universo da análise de dados, por meio de questões e exemplos pertinentes a área ambiental. Por outro lado, é preciso saber como o R se estrutura e funciona, pois um pequeno erro na escrita pode fazer com que a análise não funcione adequadamente. Mas não se preocupe iremos tentar facilitar para você.
Portanto, neste livro mostraremos desde como se importar uma tabela até fazer algumas análises estatísticas e gráficos que são vastamente utilizados na área ambiental.
1.3 O RStudio
O RStudio foi construído especificamente para a linguagem R e é um ambiente de desenvolvimento integrado (no inglês IDE) (Figura 1.1). Ele fornece uma interface gráfica (visa facilitar ao usuário o uso das operações executadas) mais amigável para os usuários em geral, principalmente para quem está iniciando no R. Além disso ele fornece características e recursos importantes para o universo da programação, tais como:
- syntax highlighthing que consiste em uma marcação diferenciada que nos sinaliza por meio de cores e outros atributos estéticos (ex.: texto em itálico) o que está sendo escrito, indicando se é um objeto, função ou argumento, por exemplo;
- code completion quando digitamos três caracteres de um objeto, função ele sinaliza os demais elementos presentes em sua memória que contém esses três caracteres;
- smart indentation o qual faz com que o texto que estamos digitando pule de linha automaticamente ao chegarmos no final do espaço porém ele mantém relação com a linha anterior2;
- Execute R code directly from the source editor neste caso ele tem uma guia destinada ao seu script3 o qual permite executa-lo diretamente dele e o resultado irá aparecer em outra guia denominada console;
- Quickly jump to function definitions executada, em Windows e Linux, pelo atalho \(ALT + SHIFT + G\) e que permite acessar mais rapidamente uma determinada linha do script;
- Integrated R help and documentation o qual traz consigo, em sua IDE, uma guia destinada a ajuda. Além destas ele traz diversas outras funcionalidades que tornam o seu uso diário mais acessível e facilitado. Mais detalhes sobre acesse https://rstudio.com.
O primeiro passo para que possamos compreender o R e o RStudio e o que podemos fazer com ele consiste em entender a sua estrutura como ela está organizada e o que ela significa. Uma vez compreendida sua estrutura organizacional e funcionalidade poderemos mergulhar no mundo das análises de dados dentro deste novo ambiente.
Para isso veremos as principais guias do RStudio, como elas estão organizadas e quais as suas principais funcionalidades.
- Script: Guia utilizada para escrevermos o nosso código (comandos que executarão uma determinada tarefa) e comentários. Para executar os comandos escritos neste ambiente devemos deixar o cursor na linha que queremos executar e utilizar os atalhos do teclado \((CTRL + ENTER)\) ou \((CTRL + R)\) ou clicar em “Run” (Figura 1.2). Todo comando executado irá retornar uma saída na guia do “console” (ver item 2). Se o comando executado indicar que o resultado será guardado em um objeto4, este irá aparecer na guia “environment” (ver item 3). Para salvar o script escrito você deve utilizar a opção File na “barra de menus” e clicar em Save ou usar o atalho \((CTRL + S)\) ou clicar no icone de “disquete” no canto superior esquerdo desta guia;
- Console: Guia que indica o resultado do código executado na guia referente ao script. Nesta guia também pode ser escrito o código, porém ao pressionar ENTER o código é executado e o resultado é indicado na linha imediatamente inferior (Figura 1.3);
- History: Guia que indica o histórico dos comandos executados (Figura 1.5);
- Files: Guia que permite a visualização e acesso dos arquivos do computador (Figura 1.6). Sempre defina o ambiente de trabalho6 antes de iniciar o seu projeto. As planilhas que serão utilizadas devem estar neste ambiente de trabalho, previamente definido. Embora não seja obrigatório, isso evitará problemas futuros e facilitará o seu trajeto inicial no R. As funções e códigos serão abordados, aqui, seguindo esta ideia.;
- Packages: Guia destinada a visualização, instalação e carregamento dos pacotes/bibliotecas do R. Os pacotes consistem em um grupo de funções, que executam uma determinada ação. Inicialmente quando se instala o R alguns pacotes são automaticamente instalados. Contudo para executar algumas funções é necessário instalar um ou mais pacotes que contenham as funções desejadas. A instalação de pacotes pode ser realizada por linha de comando como será visto no próximo capítulo ou clicando na opção Install presente no canto superior esquerdo desta guia. De tempos em tempos os pacotes sofrem alterações, realizado pelos seus desenvolvedores, por isso um hábito importante a ser tomado de tempos em tempos é clicar na opção Update ao lado da opção Install pois ela irá atualizar os pacotes que estão instalados (Figura 1.7);
- Plot: Guia destinada a visualização dos gráficos executados. Algumas opções importantes desta guia é a opção Export na região central na barra de ferramentas onde é possível salvar o seu plot como imagem em formato *.jpg, *.png e *.tiff, por exemplo, assim como em *.pdf ou então a opção de copiar a imagem (Copy to Clipboard…) para colar em outro ambiente de trabalho. Uma segunda ferramenta importante é a opção do lado direito de Export que é Remove the current plot indicada por um quadrado branco com um “x” branco de fundo vermelho no canto superior esquerdo o qual remove a figura que está sendo visualizada neste ambiente, ao lado desta opção tem a figura de uma vassoura denominada Clear all Plots que deleta todas as figuras presentes neste ambiente. No lado esquerdo de Export temos a opção de Zoom o qual amplia a imagem mostrada e ao lado esquerdo desta opção temos setas indicando para direita e para esquerda, que permitem navegar por entre os plots criados durante seu trabalho (Figura 1.8);
- Help: Guia destinada a fornecer informações sobre as funções e pacotes do R. Nesta guia há duas opções importantes na sua barra superior uma encontra-se na barra mais superior indicada por uma lupa onde é possível digitar o nome do pacote ou função em que deseja saber mais sobre, na barra abaixo desta no canto esquerdo há um outro espaço escrito Find in Topic onde ele irá buscar o termo digitado dentro do ambiente que está sendo mostrado (Figura 1.9);
1.4 Exercícios
- Após escrever um comando na guia script, como fazemos para executa-lo?
- Pressionamos a tecla ENTER
- Pressionamos as teclas CTRL + ENTER
- Pressionamos as teclas CTRL + SPACE
- Pressionamos as teclas SHIFT + ENTER
- Presionamos as teclas CTRL + SHIFT + ENTER
- Após escrevermos um comando na guia console, como fazemos para executa-lo?
- Pressionamos a tecla ENTER
- Pressionamos as teclas CTRL + S
- Pressionamos as teclas CTRL + SPACE
- Pressionamos as teclas SHIFT + ENTER
- Presionamos as teclas CTRL + SHIFT + ENTER
- Ao realizarmos um gráfico, em que guia ele irá aparecer
- console
- Viewer
- Plots
- Environment
- Script
- Se desejarmos verificar os comandos previamente executados, mesmo após ter reiniciado o R, qual é a melhor forma de consulta?
- Verificar o console
- Acessar a guia history
- Acessar a guia environment
- Verificar o script
- Acessar a guia help
- Se executarmos um comando na guia script, em que guia o resultado irá aparecer?
- Obrigatoriamente nas guias console e environment
- Obrigatoriamente nas guias plots e console
- Obrigatoriamente na guia environment
- Obrigatoriamente nas guias plots e environment
- Obrigatoriamente na guia console
Por padrão esta opção não está ativada, precisa ser ativado nas opções do programa↩
Local onde você irá escrever o código para execução de uma determinada tarefa↩
Há diferentes tipos de objetos no R, falaremos sobre eles no próximo capítulo.↩
Elemento que armazena um valor ou estrutura de dados. Todo objeto apresenta uma classe. Os objetos mais comuns são: vetor (objeto que contêm uma sequência unidimensional de elementos), matriz (Objeto bidimensional onde todos os elementos são da mesma classe), data-frame (Objeto bidimensional onde os elementos pertencentes podem ser de classes diferentes) e lista (é um vetor que agrupa, de maneira unidimensional, diferentes objetos). As classes mais comuns são: inteiro (valores quantitativos sem casa decimal), númerico (valores quantitativos com casa decimal), lógico (valores que indicam 0 ou 1, que representam respectivamente verdadeiro ou falso), fator (valores que indicam categorias) e caracter (valores que indicam texto). Vamos utiliza-los sempre que necessário, no decorrer do livro explicando-o seu significado, porém não iremos abordá-los em detalhes.↩
No próximo capítulo ensinaremos a como definir o ambiente de trabalho↩