Introducción a R

Una introducción al lenguaje de programación

Xavier Clemente García

¿Qué es R?

Es un entorno y lenguaje de programación con un enfoque en el análisis estadístico.

R es parte del sistema GNU y se distribuye bajo la licencia GNU GPL. Es un lenguaje popular dentro del Machine learning, minería de datos, econometría, biología, bioinformática e inferencia estadística.

Aplicaciones en Biología

En Biología existen muchas aplicaciones que pueden llevarse acabo con R, por ejemplo:

  • Estadística (Análisis de biodiversidad, comparaciones de muestra, homogeneidad de varianzas, etc)

  • Conteos de especies y desarrollo de mapas

  • Gráficas (dendogramas, clústers, diagramas)

Interfaz de R

Figura 1. Interfaz de R Studio

Algunas consideraciones

Figura 2. Interfaz de R Studio

Diferencias entre usar la consola y la zona de script

Cuando usas solo “console” no podrás guardar tu script pero obtendrás un resultado rápido. Al usar la zona de script el código se quedará ahí. Es util usar console si necesitas comprobar o sacar un resultado rápido.

1+1
[1] 2

Instalación de paquetes

# Instalar un paquete
install.packages("tidyverse")
package 'tidyverse' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
    C:\Users\Xavier\AppData\Local\Temp\RtmpiAMdbB\downloaded_packages
# Cargar librería
library("tidyverse")
# La librería debería estar cargada. carguemos una de las librerías. Por defecto están las siguientes: 
library(ggplot2)

Y si no conozco la sintaxis del código?

#Puede surgir la necesidad de buscar la sintaxis del código, pasa frecuentemente y espero no ser el único. Sin embargo esto puede solucionarse de la siguiente manera: 

Ejemplo:

# ?install.packages
# A tu derecha en "help" se abrirá la ventana con las ayudas disponibles para el comando.

# ?ggplot2
#Lo mismo ocurriría con ggplo2. 

¿Y si necesito algo más específico?

#Con ggplot2 puede ser así: Debe anteponerse "?"
# ?geom_bar
# ?geom_point

¿Qué tipo de pruebas puedo utilizar en R?

Según el criterio son muchas. Las pruebas más utilizadas que podrías necesitar (paramétricas / no paramétricas) son:

                 pruebas_paramétricas  pruebas_n_paramétricas
1                        T de Student          Kruskal Wallis
2                ANOVA 1 vía y 2 vías       U de Mann Withney
3              Correlación de Pearson Correlación de Spearman
4 Prueba T para muestras dependientes      Prueba de Wilcoxon
5 Prueba para muestras independientes      Prueba de Friedman

Conceptos claves para la próxima clase

En esta sesión miraremos los siguientes conceptos claves:

Conceptos importantes
Conceptos Definiciones
Plots Diagramas básicos que vienen con R
Barplots Observar tendencia de una muestra, frecuencias, etc
Pie Diagramas circulares para ver proporciones
ggplot Librería para gráficos estilizados

Referencias

Melbourne Bioinformatics. (2023) R for biologists GitHub