Tablas y organización de datos

Cómo ordenar tus datos sin morir en el intento

Xavier Clemente García

¿Qué es el Tidyverse?

El paquete tidyverse es una colección de diferentes paqueterías útiles en la ciencia de datos.

Figura 1. Introducción al Tidyverse. Tomado de Tidyverse.org

Este paquete es fundamental porque entre otras cosas contiene “readr” y “ggplot2”. El primero se requiere para la lectura de tablas y bases de datos exportadas desde excel y el otro para la esquematización de gráficos.

¿Creación de tablas?

La creación de tablas puede ser un enfoque útil cuando necesitas esquematizar y organizar.Por ejemplo

  nombres apellidos  carrera
1  Xavier    García Biología
2   Daine   Guevara Biología
3  Alexis       Paz Biología
4 Natalia  Quintero Biología

Sin embargo el código para una tabla como la anterior también podría complementarse cuantas veces sea necesario. Por ejemplo:

especies<-c("*Centruroides margaritatus*", "*Tityus pachyurus*", "*Tityus trivittatus*", "*centruroides gracilis*", "*Centruroides suffusus*")
ambiente<-c("luz", "luz", "luz", "sombra", "sombra")
Municipio<-c("Popayán", "Villa de Leyva", "Bogotá", "Argentina, Huila", "Inza")
Departamento<-c("Cauca", "Boyacá", "Cundinamarca", "Huila", "Cauca")
cantidad_de_individuos<-c(2,4,3,4,5)
frame_scorpions<- data.frame(especies, ambiente, Municipio, Departamento, cantidad_de_individuos)

En este punto tendremos un “data.frame” organizado según nuestras variables. Podremos añadir n variables.

especies ambiente Municipio Departamento cantidad_de_individuos
Centruroides margaritatus luz Popayán Cauca 2
Tityus pachyurus luz Villa de Leyva Boyacá 4
Tityus trivittatus luz Bogotá Cundinamarca 3
centruroides gracilis sombra Argentina, Huila Huila 4
Centruroides suffusus sombra Inza Cauca 5

Habremos obtenido nuestra tabla. Sin embargo ¿Queremos mantener esos nombres dados por las variables? NO,la respuesta es sencilla, pues no se ve bien y estético.

Para ello haremos lo siguiente:

colnames(frame_scorpions)<-c("Especies", "Ambientes","Municipio", "Departamento", "No. de Individuos")

¿Qué hemos hecho aquí? Hemos sustituído las leyendas de nuestras columnas. Usamos “colnames” función que permite introducir nuestra variable data.frame “frame_scorpions”. Por tanto nuestra tabla debería verse así para la siguiente diapositiva.

Especies Ambientes Municipio Departamento No. de Individuos
Centruroides margaritatus luz Popayán Cauca 2
Tityus pachyurus luz Villa de Leyva Boyacá 4
Tityus trivittatus luz Bogotá Cundinamarca 3
centruroides gracilis sombra Argentina, Huila Huila 4
Centruroides suffusus sombra Inza Cauca 5

Ejercicio práctico No. 1

Dirígete a documentación en la página de este curso para obtener el ejercicio.

Bases de datos


La base de datos que encontrarás está basada en el trabajo de Maria Doyle (2019).

Sobre el contexto Es una base de datos del proyecto GREIN: GEO RNA-seq Experiments Interactive Navigator. En esta webpage puede accederse a una amplia variedad de metadatos.
Este trabajo será para realización en clase

Subiendo la base de datos


Presionar “Import Dataset”. En este punto hay varias opciones: 1. Subir como .CSV 2. Subir como .xlx 3. Subir como .txt

Para subir como “.xlx” debe utilizarse:

#Usar el paquete tidyverse 
install.packages("tidyverse")
package 'tidyverse' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
    C:\Users\Xavier\AppData\Local\Temp\RtmpSSKf6F\downloaded_packages
library(tidyverse)
#O podemos correr solo "dplyr"
library(dplyr)
library(readxl)

En Rstudio quizás no sea necesario que sepas esto. Para propósitos de nuestro plan de trabjo usaremos algunas bases de datos propias de R

Uso de la librería mtcars e introducción al dplyr

Cuando apliquemos la tabla…

mtcars
                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
#Convertimos en data.frame para una lectura ideal.

Algunos comandos que puedes usar

#Para saber la estructura de los datos. Por ejemplo cuántos datos hay presentes.
str(mtcars)
'data.frame':   32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
 $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
 $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
 $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
#Nombres de las columnas. 
colnames(mtcars)
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
[11] "carb"

Uso de la librería tibble

library(tibble)
tibble_tabla<-tibble(head(mtcars))
tibble_tabla
# A tibble: 6 × 11
    mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1  21       6   160   110  3.9   2.62  16.5     0     1     4     4
2  21       6   160   110  3.9   2.88  17.0     0     1     4     4
3  22.8     4   108    93  3.85  2.32  18.6     1     1     4     1
4  21.4     6   258   110  3.08  3.22  19.4     1     0     3     1
5  18.7     8   360   175  3.15  3.44  17.0     0     0     3     2
6  18.1     6   225   105  2.76  3.46  20.2     1     0     3     1

Un poco sobre exploración de datos…

frame_scorpions
                     Especies Ambientes        Municipio Departamento
1 *Centruroides margaritatus*       luz          Popayán        Cauca
2          *Tityus pachyurus*       luz   Villa de Leyva       Boyacá
3        *Tityus trivittatus*       luz           Bogotá Cundinamarca
4     *centruroides gracilis*    sombra Argentina, Huila        Huila
5     *Centruroides suffusus*    sombra             Inza        Cauca
  No. de Individuos
1                 2
2                 4
3                 3
4                 4
5                 5
head(frame_scorpions)
                     Especies Ambientes        Municipio Departamento
1 *Centruroides margaritatus*       luz          Popayán        Cauca
2          *Tityus pachyurus*       luz   Villa de Leyva       Boyacá
3        *Tityus trivittatus*       luz           Bogotá Cundinamarca
4     *centruroides gracilis*    sombra Argentina, Huila        Huila
5     *Centruroides suffusus*    sombra             Inza        Cauca
  No. de Individuos
1                 2
2                 4
3                 3
4                 4
5                 5

head(mtcars)
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Estos serían dos ejemplos con head().

Filtrar datos

Volviendo con “mtcars”

#De la manera siguiente podemos filtrar datos según nuestro tipo de necesidad. 
mtcars %>% filter(mtcars$carb < 10)
                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

Uso del comando split

#A continuación dividiremos una tabla: 
mtcars_split<- split(mtcars, mtcars$mpg)
mtcars_split
$`10.4`
                     mpg cyl disp  hp drat    wt  qsec vs am gear carb
Cadillac Fleetwood  10.4   8  472 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4

$`13.3`
            mpg cyl disp  hp drat   wt  qsec vs am gear carb
Camaro Z28 13.3   8  350 245 3.73 3.84 15.41  0  0    3    4

$`14.3`
            mpg cyl disp  hp drat   wt  qsec vs am gear carb
Duster 360 14.3   8  360 245 3.21 3.57 15.84  0  0    3    4

$`14.7`
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Chrysler Imperial 14.7   8  440 230 3.23 5.345 17.42  0  0    3    4

$`15`
              mpg cyl disp  hp drat   wt qsec vs am gear carb
Maserati Bora  15   8  301 335 3.54 3.57 14.6  0  1    5    8

$`15.2`
             mpg cyl  disp  hp drat    wt qsec vs am gear carb
Merc 450SLC 15.2   8 275.8 180 3.07 3.780 18.0  0  0    3    3
AMC Javelin 15.2   8 304.0 150 3.15 3.435 17.3  0  0    3    2

$`15.5`
                  mpg cyl disp  hp drat   wt  qsec vs am gear carb
Dodge Challenger 15.5   8  318 150 2.76 3.52 16.87  0  0    3    2

$`15.8`
                mpg cyl disp  hp drat   wt qsec vs am gear carb
Ford Pantera L 15.8   8  351 264 4.22 3.17 14.5  0  1    5    4

$`16.4`
            mpg cyl  disp  hp drat   wt qsec vs am gear carb
Merc 450SE 16.4   8 275.8 180 3.07 4.07 17.4  0  0    3    3

$`17.3`
            mpg cyl  disp  hp drat   wt qsec vs am gear carb
Merc 450SL 17.3   8 275.8 180 3.07 3.73 17.6  0  0    3    3

$`17.8`
           mpg cyl  disp  hp drat   wt qsec vs am gear carb
Merc 280C 17.8   6 167.6 123 3.92 3.44 18.9  1  0    4    4

$`18.1`
         mpg cyl disp  hp drat   wt  qsec vs am gear carb
Valiant 18.1   6  225 105 2.76 3.46 20.22  1  0    3    1

$`18.7`
                   mpg cyl disp  hp drat   wt  qsec vs am gear carb
Hornet Sportabout 18.7   8  360 175 3.15 3.44 17.02  0  0    3    2

$`19.2`
                  mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Merc 280         19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Pontiac Firebird 19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2

$`19.7`
              mpg cyl disp  hp drat   wt qsec vs am gear carb
Ferrari Dino 19.7   6  145 175 3.62 2.77 15.5  0  1    5    6

$`21`
              mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4      21   6  160 110  3.9 2.620 16.46  0  1    4    4
Mazda RX4 Wag  21   6  160 110  3.9 2.875 17.02  0  1    4    4

$`21.4`
                mpg cyl disp  hp drat    wt  qsec vs am gear carb
Hornet 4 Drive 21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Volvo 142E     21.4   4  121 109 4.11 2.780 18.60  1  1    4    2

$`21.5`
               mpg cyl  disp hp drat    wt  qsec vs am gear carb
Toyota Corona 21.5   4 120.1 97  3.7 2.465 20.01  1  0    3    1

$`22.8`
            mpg cyl  disp hp drat   wt  qsec vs am gear carb
Datsun 710 22.8   4 108.0 93 3.85 2.32 18.61  1  1    4    1
Merc 230   22.8   4 140.8 95 3.92 3.15 22.90  1  0    4    2

$`24.4`
           mpg cyl  disp hp drat   wt qsec vs am gear carb
Merc 240D 24.4   4 146.7 62 3.69 3.19   20  1  0    4    2

$`26`
              mpg cyl  disp hp drat   wt qsec vs am gear carb
Porsche 914-2  26   4 120.3 91 4.43 2.14 16.7  0  1    5    2

$`27.3`
           mpg cyl disp hp drat    wt qsec vs am gear carb
Fiat X1-9 27.3   4   79 66 4.08 1.935 18.9  1  1    4    1

$`30.4`
              mpg cyl disp  hp drat    wt  qsec vs am gear carb
Honda Civic  30.4   4 75.7  52 4.93 1.615 18.52  1  1    4    2
Lotus Europa 30.4   4 95.1 113 3.77 1.513 16.90  1  1    5    2

$`32.4`
          mpg cyl disp hp drat  wt  qsec vs am gear carb
Fiat 128 32.4   4 78.7 66 4.08 2.2 19.47  1  1    4    1

$`33.9`
                mpg cyl disp hp drat    wt qsec vs am gear carb
Toyota Corolla 33.9   4 71.1 65 4.22 1.835 19.9  1  1    4    1

Y así podemos cortar diferentes columnas del dataset “mtcars”

Ejercicio práctico No. 2

Crear una tabla o utilizar la dataset “mtcars” y aplicar todo lo aprendido. Tienen el resto del día.

Referencias

Melbourne Bioinformatics. (2023) R for biologists GitHub