2  ¿Cómo importar datos?

A continuación se muestra el código para importar datos almacenados en diferentes tipos de archivos. Se presenta una opción empleando librerias que requieren instalación, y en los casos en los que es posible, empleando el paquete base de R. Con el fin de ilustrar su funcionamiento se utilizará un ejemplo que contiene 5000 individuos (filas) 59 variables (columnas), con información de los aspirantes a la Universidad Nacional de Colombia. Por supuesto, en los respectivos casos se debe ajustar la ruta de los archivos y es posible modificar el nombre de la variable en la que se guarda la tabla de datos.

2.1 Excel

if (!require("readxl")) install.packages("readxl")
library(readxl)
Base_prueba_aspirantes <- read_excel(path="datos/Base_prueba_aspirantes.xlsx")

2.2 CSV

if (!require("readr")) install.packages("readr")
library(readr)
Base_prueba_aspirantes <- read_csv(file="datos/Base_prueba_aspirantes.csv")

# Usando el paquete base
Base_prueba_aspirantes <- read.csv(file="datos/Base_prueba_aspirantes.csv", encoding="UTF-8")

2.3 txt

if (!require("readr")) install.packages("readr")
library(readr)
Base_prueba_aspirantes <- read_csv(file="datos/Base_prueba_aspirantes.txt")

# Usando el paquete base
Base_prueba_aspirantes <- read.table(file="datos/Base_prueba_aspirantes.txt", header = TRUE, sep = ",")

2.4 SPSS

if (!require("haven")) install.packages("haven")
library(haven)
Base_prueba_aspirantes <- read_sav(file="datos/Base_prueba_aspirantes.sav")

2.5 SAS

if (!require("haven")) install.packages("haven")
library(haven)
Base_prueba_aspirantes <- read_sas(data_file="datos/Base_prueba_aspirantes.sas7bdat")

2.6 Stata

if (!require("haven")) install.packages("haven")
library(haven)
Base_prueba_aspirantes <- read_dta(file="datos/Base_prueba_aspirantes.dta")

Todas las opciones generan como resultado un data frame como el siguiente.

head(Base_prueba_aspirantes)
# A tibble: 6 × 59
  ID         YEARSEMESTRE  YEAR SEMESTRE DEP_NAC COD_DEP_NAC CIU_NAC COD_CIU_NAC
  <chr>             <dbl> <dbl>    <dbl> <chr>         <dbl> <chr>         <dbl>
1 32417             20192  2019        2 HUILA            41 PITALI…       41551
2 1124313524        20241  2024        1 PUTUMA…          86 SIBUND…       86749
3 3460              20192  2019        2 ATLÁNT…           8 BARRAN…        8001
4 66646             20171  2017        1 SANTAN…          68 PUENTE…       68572
5 6459              20161  2016        1 ANTIOQ…           5 MEDELL…        5001
6 36805             20192  2019        2 RISARA…          66 DOSQUE…       66170
# ℹ 51 more variables: LON_CIU_NAC <dbl>, LAT_CIU_NAC <dbl>, DEP_RES <chr>,
#   COD_DEP_RES <dbl>, CIU_RES <chr>, COD_CIU_RES <dbl>, LON_CIU_RES <dbl>,
#   LAT_CIU_RES <dbl>, CODS_NAC <chr>, CODN_NAC <dbl>, NACIONALIDAD <chr>,
#   EDAD_MOD <dbl>, CAT_EDAD <chr>, SEXO <chr>, ESTRATO_ORIG <chr>,
#   ESTRATO <chr>, DISCAPACIDAD <chr>, TIPO_DISC <chr>, MOD_INS <chr>,
#   TIPO_INS <chr>, PAES <chr>, PEAMA <chr>, PAET <chr>, SNIES_SEDE <dbl>,
#   INS_SEDE_NOMBRE <chr>, PTOTAL <dbl>, ADMITIDO <chr>, …

Nota: Es importante que los nombres de las columnas no contengan caracteres especiales ni espacios para evitar errores, especialmente en los formatos de SPSS y SAS. Adicionalmente, es recomendable especificar la codificación UTF-8 para evitar que las tildes y otros caracteres se interpreten correctamente.

Si se desea ampliar la información de las funciones empleadas para importar los archivos, se debe ingresar en la consola el nombre de la función antecedido por un signo de interrogación, por ejemplo: ?read_dta.

Para ver el archivo dentro de R studio se emplea el comando View(Base_prueba_aspirantes).

Cabe destacar que también es posible importar los archivos en R studio desde el menú ubicado en la parte superior File > Import Dataset.