2.2 Big data
Con la llegada del siglo XXI y con el desarrollo de las nuevas tecnologías de la información y las comunicaciones, hemos superado nuestras capacidades para: almacenar y conservar grandes cantidades de datos, extender el espectro a una gran variedad de datos, y procesar y extraer de manera rápida información contenida en estos para generar nuevo conocimiento o tomar mejores decisiones. A la gran cantidad y variedad de datos que la humanidad está generando a diario, así como la capacidad de almacenamiento y la velocidad con la que estos están siendo procesados se le conoce como Big Data90
Aunque no existe precisión sobre el significado de Big Data, este fenómeno, “se refiere a cosas que se pueden hacer a gran escala, pero no a una escala inferior, para extraer nuevas percepciones o crear nuevas formas de valor, de tal forma que trasforman los mercados, las organizaciones, las relaciones entre los ciudadanos y los gobiernos, etc.”, según (Mayer-Schönberger, V. y Cukier, K. 2013, pág. 17). Así mismo, según estos autores, el término más adecuado para describir lo que en la actualidad está sucediendo a raíz de este fenómeno es la datificación del todo: “Datificar se refiere a recopilar información sobre cuanto existe bajo el sol –incluyendo cosas que en modo alguno solíamos considerar información antes, como la localización de una persona, las vibraciones de un motor o la tensión que soporta un puente– y transformarla a formato de datos para cuantificarlas” (pág. 28).
En conclusión, el fenómeno del Big Data se caracteriza por la intención contemporánea de convertir en datos (datificar), dada la capacidad tecnológica actualmente disponible, “una inmensa cantidad de cosas que antes nunca pudieron medirse, almacenarse, analizarse y compartirse” (Mayer-Schönberger, V. y Cukier, K. 2013, pág. 31). El surgimiento del Big Data como la estrategia que cobija la intención de datificar, se caracteriza principalmente por tres rasgos definitorios popularizados a través de las 3 V: volumen, velocidad y variedad91.
En primer lugar, el volumen hace referencia a la cantidad creciente de datos disponibles (datificación) y a los retos que estos están generando tanto para su almacenamiento como para su análisis. Del byte92 de años atrás pasamos rápidamente a los megabytes; hoy ya no nos son ajenos términos como los gigabytes o terabytes y seguramente, en un futuro no muy lejano, serán de uso cotidiano términos como zettabytes y yottabytes. Estos términos, que hacen referencia a la unidad de medida que representa el tamaño de una tabla/archivo que contiene un conjunto dado de datos, vienen incursionando de manera vertiginosa en nuestra cotidianidad gracias al aumento exponencial de la capacidad tecnológica de almacenamiento disponible, a los bajos costos, a la existencia de múltiples y variados mecanismos de captura de datos, a la facilidad de acceso a los datos por el crecimiento del internet, al surgimiento de fuertes movimientos de apertura de datos y la presencia de nuevas apuestas tecnológicas como la computación en la nube (cloud computing).
El segundo rasgo del Big Data es la variedad, que hace referencia a los diferentes tipos de datos que son extraídos en la actualidad desde múltiples y diversas fuentes de información. De un mundo analógico, pasando por uno digital, hemos evolucionado hasta uno en donde todo cuanto está a nuestro alrededor es susceptible de ser reducido a datos, es decir, datificado. Datos asociados a imágenes, audios, textos, videos, datos georreferenciados, datos provenientes de millones de sitios web, etc., se han sumado al contexto tradicional de información estructurada para conformar una verdadera explosión tanto en el volumen como en la variedad de tipos de datos actualmente disponibles y susceptibles de ser analizados.
La variedad en los tipos de datos hoy existentes exige ir más allá del paradigma tradicional de datos estructurados e incursionar en el mundo de los datos semiestructurados y no estructurados93. La variedad, a diferencia del volumen, sí es una de las grandes responsables del surgimiento del término Big Data pues este fenómeno no existía años atrás y su tratamiento actual ha implicado grandes trasformaciones en la forma como los diversos tipos de datos existentes deben ser capturados, cómo deben ser almacenamos y conservados y, sobre todo, cómo y a través de qué técnicas deben ser analizados.
La velocidad es la tercera característica que define el Big Data. Hoy la disponibilidad y oportunidad con la que se entrega la información extraída a partir de los datos juega un rol central en la sostenibilidad y el crecimiento de muchas organizaciones, en especial aquellas de naturaleza privada. Horas, minutos e incluso segundos caracterizan, en muchos casos, aquello que se considera oportuno. En este sentido, los métodos tradicionales de análisis y entrega de información requieren de nuevas y creativas formas de abordar los datos, escenario donde la tecnología juega un rol central. La velocidad con la que se procesa y entrega la información es fundamental para las organizaciones de carácter público y privado, no obstante, hay importantes diferencias entre lo que se considera oportuno al interior de estos contextos. Por ejemplo, en el ámbito de las universidades, la oportunidad en las cifras puede estar asociada con disponer de información cuantitativa de manera anual, semestral o a lo sumo mensual. Desde luego que estas temporalidades en la disposición de cifras del contexto universitario son, por ejemplo, inoportunas en ámbitos como el de los mercados accionarios.
La variedad en los datos hoy disponibles, el volumen y la velocidad con la que estos están siendo generados, así como la capacidad existente para ser analizados ha conllevado una verdadera revolución en la forma como actualmente los capturamos, los almacenamos, los procesamos y extraemos conocimiento a partir de ellos.
A la encuesta y el registro administrativo como mecanismos tradicionales de captura de datos se han adicionado nuevos instrumentos, principalmente tecnológicos, como los sensores, las cámaras, los móviles, los sistemas de posicionamiento global (GPS por sus siglas en inglés), los secuenciadores a gran escala de ADN, los telescopios, las transacciones electrónicas globalizadas, las redes sociales, la web, etc. De la misma manera, el aumento significativo en el volumen y la variedad de datos hoy existentes, sumado a la existencia de redes tecnológicas de comunicación modernas, ha permitido la construcción de bases de datos capaces de hacer uso de recursos tecnológicos compartidos en múltiples servidores ubicados en distintas latitudes de nuestro planeta, y ha superado el paradigma tradicional de las bases de datos SQL, y ha incursionado en el de las bases de datos no solamente SQL o NoSQL94. Este fenómeno ha implicado evolucionar a nuevas y especializadas formas de capturar, almacenar y acceder a datos no estructurados o semiestructurados, principalmente. A los proveedores tradicionales de bases de datos SQL como Oracle, MySQL, PosgreSQL, Microsoft SQL Server, ODBC, SQLite, DB2, etc., hoy se suman nuevos proveedores especializados como Cassandra, mongoDB, Neo4j, Apache HBASE, Redis, CouchDB, GoogleBigtable, los cuales han llegado para quedarse y para consolidar un amplio, diverso y creciente escenario de bases de datos y, con ellos, de nuevas y variadas fuentes de datos disponibles para el análisis y la extracción de la información allí contenida.
El gran volumen de datos existente, su variedad y la velocidad con la que se desea extraer conocimiento a partir de los mismos ha implicado a nivel tecnológico la implementación de innovadoras formas de procesamiento de los datos dada la baja capacidad de los métodos tradicionales estadísticos para abordar estos retos en los tiempos requeridos y a unos costos computaciones aceptables. Algunas de las nuevas formas de analizar la información en un mundo gobernado por el Big Data son los modelos de computación paralela que hacen uso de paradigmas computacionales como MapReduce, en donde se divide un gran problema de análisis de datos en cientos, miles o millones de pequeños problemas en igual cantidad de nodos o servidores que trabajan de manera simultánea en lugares diferentes y bajo marcos de trabajo frameworks como Hadoop o Spark.
El crecimiento en la cantidad de datos, en su variedad y en la velocidad con la que se debe generar información a partir de los mismos, así como la reciente formulación en el contexto público colombiano, como se presentó en el capítulo anterior, de una política nacional de explotación de datos Big Data (Conpes 3920), presiona en la actualidad a las entidades, y entre estas a las universidades, para que, además de una gestión y disposición de las cifras descriptivas institucionales provistas por marcos tradicionales, incursionen en el dominio y uso de técnicas que permiten extraer conocimiento que se encuentra oculto en las cifras y que no es adquirible a partir de una aproximación descriptiva de los datos institucionales disponibles.
Referencias
Mayer-Schönberger, V. y Cukier, K. 2013. Big data: la revolución de los datos masivos.
Por ejemplo, a manera de ilustración de este fenómeno y según @LoriLewis y @OfficiallyChadd, actualmente en un minuto en internet se realizan 3,7 millones de búsquedas en Google, se ven 4,3 millones de horas de video en YouTube, se ven 266.000 horas de contenido en Netflix, se envían 481.000 tuits, se intercambian 38 millones de mensajes a través de WhatsApp, se realizan 862.823 compras en línea, se envían 187 millones de correos electrónicos, se inician 973.000 sesiones en Facebook, se descargan 375.000 aplicaciones de App Store y Google Play, etc. Y, actualmente, la humanidad está en capacidad de almacenar y procesar toda esta cantidad de datos para distintos propósitos.↩
Además del volumen, la variedad y la velocidad, al fenómeno del Big Data se le asocian en menor medida otros rasgos característicos como la veracidad de los datos, la viabilidad para extraer conocimiento, el valor potencial de los mismos, así como la capacidad de estos para ser representados de manera gráfica.↩
En el sitio web https://es.wikipedia.org/wiki/Byte se puede explorar el tamaño de las diferentes unidades actualmente existentes para la medición del almacenamiento de información a nivel tecnológico.↩
En la actualidad se estima que entre un 80 y un 90% de los datos existentes a nivel mundial corresponden a datos semiestructurados y, en especial, a datos no estructurados, lo que contrasta, por ejemplo, con la concentración de una proporción importante de las capacidades académicas, analíticas, y en una menor medida tecnológicas, centradas en la gestión de datos de tipo estructurado.↩
Aunque no existe precisión sobre la definición de una base de datos NoSQL, estas se caracterizan por su capacidad de réplica y de distribución del almacenamiento de los datos en tiempo real en múltiples servidores.↩