2.3 Analítica/minería de datos (analytics)

La expresión analítica de datos, al igual que el Big Data, se posiciona durante los primeros años de este siglo, a pesar de que muchas de las técnicas que hoy soportan esta disciplina se venían estudiando y desarrollando desde los años setenta del siglo pasado bajo el rótulo de la llamada minería de datos95. En el contexto de las organizaciones, y entre estas en las entidades públicas, el uso de la analítica o minería de datos tiene un propósito central: la toma de decisiones institucionales a partir de la extracción de conocimiento oculto existente en datos estructurados, semiestructurados y no estructurados, y expresable a través de patrones extrapolables a escenarios futuros (enfoque predictivo).

La extracción de patrones existente en pequeños, grandes o diversos conjuntos de datos es el objetivo central de la analítica de datos (analytics), y para ello se apoya en dos recursos principales: los algoritmos y la disposición de cientos de técnicas o métodos que hacen uso de estos para múltiples propósitos. Los algoritmos son el método de facto empleado por las técnicas de analítica de datos y los mismos pueden ser entendidos como un conjunto de instrucciones o reglas claramente definidas, las cuales se ejecutan mediante pasos sucesivos con el fin de encontrar un estado final deseado. Los pasos sucesivos requeridos en la ejecución de un algoritmo pueden, en muchos casos, alcanzar cifras de cientos o millones por lo que estos deben valerse de las capacidades de cómputo actualmente existentes para su viabilidad.

Aunque en la actualidad, en muchos casos, los algoritmos se consideran como creaciones ajenas que poco impactan nuestra cotidianidad, su uso está cada vez más presente en nuestro día a día. Recomendaciones de compras en plataformas de internet, autocompletado de palabras en aplicaciones de mensajería instantánea, autocompletado de consultas en la web, acceso a recursos financieros en cuestión de minutos, acceso a dispositivos a través de reconocimiento facial, publicidad personalizada de acuerdo al consumo y los gustos expresados en la web y en redes sociales, recomendaciones musicales y de televisión gracias a nuestros consumos o el de personas con gustos o características semejantes, toma de decisiones autónomas por parte de las cosas que están a nuestro alrededor (internet de las cosas), etc., son tan solo una pequeña muestra de lo cercano que hoy están los algoritmos a nuestra cotidianidad, del uso de los datos hoy existentes y, con ello del surgimiento de un mundo transformado digitalmente y gobernado por estos instrumentos cuyos impactos políticos, sociales, económicos e incluso familiares están aún por verse.

Una pequeña muestra de los métodos y las técnicas que hoy conforman el cuerpo de la analítica o minería de datos son: la minería de texto, el análisis de redes, la minería de imágenes, la minería de audios, el análisis de asociación, los árboles de decisión, las redes neuronales, los métodos de clasificación, la regresión logística, la regresión lineal, el aprendizaje de máquina, los vectores de soporte de máquinas, el aprendizaje profundo, la inteligencia artificial, la analítica de procesos, etc. Estos métodos usan cientos, miles y millones de algoritmos para su buen desempeño, viven entre nosotros, son ampliamente empleados por entidades privadas y, en especial, por aquellas de base tecnológica y, como reza el Conpes 3920, se busca que sean empleados cada vez más dentro de la cultura de las organizaciones públicas colombianas, tanto para la toma de decisiones institucionales informadas como para la prestación de mejores servicios de cara a los ciudadanos.

La analítica o minería de datos (analytics) –al igual que el fenómeno del Big Data– puede ser usada para múltiples propósitos y para ello cuenta con un cuerpo de recursos metodológicos y tecnológicos propios. En primer lugar, esta puede ser usada para propósitos descriptivos, explicativos o predictivos y para ello se vale de dos enfoques centrales: el análisis supervisado y el no supervisado. El análisis no supervisado usa técnicas de minería de datos descriptiva o exploratoria para obtener patrones o perfiles donde no es de interés la disposición de variables dependientes sobre las cuales se desee describir o predecir un comportamiento dado; las técnicas de clasificación, por ejemplo, hacen parte del análisis no supervisado. En contraste, el análisis supervisado hace uso de técnicas para comprender y predecir el comportamiento de un evento futuro con base en eventos que ya pasaron y sobre los cuales se cuenta con información precisa –variables independientes, variables dependientes, conjuntos de datos de prueba y conjuntos de datos de entrenamiento–; las regresiones, los árboles de decisión, las redes neuronales, etc., por ejemplo, hacen parte del análisis supervisado desde la perspectiva de la analítica o minería de datos.

En segundo lugar, la analítica de datos requiere de la existencia, el dominio y el uso de metodologías y rutinas soportadas en software especializados capaces de ejecutar múltiples algoritmos asociados a las técnicas existentes. Entre los software más populares hoy disponibles para la ejecución de técnicas de minería de datos se encuentran, en el ámbito comercial, KMINE, RapidMiner, SAS e IBM y, en el escenario del software libre, R y Python principalmente.


  1. Aunque no existe claridad acerca del porqué del uso actual del término analytics o analítica como sustituto del término minería de datos, se cree que este último se ha usado con la intención de modernizar el mismo y adaptarlo al contexto actual del mercado de los datos. Desde luego que el término analytics es más comercial y despierta mayor interés que el término minería de datos. Para propósitos del presente documento, cuando hagamos referencia a los términos analítica de datos, minería de datos o analytics, nos referimos a lo mismo.