2.6 Ciencia de los datos
El boom de los datos y el protagonismo contemporáneo que está adquiriendo la tecnología en los procesos de gestión de información cuantitativa con miras a la extracción del conocimiento existente en los mismos está demandando a nivel de los países y sus organizaciones la presencia de un número cada vez más elevado de profesionales con com- petencias matemáticas, estadísticas, técnicas y de negocio a los cuales se les conoce hoy como científicos de datos o data science.
Hoy se espera que un científico de datos sea un profesional con conocimientos y dominio de: bodegas de datos, ETL, Data Marts, Data Lakes, Data Cubos, cuadros de mando, visualización de datos, matemáticas, probabilidad, inferencia estadística, modelamiento estadístico, minería de datos, algoritmos, programación en múltiples lenguajes, desarrollo web, software especializados para la gestión de datos e indicadores y estadísticas. Igualmente, se espera que los científicos de datos sean capaces de gestionar datos estructurados, semiestructurados o no estructurados almacenados en bases de datos SQL y NoSQL, así como acceder y manipular grandes volúmenes de datos a través de la implamentación de marcos y técnicas computacionales avanzadas que aprovechan de manera distribuida o en paralelo recursos computacionales ubicados en cientos o miles de nodos. Finalmente, estos profesionales deben contar con habilidades para la comunicación oral y escrita, y ser conocedores del proceso estadístico asociado a los datos institucionales disponibles en las organizaciones o entidades en las cuales laboran.
El elevado número de competencias requeridas, y la complejidad asociada a muchas de ellas, hacen que hoy la presencia de científicos de datos y la formación en ciencia de los datos sea más una utopía116 que una realidad. A la fecha, salvo algunos casos asociados a la formación posgradual, en Colombia no existen programas oficiales a nivel universitario cuyo título, por ejemplo, haga referencia explícita a la ciencia de los datos117. Aunque en la actualidad algunos profesionales con habilidades y conocimientos asociados a los datos se autodenominan data science, e incluso algunas organizaciones han y se encuentran creando áreas y demandando perfiles asociados a la ciencia de los datos, la realidad es que es muy difícil, por no decir que imposible, encontrar en un solo profesional todas las competencias que demanda la ciencia de los datos.
A pesar de que no existan programas académicos formales o profesionales con las competencias que exige la ciencia de los datos, estas son cruciales para una adecuada gestión de los datos en los Estados, sus entidades y, desde luego, sus universidades. Para ello, lo que se propone es la disposición de equipos multidisciplinarios cuyas competencias sumadas conformen las habilidades que definen a los llamados científicos de datos; es decir, más que hablar de científicos de datos, lo correcto sería hablar de áreas o grupos118 de ciencia de los datos conformadas por profesionales provenientes de diversas disciplinas como, por ejemplo, la matemática, la estadística, la ingeniería computacional, el desarrollo web, la administración de empresas, la ingeniería industrial, el diseño gráfico, la inteligencia de negocios, e incluso provenientes de áreas de las ciencias sociales y humanas como el derecho, la geografía, la antropología, la psicología y la sociología119. La gestión contemporánea de los datos exige la participación interdisciplinaria de múltiples profesiones las cuales, desde nuestro criterio y como se ha expuesto, es imposible condensar en una única disciplina académica capaz de formar en la totalidad de competencias requeridas para el tratamiento y maximización del valor contenido en los datos disponibles.
Coloquialmente se dice que los científicos de datos son como los unicornios, todos hablan de ellos y tienen una idea de cómo son, pero en la realidad nunca han sido vistos.↩
La Facultad de Ciencias de la Sede Bogotá de la Universidad Nacional de Colombia, en el año 2016 y después de 50 años sin crear programas académicos de pregrado, aprobó la creación del programa titulado Ciencias de la Computación el cual busca, entre otros propósitos, la formación de profesionales con pensamiento abstracto y capacidad de analizar, construir y usar algoritmos; entender y dominar las técnicas computacionales requeridas en el procesamiento y la representación de la información contenida en los datos así como el desarrollo de modelos capaces de representar la información contenida en problemas de naturaleza práctica y teórica. Sin lugar a dudas, un importante paso de esta Universidad en la búsqueda de la formación de profesionales orientados a suplir parte de las necesidades que demanda la ciencia de los datos.↩
En la Universidad Nacional de Colombia, por ejemplo, se creó un grupo administrativo denominado Grupo Matricial para la Actividad Estadítica, con el fin de compartir experiencias y perspectivas relacionadas con el entendimiento académico y la gestión de la información cuantitativa a nivel institucional. Este grupo, conformado por profesionales provenientes de diversas áreas administrativas y disciplinas del conocimiento, ha resultado crucial en el reconocimiento actual del valor de la información estadística, así como en la definición de la forma como esta debe ser concebida, entendida, gobernada, gestionada, usada y presentada en esta Universidad.↩
Desde luego que el protagonismo y la participación de cada una de estas disciplinas en el contexto de la gestión moderna de los datos es diferencial. El protagonismo de la estadística, la matemática y la ingeniería computacional, por ejemplo, contrasta con el aporte “tangencial” de otras disciplinas como la geografía, el derecho, la psicología o la sociología, sin desconocer la importancia de su visión en ciertos aspectos o momentos del proceso de extracción del conocimiento existente en los datos disponibles.↩