2  Las estadísticas

Hasta ahora se exploró el rol de la información en el contexto globalizado del siglo XXI, resaltando la importancia que esta tiene en ámbitos altamente tecnificados y digitalizados. Se mencionó, también, que “información” es un término polisémico que puede ser abordado desde una perspectiva etimológica y pragmática, donde se resalta la noción de información como cosa, que es susceptible de ser manipulada, analizada, procesada. Luego, se hizo un recorrido por los distintos enfoques desde los cuales se puede entender la información, dentro de ellos, el físico, biológico, psicológico y tecnológico.

Además, se destacó que la gestión pública, entendida como la definición y la puesta en marcha de estrategias que se han convenido para atender un asunto de carácter público, tiene una relación estrecha con la información. De modo que los diferentes modelos de gestión pública le dan una relevancia particular a la información para, por ejemplo, la rendición de cuentas o la toma de decisiones. También se precisaron tres usos que se hacen de la información en la gestión pública sin importar el modelo, a saber: comunicativo, de registro y valorativo.

Pues bien, en el presente capítulo se abordan las estadísticas, entendidas como un conjunto de información ordenada en cifras descriptivas que contribuyen, en gran medida, a la representación y articulación de la realidad social y, por tanto, son relevantes en el ámbito de la gestión pública. Se presentan, además, dos grandes grupos que caracterizan a las estadísticas: características intrínsecas y características extrínsecas. Las primeras buscan referenciar condiciones necesarias, sin las cuales no se podría hablar propiamente de estadísticas. Las segundas, por su parte, tienen que ver con recomendaciones pertinentes para las estadísticas en el campo de la gestión pública.

Es importante mencionar que no se presenta ni se propone un modelo o mecanismo de producción de estadísticas. Todavía más, el proceso estadístico, entendido como un conjunto sistemático de actividades encaminadas a la producción de estadísticas, hace parte de las características que se definen en este capítulo para las cifras estadísticas como objeto de estudio. Cada Estado o entidad puede definir una serie de fases, procesos, subprocesos y actividades para producir estadísticas que, si se consultan, es esperable —e incluso deseable— que mantengan relación con las características extrínsecas e intrínsecas de las cifras estadísticas como objeto de estudio. Sin embargo, como se hizo notar, lo que sigue a continuación no es una propuesta de lineamientos, ni un modelo para consolidación de cifras.

2.1 Definición

Cuando se habla de Estadística se suele hacer referencia a una disciplina que involucra una serie de técnicas de descripción, recopilación, registro y cálculo que se aplican a un conjunto de datos 1. De ahí que se tienda a ver como una herramienta imprescindible en el ámbito investigativo, donde desempeña, entre otras, las funciones de registrar un fenómeno, predecir resultados, analizar los registros y falsear o probar hipótesis. Este ha sido el campo predominante de la estadística en la actualidad; sin embargo, hay otros aspectos dentro de la disciplina que vale la pena tener en cuenta.

El término “estadística” viene del latín statisticus, que está compuesto por la raíz status (estado) y por el sufijo —icus (relativo a). La estadística se puede entender, entonces, como lo que es relativo a un Estado y, bajo esta perspectiva, se podría argumentar que es el punto en el que converge la información y la gestión pública. De hecho, como menciona (Rodríguez 2012), la aparición del término a mediados del siglo XVIII hacía referencia a la descripción —no siempre numérica— de los Estados, de sus habitantes, de su geografía, de su economía, entre otros aspectos relevantes para el desarrollo y la construcción social; dicho de otro modo, tal término hacía referencia a una suerte de información relevante para la organización, o gestión, social, o pública. Pues bien, para distinguir esta concepción del término, la de “hechos notables de un Estado” (Rodríguez 2012, 18), se va a emplear el término en plural de la siguiente manera: las estadísticas.

Así las cosas, la concepción de las estadísticas no se limita a la noción de una herramienta empleada en el desarrollo de proyectos de investigación, sino que hace referencia a una estrategia interpretativa que permite “conocer […] una regularidad imposible de ver contando a cada individuo por separado” (Rodríguez 2012, 18). En otras palabras, las estadísticas tienen que ver con una forma de discriminación y análisis descriptivo que contribuye, en gran medida, a articular los modos en que se le da forma al mundo. Definir cantidades, comparar magnitudes o establecer porcentajes, así como su correspondiente registro, permite articular una suerte de realidad susceptible de ser representada, caracterizada, comunicada o analizada, a partir de la cual se pueden llevar a cabo tareas importantes para el desarrollo social, tales como la toma de decisiones, el fomento de la transparencia y de la rendición de cuentas en la gestión, el seguimiento y la evaluación de políticas públicas o la realización de estudios e investigaciones.

Desde esta perspectiva, como se ha venido insinuando, la información que se representa a través de las estadísticas desempeña un papel protagónico en el ámbito de lo público y, en últimas, se consolida como un pilar de las sociedades democráticas. Ya desde Platón 2 se hacía referencia al conocimiento como reivindicación de la libertad y no es casualidad que (González 2021), consejera Regional de Comunicación e Información de la Unesco para América Latina y el Caribe, afirme que una sociedad más informada es una sociedad más libre. Disponer de determinadas cifras empodera a los ciudadanos y a las instituciones, por lo que resulta fundamental discutir sobre los modos en que se recopilan, ordenan, analizan y comunican esas cifras.

Ahora bien, con el propósito de clarificar —hasta donde sea posible— y, sobre todo, de fomentar la discusión al respecto de los modos en que se abordan los “asuntos notables de un Estado” 3, se presentan a continuación algunas características intrínsecas y extrínsecas de las estadísticas 4.

Se presentan seis características intrínsecas. La primera tiene que ver con que las estadísticas se extraen y se soportan a través de (1) poblaciones o muestras, es decir, siempre se trabaja con un conjunto de individuos u objetos susceptibles de ser observados y analizados. La segunda se refiere a los (2) datos, que resultan a partir del trabajo con poblaciones o muestras y que se organizan en distintos tipos de variables cualitativas y cuantitativas susceptibles de ser almacenadas, transferidas, visualizadas, controladas y entendidas. Los datos tienen sentido en la medida en que representan una serie de regularidades basadas en conteos o medidas, por lo que la tercera característica hace referencia a las (3) cifras agregadas que resultan de presentar de manera resumida las regularidades encontradas. La cuarta característica precisa que se debe poder acceder a esas cifras desde diferentes perspectivas, es decir, a través de (4) desagregaciones, por ejemplo, temporales, geográficas/institucionales o temáticas. La quinta característica alude a la manera en la que se representan las regularidades encontradas a través de los conteos y las medidas, es decir, por medio de (5) tablas y gráficos. Finalmente, la sexta característica habla de los (6) medios de divulgación, la estadística es intrínsecamente comunicativa, los datos no son información sino hasta que son interpretados por un receptor.

Por otra parte, las características extrínsecas están relacionadas con unas particularidades propias de las cifras estadísticas en el ámbito de la gestión pública. Para empezar, las estadísticas deben ser (1) incluyentes. La gestión pública tiene una connotación social, por lo que las cifras deben dar respuesta a las necesidades de los diferentes individuos que conforman los diversos grupos sociales. En segundo lugar, las estadísticas deben ser (2) comparables 5, hay estándares, como codificaciones y nomenclaturas, que, por un lado, acotan y orientan las estadísticas y, por el otro, facilitan las comparaciones y los intercambios a diferentes niveles (p. ej. internacional, nacional, regional o interinstitucional). De la misma manera en que las estadísticas están acotadas con el propósito de ser comparables, existen normas (3) legales que delimitan lo que está permitido y lo que no, por ejemplo, en materia de captura, análisis y usos de la información. Además, las estadísticas deben tener en cuenta la reflexión (4) ética al respecto de las acciones individuales sobre lo que se debe hacer, y que puede, o no, coincidir con las leyes. La quinta característica resalta el carácter (5) público, transparente y abierto por el que deben velar las estadísticas, es decir, describir, informar y explicar de la mejor manera lo que se hace. La sexta característica, sobre los (6) metadatos, contribuye a esa pretensión de transparencia, pues versa sobre los datos de los datos, que precisan los modos en que las estadísticas deben ser leídas y entendidas. El siguiente rasgo de las estadísticas alude al (7) uso intensivo de las TIC. Las herramientas tecnológicas actuales facilitan la captura, el almacenamiento, la transformación, la construcción, la visualización y la comunicación de las cifras contenidas en las estadísticas. Los avances en las TIC propician nuevas mediciones y fuentes de datos, así como la construcción de mediciones cada vez más complejas. La octava característica extrínseca es, pues, la (8) producción de nuevas estadísticas u otros tipos de mediciones de interés en el ámbito de la gestión pública 6.

Finalmente, la última característica reúne, en parte, a las demás; tiene que ver con un (9) proceso estadístico, es decir, con una ejecución sistemática y ordenada de un conjunto de actividades que retoman las características ya mencionadas y que buscan garantizar tanto la producción como la calidad de las estadísticas institucionales.

2.2 Características intrínsecas

2.2.1 Población o muestras

Las estadísticas se extraen y se soportan a través de poblaciones, es decir, a través de colecciones de unidades finitas e infinitas que, con frecuencia, corresponden a personas, pero que pueden ser también instituciones, eventos, objetos, entre otros elementos que sean de interés cuantitativo. En ocasiones, se elige un subconjunto de la población que recibe el nombre de muestra. Se pretende que la muestra, o subconjunto, sea representativa de la población. Es decir, que a través de técnicas probabilísticas se garantice una cierta aleatoriedad en la conformación de muestras que permita formular generalizaciones que se cumplan en la población con cierto nivel de certeza. Sin embargo, en el ámbito de la gestión pública, dadas las condiciones que afectan los modos en que se obtienen los datos, suele haber muestras no probabilísticas 7 que, no obstante, son de utilidad para la consolidación de las estadísticas.

Las poblaciones pueden ser de tipo transversal, anidado y longitudinal. Las transversales se obtienen en un punto particular en el tiempo, sin tener en cuenta el recorrido histórico de los elementos que hacen parte del conjunto. Las anidadas tampoco tienen en cuenta el recorrido temporal de los elementos del conjunto, sin embargo, una población anidada hace parte de otra población más grande. Las longitudinales, a diferencia de las anteriores, tienen un carácter diacrónico, es decir, tienen en cuenta la historicidad de los elementos que conforman el conjunto.

Cuando se habla de poblaciones o muestras, es necesario hablar de variables. Las variables hacen referencia a las características que comparten los miembros del conjunto o del subconjunto y pueden ser clasificadas en dos grandes grupos: las cualitativas y las cuantitativas.

Las variables cualitativas, o categóricas, se pueden dividir, a su vez, en nominales y ordinales. Las variables cualitativas nominales hacen referencia a las cualidades de los individuos que conforman 8 una población o muestra que no admiten un criterio de orden y que no representan un valor numérico, como el color de ojos, el nombre o la carrera universitaria que un estudiante ha escogido. Las variables cualitativas ordinales, por su parte, tienen que ver con cualidades que tampoco representan un valor numérico absoluto, pero que sí tienen un criterio de orden definido, como el estrato socioeconómico en Colombia 9 o el nivel de satisfacción de un cliente. Dicho de otro modo, las variables ordinales clasifican las características de una población o muestra en un orden determinado, pero dicho orden no representa una distribución igual en los intervalos que componen la clasificación. Así, una variable cualitativa ordinal permite determinar que un cliente está más satisfecho que otro, pero no la cantidad de satisfacción que tiene de más.

Por su parte, las variables cuantitativas sí representan un valor numérico absoluto y se pueden clasificar en continuas y discretas. Las cuantitativas discretas hacen referencia a números enteros (usualmente positivos), como el número de hijos de una familia o el número de admitidos a un programa curricular en una universidad. Las variables cuantitativas continuas pueden ser de intervalo y de razón. Para el caso de las de razón, el cero significa la ausencia del atributo analizado y, para el caso de las de intervalo, el cero no es la ausencia del atributo, sino un valor que toma dentro del rango. Un ejemplo de variable de razón podría ser el tiempo de vinculación de un estudiante a una institución educativa. Si el tiempo es igual a cero significa que el estudiante no está vinculado a la institución, es decir, representa una ausencia del atributo. En cambio, la nota que obtienen los estudiantes en un examen podría considerarse una variable de intervalo. Si un estudiante tiene una calificación de cero no quiere decir necesariamente que no haya presentado el examen o, mejor, no implica necesariamente una ausencia del atributo, sino que obtuvo la peor calificación posible.

Dentro de las características que comparten los miembros de las poblaciones o muestras es posible disponer de variables cuantitativas con características particulares: las espaciales y las temporales. Las espaciales se representan a través de coordenadas que designan un punto geográfico particular de acuerdo con un sistema de referencia, como la latitud y la longitud. Por su parte, las temporales designan, a través de convenciones, como meses o años, un punto particular en una serie de tiempo.

Existe la posibilidad de transformar variables cuantitativas en cualitativas —en especial, variables cualitativas de tipo ordinal—, pero no al revés. Por ejemplo, una variable cuantitativa, como la estatura de una persona, puede ser entendida como una variable cualitativa de naturaleza ordinal a partir de la definición de rangos o clases. Así, la medida de 177 centímetros de estatura de una persona puede ser entendida como una variable cualitativa cuando se hace referencia a que dicha persona hace parte del rango de individuos que miden entre 170 y 180 centímetros.

Finalmente, en el contexto de lo público, las poblaciones y las muestras se conforman principalmente a partir de tres estrategias de recolección de datos: los censos, las encuestas y los registros administrativos.

Los censos se aplican a la totalidad de individuos que conforman una población, por lo que representan un alto costo en términos de tiempo y recursos; están reservados para ser adelantados a nivel de países o sectores económicos dentro de dichos países. Las encuestas, por el contrario, se aplican principalmente a una muestra, es decir, a un grupo parcial de la población. Y, dada su facilidad de ejecución con respecto a los censos, es la principal estrategia de los Estados, aplicada por medio de los institutos nacionales de estadística o sus sectores, para la captura y consolidación de estadísticas sobre diversos temas de interés social.

En la actualidad, con la variedad de datos disponibles a bajo costo, dada la evolución de las TIC, en los Estados y sus instituciones ha cobrado relevancia la conformación de muestras o poblaciones a través de los registros administrativos, es decir, mediante los datos que ya recopilan las entidades públicas como parte de sus obligaciones legales 10. Así, los registros administrativos son, por excelencia, el principal mecanismo de conformación de muestras o poblaciones para la definición y consolidación de estadísticas a nivel de las entidades públicas y, dentro de estas, en las universidades, por ejemplo 11.

2.2.2 Datos

Para que las variables cualitativas y cuantitativas que contienen los rasgos de los individuos que conforman las poblaciones o muestras puedan ser almacenadas, transferidas, visualizadas y analizadas, es necesario entender y reconocer que estas se encuentran conformadas por datos 12, es decir, por “información como cosa que se ha procesado de alguna manera para su uso” (Buckland 1991, 42:353). Pues bien, los datos se suelen dividir en tres tipos: estructurados, semiestructurados y no estructurados.

Los datos estructurados son aquellos almacenados en tablas formadas por filas y columnas que, comúnmente, buscan facilitar su lectura y procesamiento. Sin embargo, un conjunto de datos se puede estructurar de maneras diferentes. Por esto es que, dentro del mundo de los datos estructurados, también están los datos ordenados 13. Para (Wickham 2014), un conjunto de datos ordenado es un conjunto que sigue una forma estándar de estructuración para optimizar el análisis, que consiste en que cada variable, o atributo, forma una columna; cada observación, es decir, cada vez que se identifican las variables juntas, es una fila y cada tipo de observación, es decir, cada conjunto de variables que se identifican de la misma manera conforma una tabla.

A continuación, se muestra una tabla con la información correspondiente a la cantidad de estudiantes de una universidad que hacen parte de diferentes programas curriculares en distintas sedes. La tabla es estructurada, pero no ordenada.

Tabla 1. Datos estructurados no ordenados

La tabla 2 presenta la misma información de la primera, pero a través de las reglas de datos ordenados. Así, se conforman 3 variables y 4 observaciones que constituyen una tabla ordenada y estructurada.

Tabla 2. Datos estructurados ordenados

La producción de estadísticas en el ámbito de lo público se vale, sobre todo, de datos estructurados y ordenados. Lo anterior en la medida en que tradicionalmente las técnicas y las herramientas de procesamiento de datos, desde las más simples a las más complejas, están pensadas para datos estructurados ordenados.

Por su parte, los datos semiestructurados están ligados al desarrollo de la web. No tienen una estructura estándar, pero siguen un flujo lógico, con etiquetas y marcadores que permiten identificarlos. Algunos ejemplos podrían ser los correos electrónicos o los tweets.

Finalmente, los datos no estructurados no tienen una estructura estándar, no siguen una secuencia lógica fácilmente definible o etiquetable y no se pueden almacenar dentro de una tabla convencional, por ejemplo, los documentos multimedia o los textos. Ahora bien, como se sabe, la mayoría de los datos en la actualidad son, de hecho, no estructurados, cuyo análisis puede contribuir en gran medida a la consolidación de estadísticas y, con ello, a procesos ya mencionados como la toma de decisiones, el fomento de la transparencia, el seguimiento y la evaluación de políticas públicas, entre otras. De manera que resulta relevante preguntarse si vale la pena leer los datos no estructurados desde el mundo de lo estructurado, o si al hacerlo una buena parte de su contenido se queda en el camino y, de ser así, es importante reflexionar al respecto de qué otro tipo de estrategias de procesamiento podrían aplicarse para la consolidación y disposición de información contenida en este tipo de datos.

2.2.3 Cifras agregadas

Los datos —y las variables en las que dichos datos se organizan— contienen regularidades que no pueden ser percibidas a nivel individual 14. Tales regularidades, en el contexto de las estadísticas, se consolidan a través de conteos o mediciones. Los conteos hacen referencia a las estadísticas derivadas de variables cualitativas y, en muchas ocasiones, a variables cuantitativas de naturaleza discreta, que no pueden tomar ningún valor entre dos consecutivos 15. Mientras que la medición deriva de variables cuantitativas o continuas, que pueden tomar cualquier valor dentro de un intervalo. Así, contar tiene que ver con enumerar un conjunto de elementos comunes, y medir hace referencia a establecer una cierta escala para determinar la magnitud o la dimensión de un rasgo de interés social y estadístico 16.

En el ámbito de la construcción y la determinación de regularidades en poblaciones y muestras, son de amplio interés los modos en que se distribuyen los datos que conforman dichas variables. Las medidas 17 estadísticas descriptivas asociadas a dicha distribución se suelen clasificar en cuatro grupos: medidas de tendencia central, que sirven para determinar los valores centrales o medios de la distribución (como la media y la moda); medidas de dispersión, que indican la variación de la distribución (como la desviación media, la varianza y la desviación estándar); medidas de localización, que dividen la distribución en partes iguales (como la mediana, los cuartiles, los deciles o los centiles); y, finalmente, las medidas de forma o simetría, que permiten precisar el grado de apuntamiento, simetría o asimetría de una distribución (como la curtosis o la asimetría).

2.2.4 Desagregaciones

En la construcción y disposición de estadísticas, las desagregaciones tienen que ver con desglosar y presentar la información en grupos más pequeños que buscan identificar tendencias y patrones en “las partes” para entender mejor “el todo”.

Estas pueden ser de tres tipos: temporales, geográficas y temáticas. Las desagregaciones temporales consisten en agrupar la información de acuerdo con series de tiempo que permiten determinar el comportamiento de una cifra estadística en el pasado, en el presente y, a partir de tal conocimiento, estimar el comportamiento futuro de dicha cifra.

Una serie de tiempo puede entenderse como una secuencia de cifras históricas separadas en intervalos de tiempo regulares. Por ejemplo, en el marco de las estadísticas asociadas a las universidades es relevante representar la evolución de admitidos a lo largo de la historia a través de un intervalo de tiempo regular como lo son, para este caso, los semestres. En el contexto de la gestión pública, la longitud de los intervalos que definen una serie de tiempo, también conocida como temporalidad de la serie, puede variar de acuerdo con la necesidad social de la disposición de estadísticas (meses, bimestres, trimestres, semestres, anualidades, etc.).

Las desagregaciones geográficas tienen que ver con la distribución de las estadísticas extraídas de una población o muestra a lo largo de un territorio o de una entidad. La desagregación geográfica territorial en el contexto de la gestión pública hace referencia principalmente a la forma en la que se distribuyen las estadísticas a lo largo de las divisiones político-administrativas de los países. Por ejemplo, para el caso de Colombia 18, la nación se divide política y administrativamente en departamentos, distritos especiales, municipios, corregimientos, centros poblados, entre otros. La desagregación geográfica institucional, por su parte, se refiere a la distribución en organizaciones, como universidades y, dentro de estas, las facultades o programas y demás subgrupos institucionales definidos por límites basados en funciones o tareas. Un ejemplo de desagregación geográfica territorial podría ser la segmentación de la población de una universidad a partir de los lugares de nacimiento de los estudiantes. La distribución de esos estudiantes en departamentos y carreras específicas sería una desagregación geográfica institucional.

La información ordenada en cifras descriptivas contenida en las estadísticas se puede desglosar también en características que no hacen parte de las desagregaciones temporales ni de las geográficas, por ejemplo, la edad, el género, el estrato, el nivel de formación, entre otras características que sean relevantes para la conformación de cifras estadísticas. Para ilustrar, en el caso de la UNAL, resulta relevante contar con la desagregación de los estudiantes admitidos de acuerdo con el tipo de admisión, que puede ser, por un lado, regular, cuando un estudiante presenta el examen y gana un cupo en el programa para el que se inscribió o, por el otro, especial, que busca favorecer minorías poblacionales o poblaciones apartadas de los centros de desarrollo del país a través de acciones afirmativas 19.

Un elemento que vale la pena destacar es que las desagregaciones se pueden combinar de acuerdo con el interés estadístico. Por ejemplo, puede haber desagregaciones temporales que, a su vez, tengan en cuenta desagregaciones geográficas e, incluso, desagregaciones temáticas. Así, una segmentación que incluiría los tres tipos de desagregaciones podría ser aquel grupo de estudiantes que ingresaron por admisión especial (temática) a los programas curriculares del departamento de medicina (institucional) en los últimos seis semestres (temporal).

2.2.5 Representación gráfica y tabular

La implementación de recursos visuales en los procesos de comunicación ha sido una constante en el desarrollo de la civilización. Tal parece que, dentro de las interacciones humanas, lo gráfico se consolida como una estrategia de representación y de apropiación de la realidad ampliamente empleada y valorada que permite dar cuenta de los modos en que se habita y se percibe el mundo.

El desarrollo de las representaciones gráficas ha traído consigo la conformación de nociones y normas estéticas que condicionan las producciones visuales. De ahí que sea posible discutir al respecto de técnicas como la pintura, los grabados, el dibujo o la fotografía. Ahora bien, cualquier recurso gráfico puede ser entendido, en sentido amplio, como un recurso representativo o comunicativo. Así, mientras que una pintura impresionista de principios del siglo XX puede comunicar, o representar, las ideas sobre la libertad individual de un pintor, los recursos de visualización que se presentan a continuación comunican, o representan, cifras agregadas —es decir, las estadísticas— extraídas a partir de la disposición de los datos contenidos en las variables cuantitativas y cualitativas que hacen parte de las muestras o poblaciones asociadas.

Pues bien, existen dos grandes grupos de recursos para visualizar cifras estadísticas, a saber: los gráficos estadísticos y las tablas. Los gráficos estadísticos suelen contener menor información y un aparente menor grado de precisión en las cifras que representan, pero permiten destacar hechos notables, regularidades o tendencias que difícilmente podrían observarse bajo otra estrategia de visualización de la información contenida en las estadísticas. En contraste, las tablas permiten disponer de un mayor número de cifras con un alto nivel de precisión; no obstante, es difícil detectar tendencias, regularidades o hechos notables en las cifras dispuestas bajo esta estrategia de divulgación. Ahora bien, el ejercicio de divulgación de las estadísticas requiere representar el mayor número de información con los mayores niveles de precisión, así como la posibilidad de detectar y representar hechos notables, tendencias o regularidades sociales perceptibles visualmente. De modo que tanto los gráficos estadísticos como las tablas son importantes.

Algunos de los gráficos estadísticos más comunes empleados en la visualización de estadísticas son los gráficos de barras, que hacen énfasis en la comparación entre elementos en un periodo de tiempo específico; gráficos de línea, que muestran las relaciones de los cambios en los datos en un periodo de tiempo; gráfico circular o pie, que se utilizan para mostrar cómo diferentes partes representan un total; gráficos de dispersión o scatter plot, son útiles para mostrar la relación entre diferentes puntos de datos. Tales gráficos se suelen emplear de acuerdo con los tipos de variables que conforman las poblaciones o muestras de origen, así, el gráfico de líneas para representar variables temporales; el gráfico de barras o el pie chart para la representación de variables cualitativas; los box plots o histogramas para la representación de variables cuantitativas (intervalo o razón); los mapas para la representación de la información estadística de manera territorial, entre otros.

Por otro lado, las tablas están conformadas, básicamente, por filas y columnas que se ordenan de maneras diferentes para representar la información. La intersección de una fila con una columna recibe el nombre de celda. Otros elementos que comúnmente se encuentran en las tablas son los títulos, que permiten nombrar e identificar la tabla y los encabezados, que describen el contenido de las filas o columnas. Las tablas, en comparación con los gráficos, pueden ser una mejor estrategia para representar varias desagregaciones a la vez.

2.2.6 Mecanismos de divulgación y de comunicación

Desde las primeras apariciones del término, es decir, como los “hechos notables de un Estado”, las estadísticas han estado ligadas a la divulgación y la comunicación. La discriminación y el análisis de regularidades, así como su sistematización y representación en tablas y gráficos tienen sentido en la medida en que pretenden informar algo a alguien. De modo que la última característica intrínseca de las estadísticas consiste en la necesidad de divulgar y comunicar las cifras, así como los análisis que de ellas se sigan.

En el ámbito de la gestión pública, por ejemplo, el proceso de divulgación y de comunicación es el que más tiene relevancia para la población no especializada, pues es la única manera que tiene de enterarse de las cifras estadísticas y de sus implicaciones. De hecho, conceptos como transparencia institucional o datos abiertos solo tienen sentido a través de los modos en que se articulan los medios de divulgación y comunicación.

Simplificando y adaptando el modelo tradicional de (Shannon C. 1949), de lo que se trata es de una fuente de información (como podría ser un conjunto de datos estructurado y ordenado) a partir de la cual se codifica un mensaje que se transmite por un determinado canal, que bien podría ser el cable del teléfono o el aire por el que viajan las ondas, pero en un sentido más amplio sería también el correo institucional de una universidad o sus perfiles en las redes sociales. El mensaje se transmite a un receptor, que podría ser un grupo general de estudiantes de una universidad o el grupo particular de egresados de un determinado programa curricular. Y entre la señal que se emite y la señal que se recibe, se establece una fuente de ruido o interferencia que afecta en mayor o menor medida el contenido del mensaje. Cuanto más clara la información, menor posibilidad de que se vea afectada por el ruido.

Así, es de especial importancia que dentro de los procesos de comunicación de las estadísticas se tengan bien definidas las fuentes de información y que la codificación del mensaje no se tome a la ligera. De hecho, como se mencionó, la implementación de un gráfico u otro puede contribuir a robustecer o debilitar el mensaje. Asimismo, la codificación del mensaje debería tener en cuenta al receptor para así reducir la posibilidad de ruido. No es lo mismo enviar un boletín informativo a los estudiantes matriculados por primera vez, es decir, que hasta ahora empiezan en la universidad, que a un grupo de docentes de carrera con amplia trayectoria y conocimiento de la institución. Con respecto al canal, resulta evidente que un medio puede ser más eficaz que otro para enviar determinado tipo de mensaje. Por ejemplo, un mensaje que tenga que ver con la cantidad de plazas disponibles para docentes en una universidad puede ser más eficaz si se transmite a través de una red social empresarial como LinkedIn que a través de una red social como Instagram.

(Wiener 1961) añade al modelo de (Shannon C. 1949) la noción de feedback, que se refiere a la reacción que causa el proceso de comunicación en el receptor. El feedback sirve para distinguir los mecanismos de divulgación de los mecanismos de comunicación. Mientras que los medios de divulgación no tienen en cuenta el feedback, como un folleto impreso, donde no se espera que el receptor pueda retroalimentar el proceso comunicativo, los medios de comunicación tienen en cuenta e, incluso, fomentan la retroalimentación.

En la actualidad, es común disponer de mecanismos de divulgación estadística, que pueden ser físicos (como los boletines estadísticos impresos) o digitales (como los dashboards, cubos, las presentaciones, las infografías, etc.). Sin embargo, es importante avanzar hacia estrategias que permitan que esos mecanismos de divulgación sean, a su vez, mecanismos de comunicación, es decir, que además de divulgar, permitan la retroalimentación de los usuarios. Una estrategia notable para tal propósito es la implementación de redes sociales, pues permiten alojar de manera eficiente diversos mecanismos de divulgación y, a la vez, fomentan la interacción a través de comentarios o reacciones.

2.3 Características extrínsecas

Como se ha visto hasta ahora, las estadísticas tienen, cuando menos, seis características intrínsecas, esto es, indispensables para llamarse propiamente estadísticas. Asimismo, hay siete características extrínsecas que no son menos importantes; al contrario, contribuyen en gran medida a definir el sentido de las estadísticas en el ámbito de la gestión pública.

2.3.1 Incluyentes

Una exigencia para las estadísticas en el ámbito de la gestión pública es reconocer y responder a la diversidad. Tanto las poblaciones o muestras estudiadas como las comunidades de difusión y comunicación tienen unas características y necesidades particulares que deben tenerse en cuenta.

Vale la pena resaltar que, tradicionalmente, las estadísticas se han caracterizado por lo que se podría denominar como poco incluyentes. El análisis de grupos extensos de datos y números parece desdibujar la realidad de grupos pequeños, poco representativos, que se sugieren insignificantes al lado de los grupos grandes en la medida en que no afectan la tendencia general. Sin embargo, las estadísticas enmarcadas en la gestión pública no pueden desligarse de los derechos y las identidades de las personas que analiza 20.

(Echeita 2013) presenta una estructura para entender la inclusión en el ámbito pedagógico que puede ser de bastante utilidad para abordar la característica incluyente de las estadísticas en lo público. Para el autor, la inclusión tiene cuatro elementos fundamentales: primero, acceso, se debe velar por que todas las personas de una población puedan buscar, consumir y entender las estadísticas, sin importar las limitaciones físicas, mentales, sociales o económicas; segundo, participación, es decir, que todas las poblaciones puedan ser representadas en la construcción de estadísticas sin discriminaciones por sexo, raza, origen, religión, opinión política, entre otras; tercero, la inclusión como valor o cualidad, esto es, como un principio que se manifiesta en comportamientos y actitudes de las personas y que se puede fomentar y medir 21; finalmente, cuarto, la inclusión desde una perspectiva de propósito social, que consiste en la idea de una sociedad incluyente como propósito fundamental de la construcción de estadísticas, es decir, que la consolidación de cifras contribuya, por ejemplo, a la formulación y promoción de políticas y prácticas de inclusión.

La inclusión en las estadísticas ya ha sido un tema de interés nacional en Colombia. El DANE presenta una serie de lineamientos que buscan impulsar la inclusión de un “enfoque diferencial e interseccional” 22 en los procesos de producción de información estadística en Colombia (DANE 2020a, 6). La guía se centra en cinco principios de la carta de datos inclusivos: primero, todas las poblaciones deben incluirse en los datos; segundo, todos los datos deben desagregarse 23, siempre que sea posible, para describir todas las poblaciones; tercero, los datos deben producirse en todas las fuentes posibles garantizando los principios de calidad de la información; cuarto, las personas encargadas de la recopilación de datos y elaboración de estadísticas deben hacerlo con total transparencia y responsabilidad; quinto, debe mejorarse constantemente la capacidad humana y técnica para recopilar, analizar y usar datos, especialmente mediante una financiación adecuada y sostenible.

2.3.2 Comparables

La segunda característica extrínseca se refiere a la tendencia de las estadísticas en el ámbito de lo público a buscar estrategias para garantizar la comparabilidad a nivel institucional, nacional e internacional, esto es, para garantizar la capacidad de ser comparadas, contrastadas y evaluadas en función de ciertas características o atributos similares. De hecho, la comparabilidad en términos generales es una condición necesaria para el desarrollo de las estadísticas 24. Sin definiciones precisas sobre las escalas, los valores o los elementos que van a ser sujetos de análisis estadístico es imposible realizar procesos de comparación que redunden en alguna cuantificación o medición fiable.

La comparabilidad de las estadísticas en el campo de la gestión pública se pone de manifiesto en cuatro elementos relevantes, a saber, las normas, la unificación, la especificación y la simplificación. En primer lugar, las estadísticas se construyen en un marco normativo que las condiciona. Cada Estado, institución u organismo tiene una serie de normas sobre las cuales es posible el desarrollo de las estadísticas en lo público.

En segundo lugar, se busca la unificación a través de estándares, como codificaciones y nomenclaturas, que permiten las comparaciones a diferentes niveles. Por ejemplo, la clasificación internacional universitaria de las asignaturas de los programas curriculares en créditos hace que las estadísticas correspondientes a las notas de un estudiante en España puedan llegar a ser comparables y, por lo tanto, representativas y convalidables en Colombia. Otro ejemplo de unificación es el estándar nacional Divipola (División Política y Administrativa) (Datos abiertos Colombia, s. f.) en Colombia, que define y codifica a través de un código numérico la manera en la que se divide política y administrativamente el territorio, esto es, en entidades territoriales (departamentos, distritos y municipios), áreas no municipalizadas y centros poblados.

En tercer lugar, la comparabilidad se expresa a través de la especificación, que consiste en la implementación de un lenguaje claro y conciso para evitar ambigüedades y errores de identificación. Asimismo, la especificación tiene que ver con la definición precisa de cualquier concepto institucional o interinstitucional involucrado en los procesos de cuantificación o medida.

Por último, tanto para las normas como para las estrategias de unificación y de especificación, se recomienda velar por la simplificación. Es decir, que las normas, las codificaciones, las nomenclaturas y las definiciones sean tan abreviadas como sea posible.

2.3.3 Legales y éticas

Como se mencionó, las estadísticas se circunscriben según una normatividad que las sustenta y, por ende, soporta la relevancia de la información generada; es decir, están sujetas a leyes institucionales, estatales o internacionales, como protección de menores, privacidad, protección de datos, habeas data, ley de transparencia o de datos abiertos, entre otras. El carácter legal de las estadísticas consiste, pues, en la manera en la que los procesos de conformación y comunicación de cifras descriptivas respetan las leyes vigentes. En este sentido, resulta de especial importancia velar por la formación al respecto de las diferentes normativas involucradas en los procesos estadísticos. En Colombia, por ejemplo, se cuenta con el documento del Consejo Nacional de Política Económica y Social (DNP 2020), que busca mejorar la confianza y la seguridad de la información a nivel digital a través de determinadas regulaciones contenidas en una política nacional.

Dentro de los marcos normativos se suele poner en evidencia una tensión en el ámbito de las estadísticas entre el derecho particular y el derecho general, esto es, entre el derecho a estar informado y el derecho a la privacidad. Cualquier ejercicio de las estadísticas en el ámbito de la gestión pública debería reflexionar al respecto de la prioridad que se le da a un elemento o a otro en cada caso. En Colombia, la tensión se manifiesta, por ejemplo, a través de las implicaciones, en la práctica 25, de la Ley 1712 de 2014 —Ley de transparencia y del derecho de acceso a la información pública nacional— y el habeas data, que es un derecho fundamental consagrado en el artículo 15 de la Constitución Política de Colombia, la Ley 1581 de 2012 y sus normas concordantes. Por un lado, la Ley 1712 resalta que la información relacionada con cualquier entidad, organismo o persona que desempeñe una función pública esté a disposición de todos los ciudadanos e interesados de manera oportuna, veraz, completa, reutilizable, procesable y en formatos accesibles y, por el otro, el habeas data protege, regula y reglamenta el uso y tratamiento de la información privada de las personas.

Además de las normas que condicionan la consolidación, la difusión y el acceso al conjunto de información ordenada en cifras descriptivas —esto es, a las estadísticas— hay una serie de desafíos propios en la consolidación de estadísticas que suponen retos de carácter ético, por ejemplo, la implementación de metodologías adecuadas para capturar, procesar y representar los datos; proteger la confidencialidad de una muestra o población determinada; buscar la objetividad en el análisis; evitar resultados predeterminados, entre otros.

Para el caso particular del contexto colombiano, el DANE cuenta con un Sistema de Ética Estadística (DANE 2021) que estructura la práctica estadística en lo público a través de cuatro ejes y principios éticos. El primer eje, la dignidad humana, la confidencialidad y el enfoque diferencial, que tiene que ver con la protección de los derechos fundamentales de las personas y el respeto de los derechos a la intimidad personal y familiar; el control de los individuos sobre sus datos personales; la garantía de un enfoque diferencial en las estadísticas, y el respeto a la dignidad humana.

El segundo eje, la imparcialidad, transparencia y publicidad, que consiste en la transparencia y rendición de cuentas como principios garantes de acceso a la información pública y de control social; la participación de los actores involucrados; la garantía de integridad en el tratamiento de los datos y publicación de resultados; la oportunidad y el acceso equitativo a la información y la imparcialidad en la producción estadística. Tercero, la legitimidad y generación de valor público, que destaca la contribución de los datos al bien público; la generación y promoción de la confianza en las estadísticas; y el ajuste de la producción estadística a los marcos legales. Finalmente, el cuarto eje es sobre el uso seguro de las tecnologías actuales y futuras, que alude a la ponderación de las implicaciones y los riesgos de los datos colaborativos y a la promoción de la supervisión humana, considerando los límites y riesgos del uso de nuevas tecnologías de información.

2.3.4 Públicas, transparentes y abiertas

La cuarta característica extrínseca tiene que ver con el carácter público, transparente y abierto que debería tener la información. Es decir, que cualquier persona esté en capacidad de acceder de manera libre y sin restricciones a los datos sobre sí misma y sobre su entorno. Además, los datos relacionados con la función pública, respetando las restricciones legales, deberían poder ser reutilizados y redistribuidos para propósitos diferentes a los originales 26. En este punto, es importante mencionar que para la reutilización de los datos no basta con el acceso a estos; además de ser publicados deberían cumplir características específicas para que puedan ser reutilizados fácilmente, como, por ejemplo, ser datos ordenados 27.

Las estadísticas deben ser abiertas y transparentes en el ámbito de la gestión pública en la medida en que contribuyen a la verificación del cumplimiento de funciones, lo que evita la corrupción y promueve el empoderamiento y la participación ciudadana en la solución de problemas públicos.

Para que los datos puedan ser públicos, transparentes y abiertos es importante tener en cuenta el proceso de construcción de estadísticas, así como los mecanismos para su difusión y comunicación. En otras palabras, la conformación adecuada de poblaciones o muestras, la estructuración ordenada de los datos, las desagregaciones representativas y detalladas, el uso de estándares y las estrategias de divulgación y comunicación favorecen el acceso libre y sin restricciones a los datos. Lamentablemente, esto no siempre se da en la práctica; en ocasiones, hay datos que son puestos a disposición del público solo por cumplir un requisito, esto es, sin tener en cuenta su calidad 28. Esto, al contrario de contribuir a la transparencia o la apertura, afecta el valor de los datos y su utilidad.

En el caso particular del contexto colombiano, se establece la ya mencionada Ley 1712 de 2014, que fomenta la característica pública, abierta y transparente de la información. Así, las entidades públicas y las personas naturales o jurídicas que desempeñen una función pública están en la obligación, entre otros deberes, de publicar la información de naturaleza cuantitativa en el portal de datos abiertos 29 del Estado colombiano 30. Por su parte, en el contexto internacional, un buen ejemplo de datos abiertos podría ser el sitio web de datos abiertos UNdata de la Organización de las Naciones Unidas (ONU), donde están publicadas algunas estadísticas representativas de diferentes países 31.

Ahora bien, el rasgo público de las cifras estadísticas pone de manifiesto el asunto abordado en la característica anterior sobre la tensión entre lo privado y lo público. La tensión, como hemos visto hasta ahora, radica en que, por un lado, se promueve el libre acceso y la utilización de la información y, por el otro, la confidencialidad y la privacidad, al menos, en la práctica. Un ejemplo para ilustrar la problemática podría ser la desagregación de estudiantes víctimas del conflicto armado que se hace en la UNAL. Para la institución, resulta relevante conocer los datos de los estudiantes que pertenecen a dicho grupo, así como los programas curriculares a los que se inscriben. Sin embargo, compartir dicha información podría resultar en el señalamiento o la estigmatización de los diferentes programas curriculares, los departamentos universitarios, la universidad e, incluso, llegar a contextos nacionales o regionales a través de, por decir algo, la publicación de los datos mencionados en los portales del Estado, lo que podría poner en riesgo a las personas.

Vale la pena mencionar que a pesar de las tensiones que se puedan presentar entre las dimensiones pública y privada, es importante velar por que las poblaciones minoritarias se representen a través de cifras estadísticas.

2.3.5 Uso intensivo de las TIC

En la actualidad, los datos empleados para la consolidación de cifras estadísticas se capturan, almacenan, transforman, construyen, visualizan y comunican a través de herramientas relacionadas con las tecnologías de la información y la comunicación. Herramientas como Excel, Python o R son cada vez más comunes en el ámbito no especializado, y términos como analítica, big data, procesamiento de lenguaje natural, minería de datos o ciencia de datos son cada vez más empleados en nuestras conversaciones habituales.

De hecho, la relación entre estadísticas y tecnología no es un tema nuevo. Si se entiende a la tecnología como aquel conjunto de conocimientos, herramientas y habilidades aplicados de manera sistemática para la resolución de problemas, se puede afirmar que la producción de estadísticas ha estado siempre vinculada a la vanguardia tecnológica del presente, sin importar si esa vanguardia se refiere a recuentos en papel y lápiz, escuadras de celuloide, transportadores, compases, tinta china, tablas de madera, codificaciones digitales, encuestas virtuales, algoritmos o scripts de Python o R.

Pues bien, el avance tecnológico actual ha significado ventajas tales como procesar una mayor cantidad de datos en una menor cantidad de tiempo; difundir y comunicar los resultados a más personas; almacenamiento y procesamiento en la nube; simplificación de los procesos de búsquedas en bases de datos, entre otras. De hecho, pareciera que la tecnología de vanguardia se presenta como un imperativo de la época y hay quien pudiera pensar que el último programa de gestión y análisis de datos podría garantizar, en sí mismo, mejores resultados.

No obstante, el uso de las tecnologías más avanzadas no es sinónimo de una mejor producción de cifras estadísticas, ni de un mayor nivel de transparencia institucional ni tampoco lo es de una mejor comunicación. De modo que la consolidación de estadísticas en el ámbito de la gestión pública debe estar permeada por los avances más representativos en materia tecnológica, pero sin olvidar la importancia de la planeación estadística, de precisar los objetivos de cuantificación o medida, así como los elementos que van a ser susceptibles de dicha medición o conteo. Lo anterior en la medida en que la planeación estadística y las definiciones pertinentes son pasos previos y necesarios para la implementación de cualquier tecnología.

Finalmente, vale la pena mencionar que, en la actualidad, la implementación de nuevas herramientas tecnológicas supone temas que no se deberían pasar por alto, como la comercialización y el mercado de datos 32. De esta manera, los datos, además de ser de interés para las sociedades, son de interés para un amplio número de organizaciones que ofrecen diferentes servicios tecnológicos y comunicativos para apoyar los procesos de consolidación de cifras y que, en ocasiones, cobran por hacer uso de las herramientas que permiten procesar los datos e, incluso, pueden llegar a involucrar acuerdos para hacer uso de dichos datos con fines comerciales.

2.3.6 Metadatos

La sexta característica o recomendación de las estadísticas en el ámbito de la gestión pública tiene que ver con el uso de metadatos, es decir, de los datos que hablan sobre los datos. Estos desempeñan un papel fundamental en la difusión y la comunicación de las estadísticas, pues definen la manera en la que los datos deben ser leídos, tanto para personal especializado como no especializado, reduciendo así malas interpretaciones o tergiversación. De hecho, según el (DANE 2020b), los metadatos hacen referencia a la información necesaria para el uso e interpretación de las estadísticas y se requieren para articular y generar de manera adecuada la producción de información estadística.

En el presente libro, Estadísticas e indicadores en la gestión pública, se propone clasificar los metadatos en dos categorías: los metadatos descriptivos y los metadatos de instrucción. Los primeros describen las características de los datos, es decir, explican cómo son y cómo están construidos, así como los demás elementos necesarios para entenderlos. Los segundos definen los modos en que los datos pueden ser usados, por ejemplo, cómo se almacenan, cómo se modifican, sus restricciones de propiedad intelectual, entre otras instrucciones de uso 33.

2.3.7 Proceso estadístico

La séptima y última característica extrínseca determinante de las estadísticas en el ámbito de lo público tiene que ver con que estas se construyen y comunican a través de la ejecución de una serie de pasos y actividades que involucran, en mayor o menor medida, las características intrínsecas y extrínsecas descritas hasta ahora. Tal serie de procesos y subprocesos recibe el nombre de proceso estadístico. Según los Lineamientos para el proceso estadístico en el Sistema Estadístico Nacional del (DANE 2020b) se entiende por proceso estadístico aquel conjunto sistemático de actividades encaminadas a la producción de estadísticas que comprende la detección de necesidades de información, el diseño, la construcción, la recolección, el procesamiento, el análisis, la difusión y la evaluación.

La primera fase consiste en la detección y análisis de necesidades, donde se valida la necesidad de realizar la operación estadística 34 y la viabilidad de la misma; la segunda fase, de diseño, tiene que ver con la definición de la metodología de cada fase; la tercera es de construcción, donde se desarrollan las herramientas y los instrumentos necesarios para la operación estadística; la cuarta fase es de recolección y hace referencia a la ejecución de las fases anteriores con el fin de obtener los datos; la quinta fase comprende el procesamiento que resulta en una única base de datos con ponderaciones y resultados preliminares; la sexta es la de análisis, es decir, donde se verifica la coherencia y la consistencia de los datos para su posterior interpretación; la fase siete abarca el proceso de difusión que consiste en poner a disposición de los usuarios la información estadística generada; finalmente, la fase ocho alude a la evaluación, donde se verifica el cumplimiento de los objetivos, se consolidan los hallazgos y se formula un plan de mejora.

2.4 De la teoría a la práctica

Con el fin de ilustrar la descripción teórica que se ha expuesto hasta ahora de las características de las cifras estadísticas como objeto de estudio, se presentan a continuación las características intrínsecas y extrínsecas a través de un ejemplo práctico basado en las cifras contenidas en uno de los principales recursos de la página de estadísticas de la UNAL 35, esto es, el módulo de cifras oficiales 36.

2.4.1 Características intrínsecas en la práctica

Para ilustrar las características intrínsecas, se considera la estadística o población de estudiantes de primera matrícula en la UNAL. Esta población abarca el número total de estudiantes que se inscriben por primera vez en la institución, como se refleja en la cifra de 5675 para el segundo semestre del año 2022 37. Es importante destacar que esta población constituye un subconjunto anidado dentro del conjunto más amplio de estudiantes matriculados en la universidad durante más de un periodo.

En cuanto a las variables, o características relevantes para el ejercicio estadístico dentro de la UNAL, en esta población se pueden identificar algunas como el sexo de los estudiantes, la sede de la universidad en la que estudian, el nivel de formación (pregrado, especialización, maestría, doctorado) y la edad. Las variables en cuestión se pueden dividir en nominales (el sexo y la sede), ordinales (nivel de formación) y de intervalo (edad) 38.

Las variables que describen la población empleada para ejemplificar las características intrínsecas se transforman para que sus datos presenten una estructura ordenada (tidy data), que se consolida como una estrategia a nivel primario que facilita el almacenamiento y, en general, el trabajo con los microdatos. Sin embargo, la estructura tidy data no es la mejor para la comunicación y la visualización, por lo que, en la página de estadísticas oficiales de la UNAL, los datos se agregan a través de estrategias de visualización tabular que no necesariamente siguen la estructura tidy data.

A partir de los datos consolidados y agregados, es posible desagregar la población en grupos más pequeños, por ejemplo, la desagregación geográfica de lugar de procedencia de los estudiantes; la desagregación geográfica institucional de los estudiantes matriculados por primera vez a nivel general, por sedes, facultades o programas académicos; y las desagregaciones temáticas de modalidad de formación, sexo, áreas del conocimiento, entre otras.

Las cifras, sin importar si son agregadas o desagregadas, se representan de manera tabular y gráfica. Por ejemplo, en la página de estadísticas de la UNAL se emplean algunas estrategias, como la representación gráfica que describe una serie de tiempo de la variable sexo y que evidencia, además, una desagregación temporal de esa variable temática (Gráfica 1); la gráfica circular que da cuenta de la situación actual (2022-2) de la distribución por sexo de los estudiantes matriculados por primera vez (Gráfica 2); una representación tabular que resume el comportamiento de la variable sexo a nivel temporal y actual (Tabla 3); y, para terminar, la representación de la desagregación geográfica del lugar de nacimiento (municipios de Colombia) de los matriculados por primera vez en 2022-2 a través de un mapa (Gráfica 3).

Gráfica 1. Evolución del número de estudiantes matriculados por primera vez de acuerdo con el sexo. Fuente: elaboración propia.


Gráfica 2. Distribución de estudiantes matriculados por primera vez de acuerdo con el sexo. Fuente: elaboración propia.


Tabla 3. Total de estudiantes matriculados por sexo. Fuente: elaboración propia.


Gráfica 3. Mapa del lugar de nacimiento en municipios de Colombia de los matriculados por primera vez. Fuente: elaboración propia.


Finalmente, para concluir con las características intrínsecas, la página de estadísticas de la UNAL se consolida como un medio de difusión y comunicación que ofrece una amplia gama de cifras relevantes sobre diversas poblaciones de interés universitario. Mediante esta herramienta, es posible acceder de manera clara y concisa a las estadísticas oficiales de la universidad y, además, evidenciar cómo intervienen las nociones teóricas de las características de las estadísticas en la construcción de un ejercicio práctico.

2.4.2 Características extrínsecas en la práctica

Con respecto a las características extrínsecas, la disposición de las cifras que se hace en la UNAL pretende ser incluyente, por lo que se vela por que todas las poblaciones que involucran personas sean descritas. Así, dentro de la población de estudiantes matriculados por primera vez, como en otras poblaciones universitarias, se describen también las poblaciones anidadas del Programa de Admisión Especial (PAES) y el Programa de Admisión Especial y Movilidad Académica (Peama) 39, que representan, por ejemplo, el 9,4% y 6,1% respectivamente de todos los estudiantes admitidos por primera vez para 2022-02.

Además, dentro de la página de cifras oficiales de la UNAL la característica de la comparabilidad se refleja a través de la aplicación de normas, la unificación, la especificación y la simplificación. De esta manera, se tienen en cuenta las normas y las unificaciones, por ejemplo, a través de los códigos contenidos en estándares nacionales e internacionales que permiten identificar y definir lo que es un programa curricular y cada uno de ellos, así como los códigos de los municipios para los lugares de nacimiento 40.

Un lugar de la página de estadísticas en el que se puede evidenciar el uso de un lenguaje conciso y de definiciones precisas es en la sección de metadatos, donde se describen los datos y la manera en la que estos deben ser leídos o empleados. A continuación, se presenta una tabla en la que se ven los modos en que, a través de metadatos, se precisan las definiciones de algunos atributos relevantes para la presentación de las cifras de la UNAL en la página de estadísticas oficiales (Tabla 4).

Tabla 4A. Metadatos de atributos y desagregaciones. Fuente: elaboración propia.

Tabla 4B. Metadatos de atributos y desagregaciones. Fuente: elaboración propia.

Los metadatos desempeñan un papel fundamental al proporcionar los detalles para comprender conjuntos de datos, siendo de utilidad tanto para un público especializado como para uno sin experiencia en el campo o no especializado. Esta consideración adquiere una importancia crucial, ya que garantiza el acceso sin restricciones a los datos, especialmente cuando se trata de asuntos públicos, es de gran relevancia. Desde esta perspectiva, la característica de las cifras estadísticas que resalta su naturaleza pública, transparente y de acceso abierto adquiere un valor aún más significativo. Pues bien, en la página de la UNAL hay una sección particular que contiene un hipervínculo a la página de datos abiertos del Estado colombiano 41, a fin de facilitar el acceso y la disponibilidad de los microdatos oficiales de la UNAL de manera pública, abierta, accesible y transparente para todos los ciudadanos.

Otra característica extrínseca es la de uso intensivo de las tecnologías de la información y comunicación (TIC), que se ve de manera clara en la página de estadísticas de la UNAL, en donde la influencia de las TIC condiciona la forma en que se recopila, procesa, almacena y presenta la información estadística. Lo anterior en la medida en que se emplean diversas estrategias de automatización, recopilación y comunicación de los datos para representar de manera eficiente y oportuna la información cuantitativa de la UNAL.

Al mismo tiempo, dentro de la estructuración de la página de estadísticas oficiales de la UNAL se aplican rigurosamente diversas normativas legales. Por ejemplo, se considera la Ley de Protección de Datos Personales en relación con la información recopilada de los estudiantes. Asimismo, se atienden los aspectos relativos a los derechos de autor y propiedad intelectual, garantizando la protección de los creadores de la página, las aplicaciones y otros elementos. También se aborda la normativa sobre cookies y tecnologías de seguimiento. Además de estas consideraciones legales, en términos éticos, el contenido de la página se esfuerza por ser imparcial y se ajusta a los lineamientos del Sistema de Ética Estadística del (DANE 2021) y sus principios rectores.

Finalmente, la página de estadísticas de la UNAL representa la noción de proceso estadístico en la medida en que para llegar a ella se recopilan, analizan, interpretan y presentan datos numéricos de manera sistemática y organizada, siguiendo un flujo lógico de pasos que se definen para responder a unos objetivos definidos.

A continuación, se resaltan algunas de las características en elementos puntuales de la página:

Gráfica 4. Módulo de cifras en la página de estadísticas de la Universidad Nacional de Colombia. Fuente: elaboración propia.

  1. Como se mencionó en el enfoque pragmático de la información, para (Buckland 1991) el concepto de dato hace referencia a un tipo de información (información como cosa) que ha sido procesada para un uso determinado.↩︎

  2. La idea del conocimiento como fuente de libertad puede rastrearse en varios diálogos platónicos, especialmente en La República, donde se aborda la formación de una sociedad justa y el papel de la educación en esa sociedad. Todavía más, la conocida alegoría de la caverna, presente en el libro VII (514a) de La República, ilustra metafóricamente el asunto del conocimiento y la libertad.↩︎

  3. Vale la pena resaltar que la perspectiva desde la que se construyen y se abordan “los asuntos notables de un Estado” es, para el caso de las estadísticas, cuantitativa.↩︎

  4. Una primera aproximación a esta labor se llevó a cabo en el libro de Rodríguez y Bernal (2019), donde se describen once características asociadas a las estadísticas que se clasifican y complementan a lo largo de este apartado.↩︎

  5. Vale la pena resaltar que el ser comparables bien podría hacer parte de las características intrínsecas de las estadísticas, pues siempre buscan establecer relaciones, semejanzas y diferencias. Sin embargo, en esta ocasión se hace referencia a convenciones más de carácter social e institucional.↩︎

  6. Un ejemplo de nuevas mediciones son los indicadores, que son objeto de discusión en el siguiente capítulo del presente libro.↩︎

  7. En (Wolf C. 2016) se presenta de manera breve lo que concierne al tema de las muestras no probabilísticas.↩︎

  8. Resulta importante anotar que los individuos que conforman una población o muestra pueden ser no humanos.↩︎

  9. Según la página del DANE, la estratificación socioeconómica en Colombia se refiere a la clasificación de inmuebles residenciales con el propósito de cobrar de manera diferencial los servicios públicos domiciliarios (DANE (s.f.a). Estratificación Socioeconómica).↩︎

  10. En Colombia, el Departamento Administrativo Nacional de Estadística (DANE) cuenta con una metodología para el aprovechamiento estadístico de registros administrativos (DANE 2018a).↩︎

  11. Dado que estos registros se crean con fines administrativos y no estadísticos, es necesario llevar a cabo un proceso de fortalecimiento para que puedan ser utilizados con propósitos estadísticos.↩︎

  12. Para un lector que valore la precisión, podría parecer necesario establecer una distinción explícita entre datos y variables. Sin embargo, en un contexto más práctico, y para un usuario común, no especializado, resulta más sencillo referirse a esto como datos. En última instancia, es importante comprender que las variables de una población o muestra se basan en datos.↩︎

  13. La producción de estadísticas requiere la disposición de datos ordenados (tidy data) en las poblaciones o muestras. No obstante, como se mencionó, no todo conjunto de datos estructurado es ordenado por lo que estos, en ciertas situaciones, deben ser manipulados y transformados con el fin de alcanzar el ordenamiento que requiere la construcción y disposición de las estadísticas.↩︎

  14. Uno de los elementos más relevantes de la conformación de estadísticas es que, a través de las cifras agregadas, es posible describir elementos de la realidad que no se podrían identificar viendo cada uno de manera aislada. En este sentido, las cifras agregadas se constituyen como un componente de las estadísticas que contribuye en gran medida a los modos de articular e interpretar la realidad.↩︎

  15. Vale la pena mencionar que existe un conteo intrínseco a las estadísticas que es el total de individuos que conforman una población, sin embargo, el resultado de dicho conteo no es necesariamente una variable.↩︎

  16. La distinción entre contar y medir puede parecer, en ocasiones, no tan definida. Por ejemplo, se podría decir que, de algún modo y en algún sentido, al contar se está haciendo un ejercicio de medición. Sin embargo, para la construcción de cifras estadísticas, resulta útil hacer la diferenciación.↩︎

  17. Las medidas estadísticas descriptivas para la conformación de cifras agregadas se pueden aplicar a variables cualitativas y cuantitativas o, dicho de otro modo, se pueden medir los conteos y se pueden medir las mediciones.↩︎

  18. Cada país tiene su propia división política y administrativa del territorio, por lo que su composición puede variar.↩︎

  19. Es decir, las acciones implementadas con el propósito de promover y fortalecer a ciertos individuos o colectivos, con el objetivo de eliminar o disminuir disparidades de género, socioculturales o económicas que les afectan.↩︎

  20. La característica extrínseca en consideración aplica para estadísticas basadas, sobre todo, en poblaciones humanas. Sin embargo, como se mencionó, aunque tales poblaciones son centrales en la producción de estadísticas no son las únicas en el escenario público.↩︎

  21. Por ejemplo, la inclusión, entendida como valor o cualidad, se puede fomentar a través de políticas estatales de integración y reconocimiento. Además, se puede medir por medio de, por ejemplo, la frecuencia de participación de todas las poblaciones de una comunidad universitaria en actividades curriculares y extracurriculares.↩︎

  22. Este enfoque pretende obtener y difundir información sobre grupos poblacionales con una o varias características particulares, como pueden ser pertenencia étnica, género, discapacidad, etapa del ciclo vital, entre otras.↩︎

  23. Como se mencionó en la primera parte del capítulo, las desagregaciones hacen parte de las características intrínsecas de las estadísticas y pueden ser temporales, temáticas o geográficas. Pero, además, en la medida en que segmentan a las poblaciones o muestras, permiten representar, describir y visibilizar subgrupos, fomentando así la inclusión.↩︎

  24. Hay estandarizaciones intrínsecas a la noción de estadísticas, sin las cuales no podría darse el ejercicio estadístico como lo conocemos. Por ejemplo, las mediciones o los conteos a lo largo del tiempo son, en sí mismos, comparaciones de datos obtenidos en diferentes momentos. Asimismo, las unidades de medida, como los metros o las millas, son, en el fondo, convenciones estandarizadas que permiten un lenguaje común.↩︎

  25. Al realizar un análisis detallado de los principios y las excepciones de las leyes y normas concordantes, es posible que la tensión parezca no ser tan evidente. No obstante, en la práctica, es bastante común.↩︎

  26. En el presente libro ya se resaltó la noción de “bienes no rivales” que caracteriza a los datos. Pues bien, los datos agregados —es decir, las estadísticas— no son la excepción; pueden emplearse por diferentes usuarios y para propósitos distintos cada vez.↩︎

  27. Los datos ordenados son datos que siguen una forma estándar de estructuración descrita en el apartado de Características Intrínsecas en la sección de Datos.↩︎

  28. El concepto de calidad en relación con la producción de estadísticas generalmente se interpreta de manera particular, caracterizándose por una serie de atributos precisos y bien definidos, tales como coherencia, regularidad, y otros elementos que los organismos reguladores a nivel estatal o institucional dispongan.↩︎

  29. GOV.CO. Datos abiertos. https://www.datos.gov.co/↩︎

  30. Para el caso de Colombia, los lineamientos de publicación de datos abiertos por parte de las entidades públicas y demás sujetos obligados están definidos en la Resolución 1519 de 2020 del Ministerio Tecnologías de la Información y Comunicaciones, así como en su Anexo 4 (Requisitos Mínimos de Datos Abiertos).↩︎

  31. UNdata. http://data.un.org/↩︎

  32. El mercado de los datos involucra dos tipos de herramientas, a saber: las libres, como Python y R, y las comerciales, como Tableau o Power BI. En ocasiones, las entidades optan por modelos mixtos que emplean herramientas libres y comerciales para el análisis de datos.↩︎

  33. Una descripción sobre la gestión de los metadatos y su lugar dentro del proceso estadístico se encuentra en el apartado “Gestión de metadatos” del (DANE 2020b).↩︎

  34. La diferencia entre operación estadística y proceso estadístico no es fácil de describir y no está documentada. Sin embargo, tales términos se emplean, en ocasiones, con significados distintos. A lo largo de este libro, el proceso estadístico se entiende como una serie de pasos que debe cumplir cualquier operación estadística. Operación estadística, por su parte, es la aplicación regular del proceso estadístico a cada estadística que un Estado o entidad construye.↩︎

  35. UNAL en un vistazo. http://estadisticas.unal.edu.co/home/↩︎

  36. El módulo de cifras oficiales constituye solamente uno de los elementos dentro de dicha página. A lo largo de esta sección del presente libro, cuando se mencione la página de estadísticas oficiales de la UNAL, se estará haciendo referencia específicamente al módulo de cifras oficiales.↩︎

  37. En la página de las estadísticas se cuenta con la serie de tiempo completa desde el año 2009.↩︎

  38. Para efectos prácticos, en la página de estadísticas oficiales de la Universidad Nacional de Colombia esta variable de intervalo se vuelve ordinal por un ejercicio de transformación a través de rangos.↩︎

  39. La modalidad de admisión Peama busca proyectar a la UNAL en el territorio nacional y, en específico, en departamentos y municipios con baja o nula cobertura de programas de educación superior de calidad, de difícil acceso o con problemas de orden público. La modalidad PAES, por su parte, está dirigida a la asignación regular de cupos en los programas de pregrado, y la admisión y disposición de apoyos especiales durante su proceso de formación para estudiantes provenientes de comunidades indígenas, de colegios ubicados en municipios en estado de extrema pobreza, de bachilleres de los mejores colegios del país, de integrantes de comunidades afrocolombianas y de víctimas del conflicto armado interno.↩︎

  40. En Colombia, el estándar Divipola permite identificar los departamentos y municipios, entre otros aspectos, a través de los cuales se conforma política y administrativamente el territorio colombiano.↩︎

  41. GOV.CO. Datos abiertos. https://www.datos.gov.co/↩︎