Consolidación y validación de la base ESD/GCE

Documento técnico de ERCE 2025

Autores/as

Afiliaciones

Juan Carlos Castillo

Profesor titular, Departamento de Sociología, Universidad de Chile (Responsable principal)

Daniel Miranda

Profesor asistente, Departamento de Psicología, Universidad de Chile

Katherine Aravena

Asistente de investigación, Departamento de Sociología, Universidad de Chile

Fecha de publicación

16 de marzo de 2026

0.1 Resumen ejecutivo

Durante la primera etapa del proyecto ESD/GCE ERCE 2025 se desarrolló un proceso de consolidación, estandarización y validación de bases de datos orientado a transformar un conjunto heterogéneo de archivos curriculares en una base analítica única, trazable, reproducible y apta para las siguientes fases del análisis cuantitativo. Esta etapa construye una infraestructura de datos confiable sobre la cual esos análisis puedan realizarse posteriormente con validez metodológica.

El punto de partida estaba compuesto por once módulos temáticos, organizados en distintos archivos y hojas de cálculo, con diferencias de estructura, nomenclaturas no homogéneas, vacíos derivados de celdas combinadas, duplicados operativos, filas separadoras o sin contenido analítico y codificaciones de indicadores que no eran directamente comparables entre sí. En otras palabras, la información necesaria para el análisis ya existía, pero no estaba en una forma que permitiera utilizarla sin riesgo. Analizar ese material tal como se encontraba habría expuesto el proceso a errores de conteo, pérdida de trazabilidad entre registros, confusión entre columnas equivalentes y comparaciones inválidas entre módulos.

La lógica general del trabajo desarrollado en esta entrega fue, por tanto, ordenar sin alterar el contenido sustantivo. El proceso consideró el congelamiento de insumos y la validación del inventario de fuentes; luego, la construcción de mappings por módulo para que estructuras originalmente heterogéneas pudieran traducirse a una estructura canónica común. A partir de ello, se armó una base compartida, se corrigieron artefactos heredados del formato de origen, se separó la información según su función en variables núcleo, indicadores y notas, se recodificaron los indicadores a un dominio comparable, se eliminaron duplicados de manera trazable, se consolidó todo en una base maestra y, finalmente, se ejecutaron controles de calidad en cada etapa. En términos simples, se trató de fijar y revisar los archivos de origen, definir reglas comunes para que todos los módulos hablaran el mismo idioma, ordenar y depurar la información, unirla en una sola base y verificar paso a paso que el resultado final fuera consistente, trazable y analíticamente confiable. Cada uno de esos pasos dejó evidencia verificable en forma de archivos intermedios, reportes de control de calidad y decisiones metodológicas documentadas.

El resultado final fue una base master de 7.410 filas y una tabla notes también de 7.410 filas. La base master constituye el insumo principal para el análisis cuantitativo, mientras que la tabla notes se mantuvo como una estructura auxiliar alineada registro a registro. Esta correspondencia uno a uno asegura que, cuando existe información textual o complementaria asociada a una observación, ésta pueda vincularse sin desalineación con la fila analítica correspondiente. No obstante, dado que notes no contiene contenido sustantivo en todos los casos, su valor en esta etapa radica principalmente en la conservación ordenada de esa estructura paralela, más que en aportar evidencia cualitativa completa para cada registro.

La base consolidada tiene una unidad de análisis explícita: cada fila corresponde a una evidencia o cita curricular específica ubicada en un documento, módulo y página determinados, organizando la evidencia curricular bajo una estructura común. Sobre esa unidad de análisis se articulan variables núcleo, variables de trazabilidad e indicadores recodificados.

A ello se suma que la base final no presenta duplicados globales ni de row_uid ni de row_id, que no registra faltantes globales en los campos esenciales module, pais, documento y cita, y que los indicadores quedaron contenidos dentro del dominio esperado, sin valores inválidos fuera de {0,1,NA}. En materia de completitud, se identificaron excepciones puntuales y documentadas en el campo pagina, incluyendo un caso en PAZ y otros casos observados en ESI y Salud. Estos registros no fueron eliminados de la base en esta etapa, sino que se mantuvieron temporalmente por razones de trazabilidad, a la espera de que la información pueda ser corregida o completada si se logra recuperar la referencia correspondiente. Asimismo, el proceso permitió detectar y tratar explícitamente otros casos excepcionales, como tres residuos no binarios en EDS que se conservaron como NA por honestidad semántica.

En síntesis, al comienzo existía la misma información que al final, pero dispersa, heterogénea y en una forma que no permitía confiar plenamente en su uso analítico. Al cierre de la entrega M1, esa misma información quedó organizada, alineada, documentada y verificada. La importancia de esta transformación radica en haber dejado en una forma segura los datos para producir análisis regionales y nacionales defendibles en las fases siguientes del proyecto.