3  Libro de códigos y descriptivos univariados

3.1 Libro de códigos y estructura de la base

Lectura general de la base

La base consolidada final quedó organizada en torno a dos productos principales: una base master y una tabla notes. Ambas comparten el mismo universo de observaciones y el mismo número total de filas, pero cumplen funciones distintas y complementarias dentro del proceso de análisis.

La unidad de análisis de la base es explícita: cada fila corresponde a una evidencia o cita curricular específica, ubicada en un documento, módulo y página determinados. Esto significa que la base no resume documentos completos ni países en su conjunto, sino evidencias puntuales organizadas bajo una estructura común y comparable.

Estructura general de productos

Producto Función principal Contenido Uso analítico
master Base analítica principal Variables núcleo, contexto, trazabilidad e indicadores ind_* Análisis cuantitativo
notes Tabla auxiliar alineada Notas, comentarios o texto complementario cuando existe Revisión y respaldo
codebook_full.csv Libro de códigos resumido Variables, grupos y descripciones básicas Consulta técnica rápida
codebook_master_explicito.csv Libro de códigos detallado Definición, origen raw, reglas de construcción y calidad observada Auditoría detallada

Tipos de variables

La base master concentra cuatro grandes grupos de variables, cada uno con una función analítica específica:

Grupo de variables Función Ejemplos
Núcleo Identifican y ubican la observación module, pais, documento, pagina, cita
Contexto Describen características sustantivas del registro grado_norm, materia_norm, campo_norm, categoria, nivel, subdimension, subcat
Trazabilidad Permiten reconstruir el origen exacto de la fila id_raw, row_id, row_uid, source_file, source_sheet, source_row_number
Indicadores Registran la presencia o ausencia de criterios analíticos variables ind_*

Interpretación de las principales variables

Variables núcleo

Las variables núcleo permiten ubicar e identificar cada evidencia curricular dentro del corpus consolidado. Entre ellas se encuentran module, pais, documento, documento_norm, pagina, pagina_norm, cita, cita_norm, grado_norm, materia_norm y campo_norm.

Estas variables no cumplen todas la misma función. Algunas forman parte del núcleo mínimo de identificación de la observación, mientras que otras agregan información contextual cuando la fuente original lo permite.

Variable Función Observación de lectura
module Identifica el módulo temático Está completa en toda la base
pais Identifica el país del documento Está completa en toda la base
documento Nombre original del documento fuente Está completo en toda la base
pagina Página reportada en la base cruda Tiene excepciones puntuales documentadas
cita Texto original de la evidencia curricular Está completa en toda la base
documento_norm / pagina_norm / cita_norm Versiones normalizadas para joins y llaves Se usan para comparación y deduplicación
grado_norm, materia_norm, campo_norm Variables de clasificación contextual Su cobertura depende del módulo

Completitud del núcleo mínimo de identificación

Desde el punto de vista metodológico, el núcleo mínimo de identificación de una observación está compuesto por module, pais, documento, pagina y cita. Estas variables permiten ubicar una evidencia concreta dentro del corpus y sostener su lectura analítica en condiciones de trazabilidad.

En la base consolidada final, module, pais, documento y cita presentan completitud total, mientras que pagina registra un nivel de faltantes muy bajo y acotado a excepciones ya documentadas. Esto confirma que la base quedó estructurada de manera suficientemente robusta para etapas posteriores del análisis.

Campo esencial Lectura general
module Sin faltantes
pais Sin faltantes
documento Sin faltantes
cita Sin faltantes
pagina Faltantes puntuales, bajos y documentados

Llaves y trazabilidad

Las variables de trazabilidad permiten reconstruir el recorrido exacto de una fila desde el master final hasta su origen en el snapshot congelado.

Variable Qué representa Función metodológica
id_raw Identificador original de la fila cruda Conserva referencia original
row_id Llave canónica construida con campos normalizados Resume la identidad analítica del registro
row_uid Llave operativa única (row_id::source_row_number) Asegura unicidad operativa en el pipeline
source_snapshot_id Snapshot congelado de origen Permite reproducibilidad
source_file Archivo Excel de origen Permite volver al documento fuente
source_sheet Hoja de origen Localiza la evidencia dentro del archivo
source_row_number Número de fila de origen Permite auditoría fina

En particular, row_id resume la identidad canónica de la fila una vez normalizados sus campos centrales. row_uid, en cambio, representa su identidad operativa única dentro del pipeline y fue clave para las etapas de patch, split, recode, dedupe y join.

Indicadores ind_*

Los indicadores constituyen la capa analítica propiamente tal. Fueron recodificados a un dominio común {1,0,NA} para asegurar comparabilidad entre módulos.

Valor Significado
1 Presencia o marca positiva del criterio
0 Negativo explícito en la fuente raw
NA Vacío, no observado, no aplicable o señal no interpretable

Los indicadores no ingresan directamente al master desde la base cruda. Primero se extraen a tablas intermedias por módulo, luego se recodifican, posteriormente pasan por deduplicación y recién entonces se incorporan al master final.

Nota sobre la tabla notes

La tabla notes funciona como una estructura auxiliar alineada con la base master. Su objetivo es conservar, cuando existen, notas, comentarios o campos textuales complementarios asociados a una observación, sin romper su correspondencia con la fila analítica principal.

Que master y notes tengan el mismo número de filas no implica que ambas contengan el mismo volumen de contenido sustantivo. Lo que esta equivalencia asegura es alineación estructural: cuando existe información textual complementaria, ésta puede vincularse sin desajustes con la observación correspondiente.

3.2 Descriptivos univariados de la base consolidada

Panorama general

La producción de descriptivos univariados al cierre de M1 cumple una función doble. Por una parte, permite caracterizar el estado de la base resultante. Por otra, constituye un control adicional sobre la plausibilidad del resultado final.

Indicador global Valor
Filas en master 7410
Filas en notes 7410
Duplicados globales de row_id 0
Duplicados globales de row_uid 0
Valores inválidos en indicadores 0

Estas cifras muestran que la base consolidada alcanzó condiciones mínimas de integridad para ser utilizada como soporte del análisis posterior. En términos operativos, al cierre de M1 se cuenta con una base alineada, sin duplicados globales de llaves y con indicadores contenidos en un dominio válido y comparable.

Cobertura por módulo

La base final reúne 7.410 observaciones distribuidas entre once módulos. La distribución es desigual, pero ello no constituye un error: refleja la heterogeneidad original del corpus y el hecho de que los módulos no tenían el mismo volumen de evidencia en las fuentes de origen.

Módulo N filas
HSE 1526
EDS 1399
Pilares actitudinal 989
Salud 909
DDHH 658
ECM 442
HSE Respeto 439
Género 316
ESI 259
PAZ 253
Pilares cognitivo 220

Los mayores volúmenes se concentran en HSE, EDS y Pilares actitudinal, mientras que Pilares cognitivo, PAZ y ESI presentan tamaños comparativamente menores. En esta etapa, el interés principal de esta distribución no es aún sustantivo, sino metodológico: confirma que la consolidación preservó la estructura del corpus sin forzar una uniformidad artificial entre módulos.

Cobertura por país

Los descriptivos por país permiten verificar que la base final ya puede ser organizada territorialmente de manera consistente. Esto es relevante porque uno de los usos esperados de la base en las siguientes fases del proyecto es la comparación entre países.

En esta entrega, la lectura de la distribución por país no busca todavía producir conclusiones sustantivas, sino mostrar que la información quedó disponible en una forma que admite desagregación nacional sin perder coherencia estructural. La tabla siguiente resume la cobertura total consolidada del corte, agregando los módulos en una sola vista para facilitar la lectura del conjunto.

También conviene notar que en la salida observada persisten algunas grafías diferenciadas para un mismo país, como Perú y Peru, o México y Mexico. En esta instancia se mantienen separadas para preservar trazabilidad respecto de la exportación efectivamente generada en este corte.

País N filas
Guatemala 975
Nicaragua 929
Venezuela 640
República Dominicana 624
Ecuador 493
Costa Rica 448
Colombia 390
Honduras 341
Chile 330
Brasil 297
El Salvador 285
Paraguay 285
Perú 269
Bolivia 243
Panamá 236
México 195
Argentina 188
Cuba 120
Uruguay 77
Mexico 23
Peru 22

Cobertura por grado

La distribución por grado permite observar hasta qué punto la base consolidada puede organizarse por nivel educativo cuando esa información se encuentra presente en los módulos de origen y fue normalizada durante el procesamiento.

La presencia de faltantes en grado_norm no debe interpretarse automáticamente como un problema de calidad, ya que en muchos casos refleja que la variable no estaba disponible, no era homogénea entre módulos o no era pertinente para ciertos tipos de evidencia curricular. Por ello, esta tabla debe leerse como una descripción de cobertura efectiva y no como un criterio único de calidad del dataset.

Para facilitar la lectura, se presenta a continuación una síntesis consolidada de la distribución observada en grado_norm. Se conservan las etiquetas tal como aparecen en la salida del corte, incluyendo formas numéricas y textuales; únicamente el valor vacío se muestra como (vacío).

grado_norm N filas
(vacío) 4995
6 803
3 695
sexto_grado 345
tercer_grado 276
unico_documento 157
sexto_ano 62
tercer_ano 32
quinto_y_sexto_grado 19
tercer_y_cuarto_grado 16
4 4
tercero 4
sexto 2

En conjunto, esta distribución confirma que la base final permite desagregar una parte importante del corpus por nivel educativo, aunque con intensidades distintas según módulo. Esto no debilita la calidad de la base; más bien muestra que la disponibilidad de esta dimensión depende de la estructura original de los insumos y del tipo de evidencia curricular codificada en cada caso.

Cobertura por materia

La organización por materia o asignatura muestra que la base final puede ser utilizada para lecturas curriculares más finas, desagregadas por disciplina. Esto fortalece su utilidad analítica para las siguientes etapas del proyecto.

Como ocurre con otras variables contextuales, la cobertura de materia_norm depende de la estructura de los módulos y de las condiciones en que esa variable estaba presente en los insumos originales.

Para evitar una tabla excesivamente extensa, se presenta una síntesis consolidada de las categorías con mayor frecuencia en materia_norm. Se conserva la lógica del corte observado: el valor vacío se muestra como (vacío) para facilitar la lectura, mientras que etiquetas como n_a se mantienen tal como aparecen en la salida exportada.

materia_norm N filas
(vacío) 3422
ciencias_naturales 415
n_a 383
ed_fisica 356
ciencias_sociales_formacion_etica_y_ciudadana 304
ciencias_sociales 299
ciencias 294
educacion_fisica 159
derechos_y_dignidad_de_las_mujeres 140
matematica 138
cs_social 129
ciencias_naturales_y_tecnologia 124
lengua 93
estudios_sociales_y_educacion_civica 90
ciencias_de_la_naturaleza_y_tecnologia 89
ciencias_de_la_naturaleza 75
creciendo_en_valores 65
gral 54
estudios_sociales 51
espanol 49

En conjunto, esta distribución muestra que la base ya puede organizarse por asignatura o campo disciplinar, aunque con nomenclaturas heterogéneas heredadas de los insumos originales. Esto no debilita la utilidad analítica del conjunto; al contrario, hace visible una dimensión de variación que podrá ser afinada o agrupada en etapas posteriores si el análisis comparativo así lo requiere.

Densidad de indicadores por fila

La densidad de indicadores por fila muestra diferencias entre módulos. Esto expresa que no todos comparten la misma arquitectura de codificación ni el mismo nivel de granularidad analítica.

Módulo Promedio de activaciones por fila
EDS 3.14
HSE 2.47
Salud 2.43
Género 2.35
HSE Respeto 2.25
PAZ 1.80
DDHH 1.50
ESI 1.44
ECM 1.26
Pilares actitudinal 1.20
Pilares cognitivo 0.47

EDS presenta la mayor densidad promedio de activaciones por fila, seguido por HSE y Salud. En el extremo inferior, Pilares cognitivo muestra la menor densidad. Esta variación no debe leerse como inconsistencia, sino como resultado de diferencias reales en la estructura de codificación de cada módulo. Precisamente por ello fue necesario recodificar los indicadores a un dominio común antes de integrarlos en una única base.

Lectura de faltantes

La lectura de los descriptivos debe distinguir entre variables esenciales y variables contextuales.

Tipo de variable Comportamiento esperado
Variables esenciales (module, pais, documento, pagina, cita) Deben tener completitud muy alta
Variables contextuales (grado_norm, materia_norm, campo_norm, categoria, nivel, subdimension, subcat) Pueden presentar faltantes altos sin implicar un error

En otras palabras, no todos los faltantes deben interpretarse como problemas de calidad. En muchos casos reflejan que la variable no existe en todos los módulos o que sólo es pertinente para ciertos tipos de evidencia curricular. Por ello, el juicio de calidad debe centrarse primero en el núcleo mínimo de identificación de las observaciones y no en exigir cobertura homogénea a variables contextuales que dependen de la estructura de cada módulo.

3.3 Anexo. Codebook explícito del master final

Fuente principal: runs/erce_m1_full/outputs/master/erce_m1_full_master.csv

Export complementario: runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv

A.1. Cómo leer este anexo

En este anexo se documenta, para cada variable, su grupo funcional, definición, dominio esperado, módulos donde aparece, origen raw, regla de construcción y calidad observada en este corte.

A.2. Variables núcleo y de trazabilidad

variable variable_group descripcion dominio calidad_en_este_corte
module nucleo Módulo temático al que pertenece la fila en el master final Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=11; ejemplos=hse | eds | pilares_actitudinal
pais nucleo País del documento curricular de origen Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=21; ejemplos=Guatemala | Nicaragua | Venezuela
documento nucleo Nombre original del documento curricular en la fuente cruda Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=293; ejemplos=Adecuacion-Curricular-Primaria-_2023.pdf | Guatemala CNB_3er_grado.pdf
pagina nucleo Página reportada en la base cruda Texto libre normalizado o valor técnico derivado pct_missing=0.0135; n_unique=408; ejemplos=25 | 28 | 26
cita nucleo Texto raw de la evidencia curricular leída desde la base cruda Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=6023
row_id trazabilidad Llave canónica hash de la fila, construida con campos normalizados Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=7410
source_file trazabilidad Archivo Excel de origen en la capa raw Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=9
source_sheet trazabilidad Hoja Excel de origen en la capa raw Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=5
source_row_number trazabilidad Número de fila del lector en la hoja de origen Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=1543
row_uid trazabilidad Llave operativa única para joins internos Texto libre normalizado o valor técnico derivado pct_missing=0.0; n_unique=7410

A.3. Indicadores

variable variable_group descripcion dominio calidad_en_este_corte
ind_ddhh indicador Marca presencia temática de derechos humanos {1, 0, NA} pct_missing=95.5466; n_unique=2
ind_democracia indicador Marca presencia temática de democracia {1, 0, NA} pct_missing=96.0999; n_unique=2
ind_tag_ecm indicador Tag temático ECM (Educación para la Ciudadanía Mundial) {1, 0, NA} pct_missing=93.1444; n_unique=2
ind_cc indicador Marca presencia de cambio climático {1, 0, NA} pct_missing=99.3522; n_unique=2
ind_salud_mental indicador Marca presencia de salud mental {1, 0, NA} pct_missing=99.9595; n_unique=2

A.4. Origen raw y reglas de recodificación de indicadores

Como complemento del resumen anterior, se generó un export específico que documenta, para cada indicador y módulo, la columna raw de origen, la regla de mapping y el override de recodificación aplicado cuando corresponde. Este insumo permite auditar con mayor detalle cómo se tradujo cada marca observada en la fuente cruda al dominio analítico común {1,0,NA}.

La cobertura de este export no es uniforme por módulo, porque depende de la cantidad y diversidad de indicadores efectivamente mapeados en cada caso. En el corte utilizado para este informe, la distribución resumida es la siguiente:

Módulo N indicadores documentados
salud 21
hse_respeto 20
hse 19
eds 15
genero 14
paz 12
ddhh 8
ecm 7
pilares_actitudinal 4
esi 3
pilares_cognitivo 2

Esta información es metodológicamente relevante por dos razones. En primer lugar, permite verificar que los indicadores no fueron incorporados de manera opaca al master final, sino a partir de columnas raw identificables y reglas de recodificación explícitas. En segundo lugar, permite distinguir entre los casos en que se aplicó una recodificación binaria convencional (x/si/1 => 1, no/0 => 0) y aquellos en que fue necesario utilizar overrides como non_empty_is_positive, especialmente en variables tipo tag o en columnas cuya presencia no estaba expresada como binario puro.

Para no sobrecargar el cuerpo del codebook, la tabla siguiente presenta una selección representativa de indicadores, módulos y reglas. El detalle exhaustivo se conserva en runs/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv.

Variable Módulo Columna raw de origen Regla / override Descripción
ind_a2030_alinea ecm A2030-se alinea si/x=>1; no=>0; else NA Marca alineación explícita con Agenda 2030.
ind_a2030_alinea_guess eds blank_col_pos_36 si/x=>1; no=>0; else NA Inferencia conservadora de alineación a Agenda 2030 desde columnas unnamed en EDS.
ind_adicciones salud adicciones Override non_empty_is_positive Marca presencia de adicciones.
ind_agencia hse Agencia Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA Marca presencia de agencia.
ind_agencia hse_respeto Agencia Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA Marca presencia de agencia.
ind_consumo_responsable pilares_actitudinal Consumo responsable Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA Marca presencia de consumo responsable.
ind_ddhh ddhh ddhh x/si/1=>1; no/0=>0; else NA Marca presencia temática de derechos humanos.
ind_empodera_4 genero 4 empodera Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA Marca presencia de empoderamiento.
ind_paz_tematica paz Paz Override non_empty_is_positive Marca presencia de temática de paz.
ind_seguridad_personal esi Seguridad personal Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA Marca presencia de seguridad personal.
ind_toma_decisiones_responsable pilares_cognitivo Toma de decisiones responsable Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA Marca presencia de toma de decisiones responsable.
ind_tag_ecm ecm ECM Override non_empty_is_positive Tag temático ECM (Educación para la Ciudadanía Mundial).
ind_tag_ddhh salud DDHH Override non_empty_is_positive Tag temático DDHH.
ind_salud_mental salud salud mental Override non_empty_is_positive Marca presencia de salud mental.

La lectura combinada de este export y del codebook explícito permite entender no sólo qué significa cada indicador en el resultado final, sino también de dónde provino y bajo qué lógica fue recodificado. Esto fortalece la auditabilidad del proceso y hace posible reconstruir, con suficiente detalle, la relación entre la base cruda, las reglas intermedias y la base maestra consolidada.

Nota: El detalle exhaustivo de todas las variables está en runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv, mientras que el detalle completo de origen raw y recodificación de indicadores se encuentra en runs/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv.