3 Libro de códigos y descriptivos univariados
3.1 Libro de códigos y estructura de la base
Lectura general de la base
La base consolidada final quedó organizada en torno a dos productos principales: una base master y una tabla notes. Ambas comparten el mismo universo de observaciones y el mismo número total de filas, pero cumplen funciones distintas y complementarias dentro del proceso de análisis.
La unidad de análisis de la base es explícita: cada fila corresponde a una evidencia o cita curricular específica, ubicada en un documento, módulo y página determinados. Esto significa que la base no resume documentos completos ni países en su conjunto, sino evidencias puntuales organizadas bajo una estructura común y comparable.
Estructura general de productos
| Producto | Función principal | Contenido | Uso analítico |
|---|---|---|---|
master |
Base analítica principal | Variables núcleo, contexto, trazabilidad e indicadores ind_* |
Análisis cuantitativo |
notes |
Tabla auxiliar alineada | Notas, comentarios o texto complementario cuando existe | Revisión y respaldo |
codebook_full.csv |
Libro de códigos resumido | Variables, grupos y descripciones básicas | Consulta técnica rápida |
codebook_master_explicito.csv |
Libro de códigos detallado | Definición, origen raw, reglas de construcción y calidad observada | Auditoría detallada |
Tipos de variables
La base master concentra cuatro grandes grupos de variables, cada uno con una función analítica específica:
| Grupo de variables | Función | Ejemplos |
|---|---|---|
| Núcleo | Identifican y ubican la observación | module, pais, documento, pagina, cita |
| Contexto | Describen características sustantivas del registro | grado_norm, materia_norm, campo_norm, categoria, nivel, subdimension, subcat |
| Trazabilidad | Permiten reconstruir el origen exacto de la fila | id_raw, row_id, row_uid, source_file, source_sheet, source_row_number |
| Indicadores | Registran la presencia o ausencia de criterios analíticos | variables ind_* |
Interpretación de las principales variables
Variables núcleo
Las variables núcleo permiten ubicar e identificar cada evidencia curricular dentro del corpus consolidado. Entre ellas se encuentran module, pais, documento, documento_norm, pagina, pagina_norm, cita, cita_norm, grado_norm, materia_norm y campo_norm.
Estas variables no cumplen todas la misma función. Algunas forman parte del núcleo mínimo de identificación de la observación, mientras que otras agregan información contextual cuando la fuente original lo permite.
| Variable | Función | Observación de lectura |
|---|---|---|
module |
Identifica el módulo temático | Está completa en toda la base |
pais |
Identifica el país del documento | Está completa en toda la base |
documento |
Nombre original del documento fuente | Está completo en toda la base |
pagina |
Página reportada en la base cruda | Tiene excepciones puntuales documentadas |
cita |
Texto original de la evidencia curricular | Está completa en toda la base |
documento_norm / pagina_norm / cita_norm |
Versiones normalizadas para joins y llaves | Se usan para comparación y deduplicación |
grado_norm, materia_norm, campo_norm |
Variables de clasificación contextual | Su cobertura depende del módulo |
Completitud del núcleo mínimo de identificación
Desde el punto de vista metodológico, el núcleo mínimo de identificación de una observación está compuesto por module, pais, documento, pagina y cita. Estas variables permiten ubicar una evidencia concreta dentro del corpus y sostener su lectura analítica en condiciones de trazabilidad.
En la base consolidada final, module, pais, documento y cita presentan completitud total, mientras que pagina registra un nivel de faltantes muy bajo y acotado a excepciones ya documentadas. Esto confirma que la base quedó estructurada de manera suficientemente robusta para etapas posteriores del análisis.
| Campo esencial | Lectura general |
|---|---|
module |
Sin faltantes |
pais |
Sin faltantes |
documento |
Sin faltantes |
cita |
Sin faltantes |
pagina |
Faltantes puntuales, bajos y documentados |
Llaves y trazabilidad
Las variables de trazabilidad permiten reconstruir el recorrido exacto de una fila desde el master final hasta su origen en el snapshot congelado.
| Variable | Qué representa | Función metodológica |
|---|---|---|
id_raw |
Identificador original de la fila cruda | Conserva referencia original |
row_id |
Llave canónica construida con campos normalizados | Resume la identidad analítica del registro |
row_uid |
Llave operativa única (row_id::source_row_number) |
Asegura unicidad operativa en el pipeline |
source_snapshot_id |
Snapshot congelado de origen | Permite reproducibilidad |
source_file |
Archivo Excel de origen | Permite volver al documento fuente |
source_sheet |
Hoja de origen | Localiza la evidencia dentro del archivo |
source_row_number |
Número de fila de origen | Permite auditoría fina |
En particular, row_id resume la identidad canónica de la fila una vez normalizados sus campos centrales. row_uid, en cambio, representa su identidad operativa única dentro del pipeline y fue clave para las etapas de patch, split, recode, dedupe y join.
Indicadores ind_*
Los indicadores constituyen la capa analítica propiamente tal. Fueron recodificados a un dominio común {1,0,NA} para asegurar comparabilidad entre módulos.
| Valor | Significado |
|---|---|
1 |
Presencia o marca positiva del criterio |
0 |
Negativo explícito en la fuente raw |
NA |
Vacío, no observado, no aplicable o señal no interpretable |
Los indicadores no ingresan directamente al master desde la base cruda. Primero se extraen a tablas intermedias por módulo, luego se recodifican, posteriormente pasan por deduplicación y recién entonces se incorporan al master final.
Nota sobre la tabla notes
La tabla notes funciona como una estructura auxiliar alineada con la base master. Su objetivo es conservar, cuando existen, notas, comentarios o campos textuales complementarios asociados a una observación, sin romper su correspondencia con la fila analítica principal.
Que master y notes tengan el mismo número de filas no implica que ambas contengan el mismo volumen de contenido sustantivo. Lo que esta equivalencia asegura es alineación estructural: cuando existe información textual complementaria, ésta puede vincularse sin desajustes con la observación correspondiente.
3.2 Descriptivos univariados de la base consolidada
Panorama general
La producción de descriptivos univariados al cierre de M1 cumple una función doble. Por una parte, permite caracterizar el estado de la base resultante. Por otra, constituye un control adicional sobre la plausibilidad del resultado final.
| Indicador global | Valor |
|---|---|
Filas en master |
7410 |
Filas en notes |
7410 |
Duplicados globales de row_id |
0 |
Duplicados globales de row_uid |
0 |
| Valores inválidos en indicadores | 0 |
Estas cifras muestran que la base consolidada alcanzó condiciones mínimas de integridad para ser utilizada como soporte del análisis posterior. En términos operativos, al cierre de M1 se cuenta con una base alineada, sin duplicados globales de llaves y con indicadores contenidos en un dominio válido y comparable.
Cobertura por módulo
La base final reúne 7.410 observaciones distribuidas entre once módulos. La distribución es desigual, pero ello no constituye un error: refleja la heterogeneidad original del corpus y el hecho de que los módulos no tenían el mismo volumen de evidencia en las fuentes de origen.
| Módulo | N filas |
|---|---|
| HSE | 1526 |
| EDS | 1399 |
| Pilares actitudinal | 989 |
| Salud | 909 |
| DDHH | 658 |
| ECM | 442 |
| HSE Respeto | 439 |
| Género | 316 |
| ESI | 259 |
| PAZ | 253 |
| Pilares cognitivo | 220 |
Los mayores volúmenes se concentran en HSE, EDS y Pilares actitudinal, mientras que Pilares cognitivo, PAZ y ESI presentan tamaños comparativamente menores. En esta etapa, el interés principal de esta distribución no es aún sustantivo, sino metodológico: confirma que la consolidación preservó la estructura del corpus sin forzar una uniformidad artificial entre módulos.
Cobertura por país
Los descriptivos por país permiten verificar que la base final ya puede ser organizada territorialmente de manera consistente. Esto es relevante porque uno de los usos esperados de la base en las siguientes fases del proyecto es la comparación entre países.
En esta entrega, la lectura de la distribución por país no busca todavía producir conclusiones sustantivas, sino mostrar que la información quedó disponible en una forma que admite desagregación nacional sin perder coherencia estructural. La tabla siguiente resume la cobertura total consolidada del corte, agregando los módulos en una sola vista para facilitar la lectura del conjunto.
También conviene notar que en la salida observada persisten algunas grafías diferenciadas para un mismo país, como Perú y Peru, o México y Mexico. En esta instancia se mantienen separadas para preservar trazabilidad respecto de la exportación efectivamente generada en este corte.
| País | N filas |
|---|---|
| Guatemala | 975 |
| Nicaragua | 929 |
| Venezuela | 640 |
| República Dominicana | 624 |
| Ecuador | 493 |
| Costa Rica | 448 |
| Colombia | 390 |
| Honduras | 341 |
| Chile | 330 |
| Brasil | 297 |
| El Salvador | 285 |
| Paraguay | 285 |
| Perú | 269 |
| Bolivia | 243 |
| Panamá | 236 |
| México | 195 |
| Argentina | 188 |
| Cuba | 120 |
| Uruguay | 77 |
| Mexico | 23 |
| Peru | 22 |
Cobertura por grado
La distribución por grado permite observar hasta qué punto la base consolidada puede organizarse por nivel educativo cuando esa información se encuentra presente en los módulos de origen y fue normalizada durante el procesamiento.
La presencia de faltantes en grado_norm no debe interpretarse automáticamente como un problema de calidad, ya que en muchos casos refleja que la variable no estaba disponible, no era homogénea entre módulos o no era pertinente para ciertos tipos de evidencia curricular. Por ello, esta tabla debe leerse como una descripción de cobertura efectiva y no como un criterio único de calidad del dataset.
Para facilitar la lectura, se presenta a continuación una síntesis consolidada de la distribución observada en grado_norm. Se conservan las etiquetas tal como aparecen en la salida del corte, incluyendo formas numéricas y textuales; únicamente el valor vacío se muestra como (vacío).
grado_norm |
N filas |
|---|---|
| (vacío) | 4995 |
6 |
803 |
3 |
695 |
sexto_grado |
345 |
tercer_grado |
276 |
unico_documento |
157 |
sexto_ano |
62 |
tercer_ano |
32 |
quinto_y_sexto_grado |
19 |
tercer_y_cuarto_grado |
16 |
4 |
4 |
tercero |
4 |
sexto |
2 |
En conjunto, esta distribución confirma que la base final permite desagregar una parte importante del corpus por nivel educativo, aunque con intensidades distintas según módulo. Esto no debilita la calidad de la base; más bien muestra que la disponibilidad de esta dimensión depende de la estructura original de los insumos y del tipo de evidencia curricular codificada en cada caso.
Cobertura por materia
La organización por materia o asignatura muestra que la base final puede ser utilizada para lecturas curriculares más finas, desagregadas por disciplina. Esto fortalece su utilidad analítica para las siguientes etapas del proyecto.
Como ocurre con otras variables contextuales, la cobertura de materia_norm depende de la estructura de los módulos y de las condiciones en que esa variable estaba presente en los insumos originales.
Para evitar una tabla excesivamente extensa, se presenta una síntesis consolidada de las categorías con mayor frecuencia en materia_norm. Se conserva la lógica del corte observado: el valor vacío se muestra como (vacío) para facilitar la lectura, mientras que etiquetas como n_a se mantienen tal como aparecen en la salida exportada.
materia_norm |
N filas |
|---|---|
| (vacío) | 3422 |
ciencias_naturales |
415 |
n_a |
383 |
ed_fisica |
356 |
ciencias_sociales_formacion_etica_y_ciudadana |
304 |
ciencias_sociales |
299 |
ciencias |
294 |
educacion_fisica |
159 |
derechos_y_dignidad_de_las_mujeres |
140 |
matematica |
138 |
cs_social |
129 |
ciencias_naturales_y_tecnologia |
124 |
lengua |
93 |
estudios_sociales_y_educacion_civica |
90 |
ciencias_de_la_naturaleza_y_tecnologia |
89 |
ciencias_de_la_naturaleza |
75 |
creciendo_en_valores |
65 |
gral |
54 |
estudios_sociales |
51 |
espanol |
49 |
En conjunto, esta distribución muestra que la base ya puede organizarse por asignatura o campo disciplinar, aunque con nomenclaturas heterogéneas heredadas de los insumos originales. Esto no debilita la utilidad analítica del conjunto; al contrario, hace visible una dimensión de variación que podrá ser afinada o agrupada en etapas posteriores si el análisis comparativo así lo requiere.
Densidad de indicadores por fila
La densidad de indicadores por fila muestra diferencias entre módulos. Esto expresa que no todos comparten la misma arquitectura de codificación ni el mismo nivel de granularidad analítica.
| Módulo | Promedio de activaciones por fila |
|---|---|
| EDS | 3.14 |
| HSE | 2.47 |
| Salud | 2.43 |
| Género | 2.35 |
| HSE Respeto | 2.25 |
| PAZ | 1.80 |
| DDHH | 1.50 |
| ESI | 1.44 |
| ECM | 1.26 |
| Pilares actitudinal | 1.20 |
| Pilares cognitivo | 0.47 |
EDS presenta la mayor densidad promedio de activaciones por fila, seguido por HSE y Salud. En el extremo inferior, Pilares cognitivo muestra la menor densidad. Esta variación no debe leerse como inconsistencia, sino como resultado de diferencias reales en la estructura de codificación de cada módulo. Precisamente por ello fue necesario recodificar los indicadores a un dominio común antes de integrarlos en una única base.
Lectura de faltantes
La lectura de los descriptivos debe distinguir entre variables esenciales y variables contextuales.
| Tipo de variable | Comportamiento esperado |
|---|---|
Variables esenciales (module, pais, documento, pagina, cita) |
Deben tener completitud muy alta |
Variables contextuales (grado_norm, materia_norm, campo_norm, categoria, nivel, subdimension, subcat) |
Pueden presentar faltantes altos sin implicar un error |
En otras palabras, no todos los faltantes deben interpretarse como problemas de calidad. En muchos casos reflejan que la variable no existe en todos los módulos o que sólo es pertinente para ciertos tipos de evidencia curricular. Por ello, el juicio de calidad debe centrarse primero en el núcleo mínimo de identificación de las observaciones y no en exigir cobertura homogénea a variables contextuales que dependen de la estructura de cada módulo.
3.3 Anexo. Codebook explícito del master final
Fuente principal: runs/erce_m1_full/outputs/master/erce_m1_full_master.csv
Export complementario: runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv
A.1. Cómo leer este anexo
En este anexo se documenta, para cada variable, su grupo funcional, definición, dominio esperado, módulos donde aparece, origen raw, regla de construcción y calidad observada en este corte.
A.2. Variables núcleo y de trazabilidad
| variable | variable_group | descripcion | dominio | calidad_en_este_corte |
|---|---|---|---|---|
module |
nucleo |
Módulo temático al que pertenece la fila en el master final | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=11; ejemplos=hse | eds | pilares_actitudinal |
pais |
nucleo |
País del documento curricular de origen | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=21; ejemplos=Guatemala | Nicaragua | Venezuela |
documento |
nucleo |
Nombre original del documento curricular en la fuente cruda | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=293; ejemplos=Adecuacion-Curricular-Primaria-_2023.pdf | Guatemala CNB_3er_grado.pdf |
pagina |
nucleo |
Página reportada en la base cruda | Texto libre normalizado o valor técnico derivado | pct_missing=0.0135; n_unique=408; ejemplos=25 | 28 | 26 |
cita |
nucleo |
Texto raw de la evidencia curricular leída desde la base cruda | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=6023 |
row_id |
trazabilidad |
Llave canónica hash de la fila, construida con campos normalizados | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=7410 |
source_file |
trazabilidad |
Archivo Excel de origen en la capa raw | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=9 |
source_sheet |
trazabilidad |
Hoja Excel de origen en la capa raw | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=5 |
source_row_number |
trazabilidad |
Número de fila del lector en la hoja de origen | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=1543 |
row_uid |
trazabilidad |
Llave operativa única para joins internos | Texto libre normalizado o valor técnico derivado | pct_missing=0.0; n_unique=7410 |
A.3. Indicadores
| variable | variable_group | descripcion | dominio | calidad_en_este_corte |
|---|---|---|---|---|
ind_ddhh |
indicador |
Marca presencia temática de derechos humanos | {1, 0, NA} |
pct_missing=95.5466; n_unique=2 |
ind_democracia |
indicador |
Marca presencia temática de democracia | {1, 0, NA} |
pct_missing=96.0999; n_unique=2 |
ind_tag_ecm |
indicador |
Tag temático ECM (Educación para la Ciudadanía Mundial) | {1, 0, NA} |
pct_missing=93.1444; n_unique=2 |
ind_cc |
indicador |
Marca presencia de cambio climático | {1, 0, NA} |
pct_missing=99.3522; n_unique=2 |
ind_salud_mental |
indicador |
Marca presencia de salud mental | {1, 0, NA} |
pct_missing=99.9595; n_unique=2 |
A.4. Origen raw y reglas de recodificación de indicadores
Como complemento del resumen anterior, se generó un export específico que documenta, para cada indicador y módulo, la columna raw de origen, la regla de mapping y el override de recodificación aplicado cuando corresponde. Este insumo permite auditar con mayor detalle cómo se tradujo cada marca observada en la fuente cruda al dominio analítico común {1,0,NA}.
La cobertura de este export no es uniforme por módulo, porque depende de la cantidad y diversidad de indicadores efectivamente mapeados en cada caso. En el corte utilizado para este informe, la distribución resumida es la siguiente:
| Módulo | N indicadores documentados |
|---|---|
salud |
21 |
hse_respeto |
20 |
hse |
19 |
eds |
15 |
genero |
14 |
paz |
12 |
ddhh |
8 |
ecm |
7 |
pilares_actitudinal |
4 |
esi |
3 |
pilares_cognitivo |
2 |
Esta información es metodológicamente relevante por dos razones. En primer lugar, permite verificar que los indicadores no fueron incorporados de manera opaca al master final, sino a partir de columnas raw identificables y reglas de recodificación explícitas. En segundo lugar, permite distinguir entre los casos en que se aplicó una recodificación binaria convencional (x/si/1 => 1, no/0 => 0) y aquellos en que fue necesario utilizar overrides como non_empty_is_positive, especialmente en variables tipo tag o en columnas cuya presencia no estaba expresada como binario puro.
Para no sobrecargar el cuerpo del codebook, la tabla siguiente presenta una selección representativa de indicadores, módulos y reglas. El detalle exhaustivo se conserva en runs/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv.
| Variable | Módulo | Columna raw de origen | Regla / override | Descripción |
|---|---|---|---|---|
ind_a2030_alinea |
ecm |
A2030-se alinea |
si/x=>1; no=>0; else NA |
Marca alineación explícita con Agenda 2030. |
ind_a2030_alinea_guess |
eds |
blank_col_pos_36 |
si/x=>1; no=>0; else NA |
Inferencia conservadora de alineación a Agenda 2030 desde columnas unnamed en EDS. |
ind_adicciones |
salud |
adicciones |
Override non_empty_is_positive |
Marca presencia de adicciones. |
ind_agencia |
hse |
Agencia |
Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA |
Marca presencia de agencia. |
ind_agencia |
hse_respeto |
Agencia |
Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA |
Marca presencia de agencia. |
ind_consumo_responsable |
pilares_actitudinal |
Consumo responsable |
Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA |
Marca presencia de consumo responsable. |
ind_ddhh |
ddhh |
ddhh |
x/si/1=>1; no/0=>0; else NA |
Marca presencia temática de derechos humanos. |
ind_empodera_4 |
genero |
4 empodera |
Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA |
Marca presencia de empoderamiento. |
ind_paz_tematica |
paz |
Paz |
Override non_empty_is_positive |
Marca presencia de temática de paz. |
ind_seguridad_personal |
esi |
Seguridad personal |
Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA |
Marca presencia de seguridad personal. |
ind_toma_decisiones_responsable |
pilares_cognitivo |
Toma de decisiones responsable |
Regla general {x/si/1/true}=1, {no/0/false}=0, vacío=NA |
Marca presencia de toma de decisiones responsable. |
ind_tag_ecm |
ecm |
ECM |
Override non_empty_is_positive |
Tag temático ECM (Educación para la Ciudadanía Mundial). |
ind_tag_ddhh |
salud |
DDHH |
Override non_empty_is_positive |
Tag temático DDHH. |
ind_salud_mental |
salud |
salud mental |
Override non_empty_is_positive |
Marca presencia de salud mental. |
La lectura combinada de este export y del codebook explícito permite entender no sólo qué significa cada indicador en el resultado final, sino también de dónde provino y bajo qué lógica fue recodificado. Esto fortalece la auditabilidad del proceso y hace posible reconstruir, con suficiente detalle, la relación entre la base cruda, las reglas intermedias y la base maestra consolidada.
Nota: El detalle exhaustivo de todas las variables está en
runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv, mientras que el detalle completo de origen raw y recodificación de indicadores se encuentra enruns/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv.