3 Libro de códigos y descriptivos univariados

3.1 Libro de códigos y estructura de la base

Lectura general de la base

La base consolidada final quedó organizada en torno a dos productos principales: una base master y una tabla notes. Ambas comparten el mismo universo de observaciones y el mismo número total de filas, pero cumplen funciones distintas y complementarias dentro del proceso de análisis.

La unidad de análisis de la base es explícita: cada fila corresponde a una evidencia o cita curricular específica, ubicada en un documento, módulo y página determinados. Esto significa que la base no resume documentos completos ni países en su conjunto, sino evidencias puntuales organizadas bajo una estructura común y comparable.

Estructura general de productos

Producto	Función principal	Contenido	Uso analítico
`master`	Base analítica principal	Variables núcleo, contexto, trazabilidad e indicadores `ind_*`	Análisis cuantitativo
`notes`	Tabla auxiliar alineada	Notas, comentarios o texto complementario cuando existe	Revisión y respaldo
`codebook_full.csv`	Libro de códigos resumido	Variables, grupos y descripciones básicas	Consulta técnica rápida
`codebook_master_explicito.csv`	Libro de códigos detallado	Definición, origen raw, reglas de construcción y calidad observada	Auditoría detallada

Tipos de variables

La base master concentra cuatro grandes grupos de variables, cada uno con una función analítica específica:

Grupo de variables	Función	Ejemplos
Núcleo	Identifican y ubican la observación	`module`, `pais`, `documento`, `pagina`, `cita`
Contexto	Describen características sustantivas del registro	`grado_norm`, `materia_norm`, `campo_norm`, `categoria`, `nivel`, `subdimension`, `subcat`
Trazabilidad	Permiten reconstruir el origen exacto de la fila	`id_raw`, `row_id`, `row_uid`, `source_file`, `source_sheet`, `source_row_number`
Indicadores	Registran la presencia o ausencia de criterios analíticos	variables `ind_*`

Interpretación de las principales variables

Variables núcleo

Las variables núcleo permiten ubicar e identificar cada evidencia curricular dentro del corpus consolidado. Entre ellas se encuentran module, pais, documento, documento_norm, pagina, pagina_norm, cita, cita_norm, grado_norm, materia_norm y campo_norm.

Estas variables no cumplen todas la misma función. Algunas forman parte del núcleo mínimo de identificación de la observación, mientras que otras agregan información contextual cuando la fuente original lo permite.

Variable	Función	Observación de lectura
`module`	Identifica el módulo temático	Está completa en toda la base
`pais`	Identifica el país del documento	Está completa en toda la base
`documento`	Nombre original del documento fuente	Está completo en toda la base
`pagina`	Página reportada en la base cruda	Tiene excepciones puntuales documentadas
`cita`	Texto original de la evidencia curricular	Está completa en toda la base
`documento_norm` / `pagina_norm` / `cita_norm`	Versiones normalizadas para joins y llaves	Se usan para comparación y deduplicación
`grado_norm`, `materia_norm`, `campo_norm`	Variables de clasificación contextual	Su cobertura depende del módulo

Completitud del núcleo mínimo de identificación

Desde el punto de vista metodológico, el núcleo mínimo de identificación de una observación está compuesto por module, pais, documento, pagina y cita. Estas variables permiten ubicar una evidencia concreta dentro del corpus y sostener su lectura analítica en condiciones de trazabilidad.

En la base consolidada final, module, pais, documento y cita presentan completitud total, mientras que pagina registra un nivel de faltantes muy bajo y acotado a excepciones ya documentadas. Esto confirma que la base quedó estructurada de manera suficientemente robusta para etapas posteriores del análisis.

Campo esencial	Lectura general
`module`	Sin faltantes
`pais`	Sin faltantes
`documento`	Sin faltantes
`cita`	Sin faltantes
`pagina`	Faltantes puntuales, bajos y documentados

Llaves y trazabilidad

Las variables de trazabilidad permiten reconstruir el recorrido exacto de una fila desde el master final hasta su origen en el snapshot congelado.

Variable	Qué representa	Función metodológica
`id_raw`	Identificador original de la fila cruda	Conserva referencia original
`row_id`	Llave canónica construida con campos normalizados	Resume la identidad analítica del registro
`row_uid`	Llave operativa única (`row_id::source_row_number`)	Asegura unicidad operativa en el pipeline
`source_snapshot_id`	Snapshot congelado de origen	Permite reproducibilidad
`source_file`	Archivo Excel de origen	Permite volver al documento fuente
`source_sheet`	Hoja de origen	Localiza la evidencia dentro del archivo
`source_row_number`	Número de fila de origen	Permite auditoría fina

En particular, row_id resume la identidad canónica de la fila una vez normalizados sus campos centrales. row_uid, en cambio, representa su identidad operativa única dentro del pipeline y fue clave para las etapas de patch, split, recode, dedupe y join.

Indicadores ind_*

Los indicadores constituyen la capa analítica propiamente tal. Fueron recodificados a un dominio común {1,0,NA} para asegurar comparabilidad entre módulos.

Valor	Significado
`1`	Presencia o marca positiva del criterio
`0`	Negativo explícito en la fuente raw
`NA`	Vacío, no observado, no aplicable o señal no interpretable

Los indicadores no ingresan directamente al master desde la base cruda. Primero se extraen a tablas intermedias por módulo, luego se recodifican, posteriormente pasan por deduplicación y recién entonces se incorporan al master final.

Nota sobre la tabla notes

La tabla notes funciona como una estructura auxiliar alineada con la base master. Su objetivo es conservar, cuando existen, notas, comentarios o campos textuales complementarios asociados a una observación, sin romper su correspondencia con la fila analítica principal.

Que master y notes tengan el mismo número de filas no implica que ambas contengan el mismo volumen de contenido sustantivo. Lo que esta equivalencia asegura es alineación estructural: cuando existe información textual complementaria, ésta puede vincularse sin desajustes con la observación correspondiente.

3.2 Descriptivos univariados de la base consolidada

Panorama general

La producción de descriptivos univariados al cierre de M1 cumple una función doble. Por una parte, permite caracterizar el estado de la base resultante. Por otra, constituye un control adicional sobre la plausibilidad del resultado final.

Indicador global	Valor
Filas en `master`	7410
Filas en `notes`	7410
Duplicados globales de `row_id`	0
Duplicados globales de `row_uid`	0
Valores inválidos en indicadores	0

Estas cifras muestran que la base consolidada alcanzó condiciones mínimas de integridad para ser utilizada como soporte del análisis posterior. En términos operativos, al cierre de M1 se cuenta con una base alineada, sin duplicados globales de llaves y con indicadores contenidos en un dominio válido y comparable.

Cobertura por módulo

La base final reúne 7.410 observaciones distribuidas entre once módulos. La distribución es desigual, pero ello no constituye un error: refleja la heterogeneidad original del corpus y el hecho de que los módulos no tenían el mismo volumen de evidencia en las fuentes de origen.

Módulo	N filas
HSE	1526
EDS	1399
Pilares actitudinal	989
Salud	909
DDHH	658
ECM	442
HSE Respeto	439
Género	316
ESI	259
PAZ	253
Pilares cognitivo	220

Los mayores volúmenes se concentran en HSE, EDS y Pilares actitudinal, mientras que Pilares cognitivo, PAZ y ESI presentan tamaños comparativamente menores. En esta etapa, el interés principal de esta distribución no es aún sustantivo, sino metodológico: confirma que la consolidación preservó la estructura del corpus sin forzar una uniformidad artificial entre módulos.

Cobertura por país

Los descriptivos por país permiten verificar que la base final ya puede ser organizada territorialmente de manera consistente. Esto es relevante porque uno de los usos esperados de la base en las siguientes fases del proyecto es la comparación entre países.

En esta entrega, la lectura de la distribución por país no busca todavía producir conclusiones sustantivas, sino mostrar que la información quedó disponible en una forma que admite desagregación nacional sin perder coherencia estructural. La tabla siguiente resume la cobertura total consolidada del corte, agregando los módulos en una sola vista para facilitar la lectura del conjunto.

También conviene notar que en la salida observada persisten algunas grafías diferenciadas para un mismo país, como Perú y Peru, o México y Mexico. En esta instancia se mantienen separadas para preservar trazabilidad respecto de la exportación efectivamente generada en este corte.

País	N filas
Guatemala	975
Nicaragua	929
Venezuela	640
República Dominicana	624
Ecuador	493
Costa Rica	448
Colombia	390
Honduras	341
Chile	330
Brasil	297
El Salvador	285
Paraguay	285
Perú	269
Bolivia	243
Panamá	236
México	195
Argentina	188
Cuba	120
Uruguay	77
Mexico	23
Peru	22

Cobertura por grado

La distribución por grado permite observar hasta qué punto la base consolidada puede organizarse por nivel educativo cuando esa información se encuentra presente en los módulos de origen y fue normalizada durante el procesamiento.

La presencia de faltantes en grado_norm no debe interpretarse automáticamente como un problema de calidad, ya que en muchos casos refleja que la variable no estaba disponible, no era homogénea entre módulos o no era pertinente para ciertos tipos de evidencia curricular. Por ello, esta tabla debe leerse como una descripción de cobertura efectiva y no como un criterio único de calidad del dataset.

Para facilitar la lectura, se presenta a continuación una síntesis consolidada de la distribución observada en grado_norm. Se conservan las etiquetas tal como aparecen en la salida del corte, incluyendo formas numéricas y textuales; únicamente el valor vacío se muestra como (vacío).

`grado_norm`	N filas
(vacío)	4995
`6`	803
`3`	695
`sexto_grado`	345
`tercer_grado`	276
`unico_documento`	157
`sexto_ano`	62
`tercer_ano`	32
`quinto_y_sexto_grado`	19
`tercer_y_cuarto_grado`	16
`4`	4
`tercero`	4
`sexto`	2

En conjunto, esta distribución confirma que la base final permite desagregar una parte importante del corpus por nivel educativo, aunque con intensidades distintas según módulo. Esto no debilita la calidad de la base; más bien muestra que la disponibilidad de esta dimensión depende de la estructura original de los insumos y del tipo de evidencia curricular codificada en cada caso.

Cobertura por materia

La organización por materia o asignatura muestra que la base final puede ser utilizada para lecturas curriculares más finas, desagregadas por disciplina. Esto fortalece su utilidad analítica para las siguientes etapas del proyecto.

Como ocurre con otras variables contextuales, la cobertura de materia_norm depende de la estructura de los módulos y de las condiciones en que esa variable estaba presente en los insumos originales.

Para evitar una tabla excesivamente extensa, se presenta una síntesis consolidada de las categorías con mayor frecuencia en materia_norm. Se conserva la lógica del corte observado: el valor vacío se muestra como (vacío) para facilitar la lectura, mientras que etiquetas como n_a se mantienen tal como aparecen en la salida exportada.

`materia_norm`	N filas
(vacío)	3422
`ciencias_naturales`	415
`n_a`	383
`ed_fisica`	356
`ciencias_sociales_formacion_etica_y_ciudadana`	304
`ciencias_sociales`	299
`ciencias`	294
`educacion_fisica`	159
`derechos_y_dignidad_de_las_mujeres`	140
`matematica`	138
`cs_social`	129
`ciencias_naturales_y_tecnologia`	124
`lengua`	93
`estudios_sociales_y_educacion_civica`	90
`ciencias_de_la_naturaleza_y_tecnologia`	89
`ciencias_de_la_naturaleza`	75
`creciendo_en_valores`	65
`gral`	54
`estudios_sociales`	51
`espanol`	49

En conjunto, esta distribución muestra que la base ya puede organizarse por asignatura o campo disciplinar, aunque con nomenclaturas heterogéneas heredadas de los insumos originales. Esto no debilita la utilidad analítica del conjunto; al contrario, hace visible una dimensión de variación que podrá ser afinada o agrupada en etapas posteriores si el análisis comparativo así lo requiere.

Densidad de indicadores por fila

La densidad de indicadores por fila muestra diferencias entre módulos. Esto expresa que no todos comparten la misma arquitectura de codificación ni el mismo nivel de granularidad analítica.

Módulo	Promedio de activaciones por fila
EDS	3.14
HSE	2.47
Salud	2.43
Género	2.35
HSE Respeto	2.25
PAZ	1.80
DDHH	1.50
ESI	1.44
ECM	1.26
Pilares actitudinal	1.20
Pilares cognitivo	0.47

EDS presenta la mayor densidad promedio de activaciones por fila, seguido por HSE y Salud. En el extremo inferior, Pilares cognitivo muestra la menor densidad. Esta variación no debe leerse como inconsistencia, sino como resultado de diferencias reales en la estructura de codificación de cada módulo. Precisamente por ello fue necesario recodificar los indicadores a un dominio común antes de integrarlos en una única base.

Lectura de faltantes

La lectura de los descriptivos debe distinguir entre variables esenciales y variables contextuales.

Tipo de variable	Comportamiento esperado
Variables esenciales (`module`, `pais`, `documento`, `pagina`, `cita`)	Deben tener completitud muy alta
Variables contextuales (`grado_norm`, `materia_norm`, `campo_norm`, `categoria`, `nivel`, `subdimension`, `subcat`)	Pueden presentar faltantes altos sin implicar un error

En otras palabras, no todos los faltantes deben interpretarse como problemas de calidad. En muchos casos reflejan que la variable no existe en todos los módulos o que sólo es pertinente para ciertos tipos de evidencia curricular. Por ello, el juicio de calidad debe centrarse primero en el núcleo mínimo de identificación de las observaciones y no en exigir cobertura homogénea a variables contextuales que dependen de la estructura de cada módulo.

3.3 Anexo. Codebook explícito del master final

Fuente principal: runs/erce_m1_full/outputs/master/erce_m1_full_master.csv

Export complementario: runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv

A.1. Cómo leer este anexo

En este anexo se documenta, para cada variable, su grupo funcional, definición, dominio esperado, módulos donde aparece, origen raw, regla de construcción y calidad observada en este corte.

A.2. Variables núcleo y de trazabilidad

variable	variable_group	descripcion	dominio	calidad_en_este_corte
`module`	`nucleo`	Módulo temático al que pertenece la fila en el master final	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=11; ejemplos=hse \| eds \| pilares_actitudinal`
`pais`	`nucleo`	País del documento curricular de origen	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=21; ejemplos=Guatemala \| Nicaragua \| Venezuela`
`documento`	`nucleo`	Nombre original del documento curricular en la fuente cruda	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=293; ejemplos=Adecuacion-Curricular-Primaria-_2023.pdf \| Guatemala CNB_3er_grado.pdf`
`pagina`	`nucleo`	Página reportada en la base cruda	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0135; n_unique=408; ejemplos=25 \| 28 \| 26`
`cita`	`nucleo`	Texto raw de la evidencia curricular leída desde la base cruda	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=6023`
`row_id`	`trazabilidad`	Llave canónica hash de la fila, construida con campos normalizados	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=7410`
`source_file`	`trazabilidad`	Archivo Excel de origen en la capa raw	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=9`
`source_sheet`	`trazabilidad`	Hoja Excel de origen en la capa raw	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=5`
`source_row_number`	`trazabilidad`	Número de fila del lector en la hoja de origen	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=1543`
`row_uid`	`trazabilidad`	Llave operativa única para joins internos	Texto libre normalizado o valor técnico derivado	`pct_missing=0.0; n_unique=7410`

A.3. Indicadores

variable	variable_group	descripcion	dominio	calidad_en_este_corte
`ind_ddhh`	`indicador`	Marca presencia temática de derechos humanos	`{1, 0, NA}`	`pct_missing=95.5466; n_unique=2`
`ind_democracia`	`indicador`	Marca presencia temática de democracia	`{1, 0, NA}`	`pct_missing=96.0999; n_unique=2`
`ind_tag_ecm`	`indicador`	Tag temático ECM (Educación para la Ciudadanía Mundial)	`{1, 0, NA}`	`pct_missing=93.1444; n_unique=2`
`ind_cc`	`indicador`	Marca presencia de cambio climático	`{1, 0, NA}`	`pct_missing=99.3522; n_unique=2`
`ind_salud_mental`	`indicador`	Marca presencia de salud mental	`{1, 0, NA}`	`pct_missing=99.9595; n_unique=2`

A.4. Origen raw y reglas de recodificación de indicadores

Como complemento del resumen anterior, se generó un export específico que documenta, para cada indicador y módulo, la columna raw de origen, la regla de mapping y el override de recodificación aplicado cuando corresponde. Este insumo permite auditar con mayor detalle cómo se tradujo cada marca observada en la fuente cruda al dominio analítico común {1,0,NA}.

La cobertura de este export no es uniforme por módulo, porque depende de la cantidad y diversidad de indicadores efectivamente mapeados en cada caso. En el corte utilizado para este informe, la distribución resumida es la siguiente:

Módulo	N indicadores documentados
`salud`	21
`hse_respeto`	20
`hse`	19
`eds`	15
`genero`	14
`paz`	12
`ddhh`	8
`ecm`	7
`pilares_actitudinal`	4
`esi`	3
`pilares_cognitivo`	2

Esta información es metodológicamente relevante por dos razones. En primer lugar, permite verificar que los indicadores no fueron incorporados de manera opaca al master final, sino a partir de columnas raw identificables y reglas de recodificación explícitas. En segundo lugar, permite distinguir entre los casos en que se aplicó una recodificación binaria convencional (x/si/1 => 1, no/0 => 0) y aquellos en que fue necesario utilizar overrides como non_empty_is_positive, especialmente en variables tipo tag o en columnas cuya presencia no estaba expresada como binario puro.

Para no sobrecargar el cuerpo del codebook, la tabla siguiente presenta una selección representativa de indicadores, módulos y reglas. El detalle exhaustivo se conserva en runs/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv.

Variable	Módulo	Columna raw de origen	Regla / override	Descripción
`ind_a2030_alinea`	`ecm`	`A2030-se alinea`	`si/x=>1; no=>0; else NA`	Marca alineación explícita con Agenda 2030.
`ind_a2030_alinea_guess`	`eds`	`blank_col_pos_36`	`si/x=>1; no=>0; else NA`	Inferencia conservadora de alineación a Agenda 2030 desde columnas unnamed en EDS.
`ind_adicciones`	`salud`	`adicciones`	`Override non_empty_is_positive`	Marca presencia de adicciones.
`ind_agencia`	`hse`	`Agencia`	Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA`	Marca presencia de agencia.
`ind_agencia`	`hse_respeto`	`Agencia`	Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA`	Marca presencia de agencia.
`ind_consumo_responsable`	`pilares_actitudinal`	`Consumo responsable`	Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA`	Marca presencia de consumo responsable.
`ind_ddhh`	`ddhh`	`ddhh`	`x/si/1=>1; no/0=>0; else NA`	Marca presencia temática de derechos humanos.
`ind_empodera_4`	`genero`	`4 empodera`	Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA`	Marca presencia de empoderamiento.
`ind_paz_tematica`	`paz`	`Paz`	`Override non_empty_is_positive`	Marca presencia de temática de paz.
`ind_seguridad_personal`	`esi`	`Seguridad personal`	Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA`	Marca presencia de seguridad personal.
`ind_toma_decisiones_responsable`	`pilares_cognitivo`	`Toma de decisiones responsable`	Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA`	Marca presencia de toma de decisiones responsable.
`ind_tag_ecm`	`ecm`	`ECM`	`Override non_empty_is_positive`	Tag temático ECM (Educación para la Ciudadanía Mundial).
`ind_tag_ddhh`	`salud`	`DDHH`	`Override non_empty_is_positive`	Tag temático DDHH.
`ind_salud_mental`	`salud`	`salud mental`	`Override non_empty_is_positive`	Marca presencia de salud mental.

La lectura combinada de este export y del codebook explícito permite entender no sólo qué significa cada indicador en el resultado final, sino también de dónde provino y bajo qué lógica fue recodificado. Esto fortalece la auditabilidad del proceso y hace posible reconstruir, con suficiente detalle, la relación entre la base cruda, las reglas intermedias y la base maestra consolidada.

Nota: El detalle exhaustivo de todas las variables está en runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv, mientras que el detalle completo de origen raw y recodificación de indicadores se encuentra en runs/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv.

--- title: "Libro de códigos y descriptivos univariados" --- ## Libro de códigos y estructura de la base **Lectura general de la base** La base consolidada final quedó organizada en torno a dos productos principales: una base `master` y una tabla `notes`. Ambas comparten el mismo universo de observaciones y el mismo número total de filas, pero cumplen funciones distintas y complementarias dentro del proceso de análisis. La unidad de análisis de la base es explícita: cada fila corresponde a una evidencia o cita curricular específica, ubicada en un documento, módulo y página determinados. Esto significa que la base no resume documentos completos ni países en su conjunto, sino evidencias puntuales organizadas bajo una estructura común y comparable. **Estructura general de productos** | Producto | Función principal | Contenido | Uso analítico | |---|---|---|---| | `master` | Base analítica principal | Variables núcleo, contexto, trazabilidad e indicadores `ind_*` | Análisis cuantitativo | | `notes` | Tabla auxiliar alineada | Notas, comentarios o texto complementario cuando existe | Revisión y respaldo | | `codebook_full.csv` | Libro de códigos resumido | Variables, grupos y descripciones básicas | Consulta técnica rápida | | `codebook_master_explicito.csv` | Libro de códigos detallado | Definición, origen raw, reglas de construcción y calidad observada | Auditoría detallada | **Tipos de variables** La base `master` concentra cuatro grandes grupos de variables, cada uno con una función analítica específica: | Grupo de variables | Función | Ejemplos | |---|---|---| | Núcleo | Identifican y ubican la observación | `module`, `pais`, `documento`, `pagina`, `cita` | | Contexto | Describen características sustantivas del registro | `grado_norm`, `materia_norm`, `campo_norm`, `categoria`, `nivel`, `subdimension`, `subcat` | | Trazabilidad | Permiten reconstruir el origen exacto de la fila | `id_raw`, `row_id`, `row_uid`, `source_file`, `source_sheet`, `source_row_number` | | Indicadores | Registran la presencia o ausencia de criterios analíticos | variables `ind_*` | **Interpretación de las principales variables** **Variables núcleo** Las variables núcleo permiten ubicar e identificar cada evidencia curricular dentro del corpus consolidado. Entre ellas se encuentran `module`, `pais`, `documento`, `documento_norm`, `pagina`, `pagina_norm`, `cita`, `cita_norm`, `grado_norm`, `materia_norm` y `campo_norm`. Estas variables no cumplen todas la misma función. Algunas forman parte del núcleo mínimo de identificación de la observación, mientras que otras agregan información contextual cuando la fuente original lo permite. | Variable | Función | Observación de lectura | |---|---|---| | `module` | Identifica el módulo temático | Está completa en toda la base | | `pais` | Identifica el país del documento | Está completa en toda la base | | `documento` | Nombre original del documento fuente | Está completo en toda la base | | `pagina` | Página reportada en la base cruda | Tiene excepciones puntuales documentadas | | `cita` | Texto original de la evidencia curricular | Está completa en toda la base | | `documento_norm` / `pagina_norm` / `cita_norm` | Versiones normalizadas para joins y llaves | Se usan para comparación y deduplicación | | `grado_norm`, `materia_norm`, `campo_norm` | Variables de clasificación contextual | Su cobertura depende del módulo | **Completitud del núcleo mínimo de identificación** Desde el punto de vista metodológico, el núcleo mínimo de identificación de una observación está compuesto por `module`, `pais`, `documento`, `pagina` y `cita`. Estas variables permiten ubicar una evidencia concreta dentro del corpus y sostener su lectura analítica en condiciones de trazabilidad. En la base consolidada final, `module`, `pais`, `documento` y `cita` presentan completitud total, mientras que `pagina` registra un nivel de faltantes muy bajo y acotado a excepciones ya documentadas. Esto confirma que la base quedó estructurada de manera suficientemente robusta para etapas posteriores del análisis. | Campo esencial | Lectura general | |---|---| | `module` | Sin faltantes | | `pais` | Sin faltantes | | `documento` | Sin faltantes | | `cita` | Sin faltantes | | `pagina` | Faltantes puntuales, bajos y documentados | **Llaves y trazabilidad** Las variables de trazabilidad permiten reconstruir el recorrido exacto de una fila desde el `master` final hasta su origen en el snapshot congelado. | Variable | Qué representa | Función metodológica | |---|---|---| | `id_raw` | Identificador original de la fila cruda | Conserva referencia original | | `row_id` | Llave canónica construida con campos normalizados | Resume la identidad analítica del registro | | `row_uid` | Llave operativa única (`row_id::source_row_number`) | Asegura unicidad operativa en el pipeline | | `source_snapshot_id` | Snapshot congelado de origen | Permite reproducibilidad | | `source_file` | Archivo Excel de origen | Permite volver al documento fuente | | `source_sheet` | Hoja de origen | Localiza la evidencia dentro del archivo | | `source_row_number` | Número de fila de origen | Permite auditoría fina | En particular, `row_id` resume la identidad canónica de la fila una vez normalizados sus campos centrales. `row_uid`, en cambio, representa su identidad operativa única dentro del pipeline y fue clave para las etapas de patch, split, recode, dedupe y join. **Indicadores `ind_*`** Los indicadores constituyen la capa analítica propiamente tal. Fueron recodificados a un dominio común `{1,0,NA}` para asegurar comparabilidad entre módulos. | Valor | Significado | |---|---| | `1` | Presencia o marca positiva del criterio | | `0` | Negativo explícito en la fuente raw | | `NA` | Vacío, no observado, no aplicable o señal no interpretable | Los indicadores no ingresan directamente al `master` desde la base cruda. Primero se extraen a tablas intermedias por módulo, luego se recodifican, posteriormente pasan por deduplicación y recién entonces se incorporan al `master` final. **Nota sobre la tabla `notes`** La tabla `notes` funciona como una estructura auxiliar alineada con la base `master`. Su objetivo es conservar, cuando existen, notas, comentarios o campos textuales complementarios asociados a una observación, sin romper su correspondencia con la fila analítica principal. Que `master` y `notes` tengan el mismo número de filas no implica que ambas contengan el mismo volumen de contenido sustantivo. Lo que esta equivalencia asegura es **alineación estructural**: cuando existe información textual complementaria, ésta puede vincularse sin desajustes con la observación correspondiente. ## Descriptivos univariados de la base consolidada **Panorama general** La producción de descriptivos univariados al cierre de M1 cumple una función doble. Por una parte, permite caracterizar el estado de la base resultante. Por otra, constituye un control adicional sobre la plausibilidad del resultado final. | Indicador global | Valor | |---|---| | Filas en `master` | 7410 | | Filas en `notes` | 7410 | | Duplicados globales de `row_id` | 0 | | Duplicados globales de `row_uid` | 0 | | Valores inválidos en indicadores | 0 | Estas cifras muestran que la base consolidada alcanzó condiciones mínimas de integridad para ser utilizada como soporte del análisis posterior. En términos operativos, al cierre de M1 se cuenta con una base alineada, sin duplicados globales de llaves y con indicadores contenidos en un dominio válido y comparable. **Cobertura por módulo** La base final reúne 7.410 observaciones distribuidas entre once módulos. La distribución es desigual, pero ello no constituye un error: refleja la heterogeneidad original del corpus y el hecho de que los módulos no tenían el mismo volumen de evidencia en las fuentes de origen. | Módulo | N filas | |---|---:| | HSE | 1526 | | EDS | 1399 | | Pilares actitudinal | 989 | | Salud | 909 | | DDHH | 658 | | ECM | 442 | | HSE Respeto | 439 | | Género | 316 | | ESI | 259 | | PAZ | 253 | | Pilares cognitivo | 220 | Los mayores volúmenes se concentran en HSE, EDS y Pilares actitudinal, mientras que Pilares cognitivo, PAZ y ESI presentan tamaños comparativamente menores. En esta etapa, el interés principal de esta distribución no es aún sustantivo, sino metodológico: confirma que la consolidación preservó la estructura del corpus sin forzar una uniformidad artificial entre módulos. **Cobertura por país** Los descriptivos por país permiten verificar que la base final ya puede ser organizada territorialmente de manera consistente. Esto es relevante porque uno de los usos esperados de la base en las siguientes fases del proyecto es la comparación entre países. En esta entrega, la lectura de la distribución por país no busca todavía producir conclusiones sustantivas, sino mostrar que la información quedó disponible en una forma que admite desagregación nacional sin perder coherencia estructural. La tabla siguiente resume la cobertura total consolidada del corte, agregando los módulos en una sola vista para facilitar la lectura del conjunto. También conviene notar que en la salida observada persisten algunas grafías diferenciadas para un mismo país, como `Perú` y `Peru`, o `México` y `Mexico`. En esta instancia se mantienen separadas para preservar trazabilidad respecto de la exportación efectivamente generada en este corte. | País | N filas | |---|---:| | Guatemala | 975 | | Nicaragua | 929 | | Venezuela | 640 | | República Dominicana | 624 | | Ecuador | 493 | | Costa Rica | 448 | | Colombia | 390 | | Honduras | 341 | | Chile | 330 | | Brasil | 297 | | El Salvador | 285 | | Paraguay | 285 | | Perú | 269 | | Bolivia | 243 | | Panamá | 236 | | México | 195 | | Argentina | 188 | | Cuba | 120 | | Uruguay | 77 | | Mexico | 23 | | Peru | 22 | **Cobertura por grado** La distribución por grado permite observar hasta qué punto la base consolidada puede organizarse por nivel educativo cuando esa información se encuentra presente en los módulos de origen y fue normalizada durante el procesamiento. La presencia de faltantes en `grado_norm` no debe interpretarse automáticamente como un problema de calidad, ya que en muchos casos refleja que la variable no estaba disponible, no era homogénea entre módulos o no era pertinente para ciertos tipos de evidencia curricular. Por ello, esta tabla debe leerse como una descripción de cobertura efectiva y no como un criterio único de calidad del dataset. Para facilitar la lectura, se presenta a continuación una síntesis consolidada de la distribución observada en `grado_norm`. Se conservan las etiquetas tal como aparecen en la salida del corte, incluyendo formas numéricas y textuales; únicamente el valor vacío se muestra como `(vacío)`. | `grado_norm` | N filas | |---|---:| | (vacío) | 4995 | | `6` | 803 | | `3` | 695 | | `sexto_grado` | 345 | | `tercer_grado` | 276 | | `unico_documento` | 157 | | `sexto_ano` | 62 | | `tercer_ano` | 32 | | `quinto_y_sexto_grado` | 19 | | `tercer_y_cuarto_grado` | 16 | | `4` | 4 | | `tercero` | 4 | | `sexto` | 2 | En conjunto, esta distribución confirma que la base final permite desagregar una parte importante del corpus por nivel educativo, aunque con intensidades distintas según módulo. Esto no debilita la calidad de la base; más bien muestra que la disponibilidad de esta dimensión depende de la estructura original de los insumos y del tipo de evidencia curricular codificada en cada caso. **Cobertura por materia** La organización por materia o asignatura muestra que la base final puede ser utilizada para lecturas curriculares más finas, desagregadas por disciplina. Esto fortalece su utilidad analítica para las siguientes etapas del proyecto. Como ocurre con otras variables contextuales, la cobertura de `materia_norm` depende de la estructura de los módulos y de las condiciones en que esa variable estaba presente en los insumos originales. Para evitar una tabla excesivamente extensa, se presenta una síntesis consolidada de las categorías con mayor frecuencia en `materia_norm`. Se conserva la lógica del corte observado: el valor vacío se muestra como `(vacío)` para facilitar la lectura, mientras que etiquetas como `n_a` se mantienen tal como aparecen en la salida exportada. | `materia_norm` | N filas | |---|---:| | (vacío) | 3422 | | `ciencias_naturales` | 415 | | `n_a` | 383 | | `ed_fisica` | 356 | | `ciencias_sociales_formacion_etica_y_ciudadana` | 304 | | `ciencias_sociales` | 299 | | `ciencias` | 294 | | `educacion_fisica` | 159 | | `derechos_y_dignidad_de_las_mujeres` | 140 | | `matematica` | 138 | | `cs_social` | 129 | | `ciencias_naturales_y_tecnologia` | 124 | | `lengua` | 93 | | `estudios_sociales_y_educacion_civica` | 90 | | `ciencias_de_la_naturaleza_y_tecnologia` | 89 | | `ciencias_de_la_naturaleza` | 75 | | `creciendo_en_valores` | 65 | | `gral` | 54 | | `estudios_sociales` | 51 | | `espanol` | 49 | En conjunto, esta distribución muestra que la base ya puede organizarse por asignatura o campo disciplinar, aunque con nomenclaturas heterogéneas heredadas de los insumos originales. Esto no debilita la utilidad analítica del conjunto; al contrario, hace visible una dimensión de variación que podrá ser afinada o agrupada en etapas posteriores si el análisis comparativo así lo requiere. **Densidad de indicadores por fila** La densidad de indicadores por fila muestra diferencias entre módulos. Esto expresa que no todos comparten la misma arquitectura de codificación ni el mismo nivel de granularidad analítica. | Módulo | Promedio de activaciones por fila | |---|---:| | EDS | 3.14 | | HSE | 2.47 | | Salud | 2.43 | | Género | 2.35 | | HSE Respeto | 2.25 | | PAZ | 1.80 | | DDHH | 1.50 | | ESI | 1.44 | | ECM | 1.26 | | Pilares actitudinal | 1.20 | | Pilares cognitivo | 0.47 | EDS presenta la mayor densidad promedio de activaciones por fila, seguido por HSE y Salud. En el extremo inferior, Pilares cognitivo muestra la menor densidad. Esta variación no debe leerse como inconsistencia, sino como resultado de diferencias reales en la estructura de codificación de cada módulo. Precisamente por ello fue necesario recodificar los indicadores a un dominio común antes de integrarlos en una única base. **Lectura de faltantes** La lectura de los descriptivos debe distinguir entre variables esenciales y variables contextuales. | Tipo de variable | Comportamiento esperado | |---|---| | Variables esenciales (`module`, `pais`, `documento`, `pagina`, `cita`) | Deben tener completitud muy alta | | Variables contextuales (`grado_norm`, `materia_norm`, `campo_norm`, `categoria`, `nivel`, `subdimension`, `subcat`) | Pueden presentar faltantes altos sin implicar un error | En otras palabras, no todos los faltantes deben interpretarse como problemas de calidad. En muchos casos reflejan que la variable no existe en todos los módulos o que sólo es pertinente para ciertos tipos de evidencia curricular. Por ello, el juicio de calidad debe centrarse primero en el núcleo mínimo de identificación de las observaciones y no en exigir cobertura homogénea a variables contextuales que dependen de la estructura de cada módulo. ## Anexo. Codebook explícito del master final Fuente principal: `runs/erce_m1_full/outputs/master/erce_m1_full_master.csv` Export complementario: `runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv` **A.1. Cómo leer este anexo** En este anexo se documenta, para cada variable, su grupo funcional, definición, dominio esperado, módulos donde aparece, origen raw, regla de construcción y calidad observada en este corte. **A.2. Variables núcleo y de trazabilidad** | variable | variable_group | descripcion | dominio | calidad_en_este_corte | |---|---|---|---|---| | `module` | `nucleo` | Módulo temático al que pertenece la fila en el master final | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=11; ejemplos=hse | eds | pilares_actitudinal` | | `pais` | `nucleo` | País del documento curricular de origen | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=21; ejemplos=Guatemala | Nicaragua | Venezuela` | | `documento` | `nucleo` | Nombre original del documento curricular en la fuente cruda | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=293; ejemplos=Adecuacion-Curricular-Primaria-_2023.pdf | Guatemala CNB_3er_grado.pdf` | | `pagina` | `nucleo` | Página reportada en la base cruda | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0135; n_unique=408; ejemplos=25 | 28 | 26` | | `cita` | `nucleo` | Texto raw de la evidencia curricular leída desde la base cruda | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=6023` | | `row_id` | `trazabilidad` | Llave canónica hash de la fila, construida con campos normalizados | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=7410` | | `source_file` | `trazabilidad` | Archivo Excel de origen en la capa raw | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=9` | | `source_sheet` | `trazabilidad` | Hoja Excel de origen en la capa raw | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=5` | | `source_row_number` | `trazabilidad` | Número de fila del lector en la hoja de origen | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=1543` | | `row_uid` | `trazabilidad` | Llave operativa única para joins internos | Texto libre normalizado o valor técnico derivado | `pct_missing=0.0; n_unique=7410` | **A.3. Indicadores** | variable | variable_group | descripcion | dominio | calidad_en_este_corte | |---|---|---|---|---| | `ind_ddhh` | `indicador` | Marca presencia temática de derechos humanos | `{1, 0, NA}` | `pct_missing=95.5466; n_unique=2` | | `ind_democracia` | `indicador` | Marca presencia temática de democracia | `{1, 0, NA}` | `pct_missing=96.0999; n_unique=2` | | `ind_tag_ecm` | `indicador` | Tag temático ECM (Educación para la Ciudadanía Mundial) | `{1, 0, NA}` | `pct_missing=93.1444; n_unique=2` | | `ind_cc` | `indicador` | Marca presencia de cambio climático | `{1, 0, NA}` | `pct_missing=99.3522; n_unique=2` | | `ind_salud_mental` | `indicador` | Marca presencia de salud mental | `{1, 0, NA}` | `pct_missing=99.9595; n_unique=2` | **A.4. Origen raw y reglas de recodificación de indicadores** Como complemento del resumen anterior, se generó un export específico que documenta, para cada indicador y módulo, la columna raw de origen, la regla de mapping y el override de recodificación aplicado cuando corresponde. Este insumo permite auditar con mayor detalle cómo se tradujo cada marca observada en la fuente cruda al dominio analítico común `{1,0,NA}`. La cobertura de este export no es uniforme por módulo, porque depende de la cantidad y diversidad de indicadores efectivamente mapeados en cada caso. En el corte utilizado para este informe, la distribución resumida es la siguiente: | Módulo | N indicadores documentados | |---|---:| | `salud` | 21 | | `hse_respeto` | 20 | | `hse` | 19 | | `eds` | 15 | | `genero` | 14 | | `paz` | 12 | | `ddhh` | 8 | | `ecm` | 7 | | `pilares_actitudinal` | 4 | | `esi` | 3 | | `pilares_cognitivo` | 2 | Esta información es metodológicamente relevante por dos razones. En primer lugar, permite verificar que los indicadores no fueron incorporados de manera opaca al `master` final, sino a partir de columnas raw identificables y reglas de recodificación explícitas. En segundo lugar, permite distinguir entre los casos en que se aplicó una recodificación binaria convencional (`x/si/1 => 1`, `no/0 => 0`) y aquellos en que fue necesario utilizar overrides como `non_empty_is_positive`, especialmente en variables tipo `tag` o en columnas cuya presencia no estaba expresada como binario puro. Para no sobrecargar el cuerpo del codebook, la tabla siguiente presenta una selección representativa de indicadores, módulos y reglas. El detalle exhaustivo se conserva en `runs/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv`. | Variable | Módulo | Columna raw de origen | Regla / override | Descripción | |---|---|---|---|---| | `ind_a2030_alinea` | `ecm` | `A2030-se alinea` | `si/x=>1; no=>0; else NA` | Marca alineación explícita con Agenda 2030. | | `ind_a2030_alinea_guess` | `eds` | `blank_col_pos_36` | `si/x=>1; no=>0; else NA` | Inferencia conservadora de alineación a Agenda 2030 desde columnas unnamed en EDS. | | `ind_adicciones` | `salud` | `adicciones` | `Override non_empty_is_positive` | Marca presencia de adicciones. | | `ind_agencia` | `hse` | `Agencia` | Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA` | Marca presencia de agencia. | | `ind_agencia` | `hse_respeto` | `Agencia` | Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA` | Marca presencia de agencia. | | `ind_consumo_responsable` | `pilares_actitudinal` | `Consumo responsable` | Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA` | Marca presencia de consumo responsable. | | `ind_ddhh` | `ddhh` | `ddhh` | `x/si/1=>1; no/0=>0; else NA` | Marca presencia temática de derechos humanos. | | `ind_empodera_4` | `genero` | `4 empodera` | Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA` | Marca presencia de empoderamiento. | | `ind_paz_tematica` | `paz` | `Paz` | `Override non_empty_is_positive` | Marca presencia de temática de paz. | | `ind_seguridad_personal` | `esi` | `Seguridad personal` | Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA` | Marca presencia de seguridad personal. | | `ind_toma_decisiones_responsable` | `pilares_cognitivo` | `Toma de decisiones responsable` | Regla general `{x/si/1/true}=1`, `{no/0/false}=0`, vacío=`NA` | Marca presencia de toma de decisiones responsable. | | `ind_tag_ecm` | `ecm` | `ECM` | `Override non_empty_is_positive` | Tag temático ECM (Educación para la Ciudadanía Mundial). | | `ind_tag_ddhh` | `salud` | `DDHH` | `Override non_empty_is_positive` | Tag temático DDHH. | | `ind_salud_mental` | `salud` | `salud mental` | `Override non_empty_is_positive` | Marca presencia de salud mental. | La lectura combinada de este export y del codebook explícito permite entender no sólo qué significa cada indicador en el resultado final, sino también de dónde provino y bajo qué lógica fue recodificado. Esto fortalece la auditabilidad del proceso y hace posible reconstruir, con suficiente detalle, la relación entre la base cruda, las reglas intermedias y la base maestra consolidada. > **Nota:** El detalle exhaustivo de todas las variables está en `runs/erce_m1_full/outputs/reports/codebook_master_explicito.csv`, mientras que el detalle completo de origen raw y recodificación de indicadores se encuentra en `runs/erce_m1_full/outputs/reports/codebook_indicadores_origen_por_modulo.csv`.