4 Metodología
4.1 Datos
La base de datos utilizada en este estudio corresponde al Programa para la Evaluación Internacional de Estudiantes (PISA) del año 2022. Esta base es coordinada por la Organización para la Cooperación y el Desarrollo Económicos (OCDE) y administrada en Chile por el Ministerio de Educación. PISA evalúa a estudiantes de aproximadamente 15 años mediante pruebas estandarizadas por computador y cuestionarios de contexto que recopilan información socioeconómica, emocional y escolar. Para la presente investigación se trabaja exclusivamente con la submuestra chilena de PISA 2022, la cual está diseñada mediante un muestreo probabilístico, estratificado y bietápico. En una primera etapa se seleccionan escuelas con probabilidad proporcional a su tamaño dentro de estratos definidos por región, ruralidad y dependencia administrativa. En una segunda etapa se selecciona aleatoriamente a estudiantes elegibles dentro de cada escuela, garantizando representatividad nacional de la población de jóvenes escolarizados de 15 años. Luego de filtrar casos de la submuestra de Chile, La muestra final utilizada en los análisis es de 6.488 estudiantes, anidados en 230 escuelas a lo largo del país. Esta estructura jerárquica de los datos sustenta la elección de un modelo multinivel de dos niveles (estudiantes y escuelas). Como base complementaria, se utilizará el archivo técnico de PISA 2022 para asegurar la correcta lectura de ponderadores, variables derivadas y reglas de combinación de los plausible values, disponibles a través de la OCDE.
4.2 Variables
4.2.1 Variable dependiente
La variable dependiente de esta investigación es el rendimiento en Matemática de los estudiantes de 15 años en Chile. Esta se mide a partir de los valores plausibles de desempeño en Matemática reportados por PISA 2022, construidos mediante modelos de respuesta al ítem (IRT) y diseñados para representar la competencia matemática latente de cada estudiante en la escala internacional de la prueba. Para los análisis descriptivos se resume la distribución del rendimiento a partir de los valores plausibles, mientras que en los modelos de regresión multinivel se siguen las recomendaciones metodológicas de la OCDE para su uso, es decir, se estiman los modelos separadamente para cada valor plausible y luego se combinan los resultados obtenidos. De igual manera, en ambos casos, valores más altos de la escala indican un mejor desempeño en Matemática.
4.2.2 Variables independientes
Las variables independientes centrales se organizan en torno a dos dimensiones: el origen socioeconómico de los estudiantes y la ansiedad ante Matemáticas, incorporando además sus agregados o promedios a nivel de escuela como indicadores de composición y clima escolar.
En primer lugar, el nivel socioeconómico individual se mide mediante el índice socioeconómico, social y cultural de PISA (ESCS), construido a partir de información sobre el nivel educacional y ocupacional de los padres, junto con recursos materiales y culturales disponibles en el hogar. Se trata de un índice continuo estandarizado a nivel internacional (media cercana a 0 y desviación estándar igual a 1), donde valores más altos reflejan un origen socioeconómico más ventajoso. En la muestra chilena, el índice presenta una media aproximada de -0,2 y un amplio rango de variación entre -4,2 y 2,2, lo que da cuenta de una fuerte heterogeneidad en las condiciones socioeconómicas del estudiantado. Este índice se utiliza como principal medida del origen social de los y las estudiantes.
En segundo lugar, se considera la ansiedad ante Matemáticas como un mecanismo psicológico clave en la relación entre origen social y rendimiento académico. Esta se operacionaliza mediante el índice Mathematics Anxiety (Anxmat), estimado con modelos de respuesta al ítem utilizando el método Weighted Likelihood Estimate (WLE), que entrega puntajes continuos estandarizados a partir de las respuestas a múltiples ítems. que resume la frecuencia e intensidad de emociones negativas asociadas a situaciones que involucran Matemática. Considerando esto, el índice es de carácter continuo, con valores centrados en torno a 0, en la muestra chilena su media se sitúa en torno a 0,5 puntos y su rango va aproximadamente de -2,4 a 2,6. Valores más altos indican mayores niveles de ansiedad matemática. Esta variable se entiende como un mecanismo potencial que puede mediar o modular el efecto del origen socioeconómico sobre el rendimiento en Matemática.
A nivel de escuela, se incluye el promedio del índice socioeconómico de los y las estudiantes de cada establecimiento como indicador de la composición socioeconómica del centro educativo. Este se calcula como el promedio del índice de todos los estudiantes de la escuela presentes en la muestra PISA Chile. Valores más altos indican escuelas con una mayor concentración de estudiantes de origen socioeconómico alto, mientras que valores más bajos corresponden a establecimientos más desfavorecidos. En la muestra, el Índice socioeconómico promedio de las escuelas oscila aproximadamente entre -2,6 y 1,2, con una media cercana a -0,5, lo que refleja una marcada estratificación entre escuelas. Esta variable permite capturar efectos de composición y posibles procesos de segregación escolar, es decir, si más allá del nivel socioeconómico individual, asistir a escuelas con distinto perfil socioeconómico promedio se asocia a diferencias en ansiedad y rendimiento en Matemática.
Finalmente, se incorpora el promedio de ansiedad matemática de la escuela como indicador del clima emocional frente a la Matemática en cada establecimiento. Este se obtiene calculando el valor medio del índice de ansiedad para los estudiantes de cada escuela presentes, y se interpreta como una medida del clima de ansiedad matemática en el entorno escolar. En la muestra chilena, esta variable presenta una media cercana a 0,5 y una desviación estándar de alrededor de 0,4, con valores que van aproximadamente de -1,7 a 2,2. Valores más altos indican escuelas donde, en promedio, el estudiantado reporta mayores niveles de ansiedad frente a la Matemática, mientras que valores más bajos reflejan un clima emocional menos ansioso. Este indicador permite evaluar si, más allá de la ansiedad individual, la pertenencia a escuelas con climas de mayor o menor ansiedad matemática se asocia diferencialmente al rendimiento en Matemática, capturando así efectos contextuales ligados al ambiente emocional y a las expectativas en torno a esta asignatura.
4.2.3 Variables de control de nivel individual
Además de las variables centrales, se incorporan diversos controles de nivel individual con el fin de aislar de mejor manera la asociación entre origen social, ansiedad y rendimiento, evitando atribuir al nivel socioeconómico o a la ansiedad diferencias que responden a características sociodemográficas o escolares previas.
En primer lugar, se incluye el género del estudiante, operacionalizado como una variable dicotómica mujer (1) y hombre (0). En la muestra chilena la distribución es relativamente equilibrada (51,5% hombres y 48,5% mujeres). Esta variable permite controlar por diferencias de género en ansiedad matemática y rendimiento, ampliamente documentadas en la literatura.
En segundo lugar, se incorpora un indicador de problemas con el aprendizaje autodirigido (selfreg), basado en el índice Probself (Problems with self-directed learning). Este índice continuo recoge dificultades para organizar el estudio, mantener la concentración, completar tareas y gestionar de manera autónoma el proceso de aprendizaje. Valores más altos indican mayores problemas de autorregulación. Se utiliza como control para no confundir la ansiedad específica ante Matemática con dificultades generales en el estudio o en la gestión del tiempo escolar.
En tercer lugar, se considera la repitencia escolar, medida como una variable dicotómica que distingue entre quienes han repetido al menos un curso (1) y quienes nunca han repetido (0). En la muestra analizada, alrededor de un 13% del estudiantado ha repetido algún curso. Dado que la repitencia suele estar asociada a trayectorias escolares marcadas por dificultades de aprendizaje y a contextos socioeconómicos menos favorecidos, se incluye principalmente como control, reconociendo que se trata de un resultado previo situado entre la causa y la consecuencia del bajo rendimiento y la ansiedad.
Adicionalmente, se incorporan dos controles vinculados a la posición lingüística y migratoria. El primero es si el idioma del hogar es distinto al idioma de la prueba, codificado como 0 a quienes reportan hablar español en el hogar (idioma de la prueba en Chile) y como 1 a quienes declaran otro idioma. En la muestra, aproximadamente un 1,5% de los estudiantes se ubica en esta última categoría. Por su parte, el estatus migrante se codifica como estudiantes de primera o segunda generación migrante (1) y nativos (0). Cerca de un 6% del estudiantado se clasifica como migrante. Ambas variables permiten controlar por fuentes adicionales de desventaja o diferenciación asociadas a la condición migratoria y lingüística.
La tabla de descriptivos de nivel individual resume la distribución de todas estas variables, permitiendo caracterizar la muestra en términos socioeconómicos, de ansiedad, trayectoria escolar, género, autorregulación, idioma del hogar y condición migrante.
Para más información, ver el Apéndice A.
Figura 3.1. Tabla de descriptivos de nivel individual.
4.2.4 Variables de control de nivel escuela
A nivel contextual, además de los promedios de nivel socioeconómico y ansiedad que constituyen variables de interés, se incorporan ciertas variables de control que permiten ajustar por características estructurales e institucionales de los establecimientos.
En primer lugar, se considera el tamaño total de la escuela, que representa el número total de estudiantes matriculados en el establecimiento. En la muestra, las escuelas exhiben una gran variabilidad, con un promedio cercano a 867 estudiantes y valores que van desde establecimientos pequeños hasta colegios con más de 4.000 estudiantes. Esta variable permite controlar por diferencias estructurales asociadas al tamaño, potencialmente vinculadas a la disponibilidad de recursos, al clima escolar y a la organización pedagógica.
En segundo lugar, se incluye el tipo de establecimiento, construido a partir de las variables de PISA sobre administración y propiedad, codificadas en dos categorías principales: escuelas públicas y escuelas privadas. Aproximadamente tres cuartas partes de los establecimientos de la muestra corresponden a escuelas públicas y cerca de un cuarto a escuelas privadas. Esta variable permite considerar diferencias institucionales y de financiamiento asociadas tanto a la composición socioeconómica del alumnado como a las oportunidades de aprendizaje en Matemática.
En tercer lugar, se incorpora un indicador del tipo de comunidad donde se ubica la escuela, basado en la pregunta que distingue entre distintos tamaños y tipos de localidades (aldea o zona rural, pueblo pequeño, ciudad mediana, ciudad grande, megaciudad). Este indicador permite controlar por el entorno territorial inmediato del establecimiento, que puede influir en el acceso a recursos educativos, la segregación residencial y las oportunidades culturales. Para los análisis descriptivos se presentan las categorías originales de PISA, mientras que para los modelos estas se agrupan en categorías más parsimoniosas como rural, urbano pequeño, mediano y urbano grande..
Finalmente, se reporta el número de estudiantes por escuela en la muestra PISA, que corresponde al tamaño muestral por establecimiento y no al total de matrícula. Esta variable se utiliza principalmente con fines descriptivos y para ver variabilidad en el número de estudiantes por escuela respecto a la evaluación PISA considerando la estructura multinivel.
A continuacion se presenta la tabla de descriptiva de nivel conextual que resume la distribucion de todas estas variables.
Para más información, ver el Apéndice B.
Figura 3.2. Tabla de descriptivos de nivel contextual (escuelas).
Como un ultimo punto respecto a las variables, en los modelos multinivel todas las variables continuas se trabajan centradas para separar con claridad los efectos individuales y contextuales. En particular, los predictores de nivel individual (estudiante) se descomponen en una componente individual (desviación del valor del estudiante respecto del promedio de su escuela) y una componente contextual (promedio de la variable en cada establecimiento). De este modo, la parte individual se centra en la media del centro educativo, lo que permite interpretar sus pendientes como efectos estrictamente dentro de escuela, mientras que sus promedios escolares capturan diferencias entre escuelas (Enders & Tofighi, 2007; Raudenbush & Bryk, 2002; Snijders & Bosker, 2012). Adicionalmente, los predictores continuos de nivel contextual se centran en su media muestral o gran media, facilitando la interpretación de los interceptos y reduciendo la colinealidad entre términos principales e interacciones (Bell et al., 2019; Enders & Tofighi, 2007).
4.3 Estrategia de análisis
La metodología empleada en esta investigación es de carácter cuantitativo. El análisis estadístico se realizará en el software R (versión 4.5.0) (R Core Team, 2024), utilizando principalmente los paquetes lme4 para la estimación de modelos multinivel (Bates et al., 2015) y summarytools para la generación de tablas descriptivas (Comtois, 2024). Dado que los datos provienen del estudio PISA 2022, se trabaja con una muestra de estudiantes de 15 años matriculados en establecimientos escolares en Chile, lo que implica una estructura jerárquica de estudiantes anidados en escuelas. Este tipo de estructura hace que las observaciones no sean independientes entre sí, ya que estudiantes de una misma escuela comparten recursos, normas, docentes y climas escolares similares. En estas circunstancias, los modelos de regresión multinivel resultan especialmente adecuados para analizar cómo un resultado a nivel individual, en este caso el rendimiento en Matemática, se relaciona con variables medidas tanto a nivel del estudiante como a nivel de la escuela (Fairbrother, 2014; Hox et al., 2017).
En términos formales, se estiman modelos de regresión lineal multinivel de dos niveles con interceptos aleatorios, donde el nivel 1 corresponde a los y las estudiantes y el nivel 2 a las escuelas. Estos modelos permiten separar la varianza del rendimiento en Matemática en una componente individual y una componente entre escuelas, estimar efectos fijos de las variables independientes en ambos niveles y modelar la variación aleatoria del intercepto entre establecimientos (Bell et al., 2019). Como paso inicial, se estima un modelo nulo (sin predictores) para calcular la correlación intraclase (ICC), que indica qué proporción de la varianza total del rendimiento se explica por diferencias entre escuelas. Este diagnóstico es clave para justificar empíricamente el uso de modelos multinivel y para dimensionar la importancia de los efectos contextuales (Aguinis et al., 2013).
A partir de este modelo base, se especifica una secuencia de modelos multinivel orientados a responder las preguntas de investigación y contrastar las hipótesis planteadas. En primer lugar, se estiman modelos con efectos directos de nivel individual, incorporando el índice socioeconómico, social y cultural y el índice de ansiedad ante Matemáticas como predictores centrales del rendimiento en Matemática, junto con un conjunto de variables de control individuales: sexo, problemas con el aprendizaje autodirigido, repitencia de curso, idioma del hogar distinto al idioma de la prueba y condición migrante. Estos modelos permiten evaluar en qué medida el rendimiento promedio en Matemática se asocia con el origen social y la ansiedad matemática de cada estudiante, controlando por diferencias sociodemográficas y educativas a nivel individual.
En segundo lugar, se incorporan predictores de nivel escolar con el fin de capturar efectos contextuales. En particular, se incluyen el nivel socioeconómico promedio de la escuela como indicador de composición socioeconómica del establecimiento y el promedio de ansiedad matemática como indicador del clima de ansiedad ante Matemáticas en la escuela. A estas variables se suman controles de nivel 2: tamaño del establecimiento, número de estudiantes de la muestra PISA por escuela, tipo de establecimiento (público/privado) y tipo de comunidad donde se ubica la escuela. De este modo, es posible evaluar si el rendimiento en Matemática se relaciona no sólo con las características individuales del estudiantado, sino también con las condiciones socioeconómicas y emocionales promedio de los establecimientos en que estudian (Bayram-Ozdemir & Özdemir, 2020; Treviño et al., 2018).
Dada la relevancia teórica de los mecanismos de desigualdad y estratificación escolar, se estiman modelos con interacciones entre niveles para analizar posibles efectos de moderación (Hayes, 2022; Hox et al., 2017). En particular, se explora si la asociación entre el origen social individual y el rendimiento varía en función de la composición socioeconómica de la escuela, así como si la relación entre la ansiedad matemática individual y el rendimiento depende del clima de ansiedad promedio del establecimiento. Estas interacciones permiten evaluar si ciertos entornos escolares amplifican o amortiguan los efectos de las desventajas socioeconómicas y de la ansiedad matemática sobre el desempeño en Matemática, articulando así los efectos individuales y contextuales en una perspectiva plenamente multinivel (Aguinis et al., 2013; Fairbrother, 2014).
Finalmente, y con el propósito de explorar la heterogeneidad en el efecto de la ansiedad matemática entre escuelas, se estiman modelos multinivel con pendientes aleatorias para la ansiedad matemática a nivel individual, permitiendo que la asociación entre ansiedad matemática y rendimiento en Matemática varíe entre establecimientos (Raudenbush & Bryk, 2002; Snijders & Bosker, 2012). La comparación entre modelos con y sin pendientes aleatorias, mediante pruebas de razón de verosimilitudes y test de desvianza, permite evaluar si la inclusión de estas pendientes mejora significativamente el ajuste del modelo (Bell et al., 2019).
Sobre esta base, se incorporan interacciones de segundo orden entre la ansiedad matemática individual y características del contexto escolar (nivel socioeconómico promedio del establecimiento, clima promedio de ansiedad y tipo de escuela). Esto permite analizar si el efecto negativo de la ansiedad sobre el rendimiento es más intenso en ciertos tipos de escuelas, por ejemplo, en establecimientos con alta concentración de estudiantes de nivel socioeconómico bajo o con climas emocionales más ansiosos, modelando así la manera en que los contextos escolares pueden amplificar o atenuar el impacto de la ansiedad matemática sobre el desempeño (Aguinis et al., 2013; Enders & Tofighi, 2007; Hayes, 2022).
A continuación, se presenta el modelo multinivel propuesto que integra los efectos individuales y contextuales del nivel socioeconómico y la ansiedad ante Matemática sobre el rendimiento con pendientes aleatorias e interacciones cruzadas
Figura 3.3: Modelo multinivel
\[ \begin{aligned} Y_{ij} &= \gamma_{00} + \gamma_{10} ESCS_{ij} + \gamma_{20} ANXMAT_{ij} + \gamma_{01} \overline{ESCS}_{j} + \gamma_{02} \overline{ANXMAT}_{j} + \gamma_{03} TYPE_{j} \\ &\quad + \gamma_{11}\, ESCS_{ij}\,\overline{ESCS}_{j} + \gamma_{21}\, ANXMAT_{ij}\,\overline{ANXMAT}_{j} + \gamma_{23}\, ANXMAT_{ij}\,TYPE_{j} \\ &\quad + \mathbf{W}_{ij}^{\top}\beta + \mathbf{V}_{j}^{\top}\delta \\ &\quad + u_{0j} + u_{1j} ESCS_{ij} + u_{2j} ANXMAT_{ij} + e_{ij}. \end{aligned} \]