SciELO - Scientific Electronic Library Online

 
vol.78 número2 índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Revista Española de Salud Pública

versión impresa ISSN 1135-5727

Rev. Esp. Salud Publica v.78 n.2 Madrid mar.-abr. 2004

 

COLABORACIÓN ESPECIAL

  

APLICACIONES DE LOS MODELOS MULTINIVEL AL ANÁLISIS DE MEDIDAS
REPETIDAS EN ESTUDIOS LONGITUDINALES (*) 

 

María Victoria Zunzunegui(1), María Jesús García de Yébenes (2), Mathieu Forster (3), María
Dolores Aguilar Conesa (1), Angel Rodríguez Laso (2) y Ángel Otero (2)

(1) Técnicas avanzadas de investigación en servicios de salud (TAISS), Madrid
(2) Centro Universitario de Salud Pública, Universidad Autónoma de Madrid
(3) Département de Médecine sociale et préventive, Université de Montréal
(*) Trabajo financiado por la fundación BBVA, Convocatoria 2002 sobre Economía, Demografía y estudios de población

Correspondencia:
María Victoria Zunzunegui
Técnicas avanzadas de investigación en servicios de salud
C/Cambrils 41-2
Madrid 28034
Correo electrónico: vzunzunegui@taiss.com

 

 



RESUMEN
 

Este trabajo es una introducción al análisis de medidas repetidas en estudios longitudinales. Se utiliza un marco analítico con dos etapas, ajustando modelos jerárquicos lineales con dos niveles. El primer nivel corresponde a la ocasión (tiempo) de medida y el segundo al individuo. Estos modelos estadísticos proceden de las ciencias sociales, en las que se han utilizado durante más de 25 años para analizar datos en organizaciones con múltiples niveles. Su aplicación permite estudiar los cambios en alguna característica de interés (estado de salud o factor de riesgo) y analizar las circunstancias que explican la variabilidad en las trayectorias individuales. En este trabajo se introducen los conceptos básicos de este método: variabilidad entre individuos y dentro de cada individuo a lo largo del tiempo, modelo del nivel individual para describir la trayectoria de cada individuo y modelo «entre individuos» para describir cómo cambian las trayectorias entre individuos, efectos fijos y efectos aleatorios, modelos de crecimiento lineal y cuadrático. Para ello se ha realizado un análisis de los cambios en la función cognitiva de una cohorte de personas mayores, el estudio «Envejecer en Leganés», seguida cada dos años, entre 1993 y 1999. Se presentan los resultados de modelos ajustados para resolver las preguntas de investigación más frecuentes en la descripción y el análisis de las trayectorias de cambio individual. Por último, se comentan posibles generalizaciones de estos modelos lineales jerárquicos a situaciones en las que la variable de interés no es continua, como es el caso de las variables dependientes dicotómicas, nominales u ordinales.

Palabras clave: Modelos multinivel. Estudios longitudinales. Función cognitiva.


ABSTRACT

 Multilevel models applications to the
analysis of longitudinal data
 

This work is an introduction to repeated measurement analysis for longitudinal studies. It uses a two stage modelling framework, using hierarchical linear models with two levels. The first level pertains to the repeated measures, the second level pertains to the individual. For the last 25 years, hierarchical linear models have been used in the Social Sciences to analyse data coming from organizations with multiple levels. Their applications have been extended to the study of change in populations, both to describe the average change in an outcome variable in a population and to analyse the factors associated with variability in the individual trajectories of change. In this article, the basic concepts are introduced: between subjects and within subjects variability, the person-specific model for the individual trajectory and the between person model to describe how individuals vary in their trajectories, fixed and random effects, linear and quadratic growth models. At the end of each section, an illustration is given for the study of cognitive function of the older people cohort «Aging in Leganés», followed in four occasions between 1993 and 1999. Results from fitting the models to answer the most frequently asked research questions in the description and analysis of individual change are presented. Lastly, we present possible generalizations of these linear models to non linear situations which arise when outcomes are dichotomous, nominal or ordinal.

Key words: Multinivel models. Longitudinal studies. Cognitive function.


 

 

 INTRODUCCIÓN 

El estudio de procesos relacionados con la salud de la población comprende las tres etapas clásicas de la investigación epidemiológica1. La primera consiste en describir la trayectoria que sigue un individuo a lo largo del proceso, es decir a medida que el tiempo transcurre: el crecimiento de un niño, el envejecimiento de una persona mayor o el curso natural de una enfermedad. La segunda consiste en identificar factores de riesgo y factores de protección y analizar sus relaciones con el proceso en estudio. Estos factores influyen sobre la dirección y la magnitud de los cambios. Pueden ser factores inmutables a lo largo del tiempo, características permanentes de los individuos, tales como el sexo o la composición genética, o factores que varían con el tiempo, como los ingresos económicos, el peso corporal o los hábitos de vida. Además los individuos están expuestos a factores ambientales característicos del lugar donde viven, estudian, trabajan o pasan su tiempo libre. La tercera etapa consiste en estudiar el efecto de las intervenciones que tienen como objeto mejorar o mantener la salud de la población. El objetivo de estos estudios consiste en diseñar, llevar a cabo y evaluar intervenciones que maximizen la probabilidad de un óptimo desarrollo infantil o de conservar la capacidad funcional durante el proceso de envejecimiento.

Los estudios longitudinales son esenciales para aumentar el conocimiento sobre el desarrollo infantil, el envejecimiento y sobre los cambios que ocurren en el organismo como consecuencia de las enfermedades crónicas. Se trata de describir el cambio medio en la población y las diferencias en los cambios de los individuos que componen la población2-4. Algunas preguntas de interés pueden ser ¿Cómo evoluciona la función cognitiva en el primer año de vida? ¿Varía la evolución de la función cognitiva en el primer año de vida según los ingresos medios del hogar donde se nace? La primera pregunta se dirige a la descripción de la evolución media de la función cognitiva. La segunda se orienta a identificar un factor que puede explicar diferencias en la evolución de los niños de esa población. Para estudiar el cambio individual es necesario realizar medidas repetidas sobre cada individuo a lo largo del tiempo.

El análisis de medidas repetidas ha supuesto un reto para la estadística aplicada, principalmente por dos motivos. El primero de ellos es el manejo de la interdependencia de las observaciones repetidas sobre cada individuo; el segundo, la limitación de los métodos clásicos que requieren disponer del mismo número de observaciones (datos completos) para cada individuo. Se ha desarrollado gran número de procedimientos estadísticos para tener en cuenta la interdependencia de las observaciones (MANOVA, Generalized Linear Equations). Sin embargo, el requisito de datos completos sigue restringiendo de forma importante el número de casos disponibles para el análisis. La reducción subsiguiente del tamaño muestral conlleva una menor precisión en las estimaciones y un riesgo de sesgo de selección, ya que la muestra final es una submuestra de los participantes en el estudio que puede diferir de la muestra total en cuanto a la distribución de las variables consideradas.

El propósito de este trabajo es presentar una introducción a la formulación de modelos multinivel para el análisis de medidas repetidas en estudios longitudinales e ilustrar su utilidad mediante el estudio de los cambios de la función cognitiva en la población mayor de 65 años en Leganés.

El objetivo del estudio longitudinal Envejecer en Leganés era analizar la influencia de las redes sociales en la salud, la capacidad funcional y la utilización de servicios en una cohorte de personas mayores españolas. En el diseño original se pretendía obtener información sobre cada participante en 5 ocasiones, separadas por intervalos de dos años a partir de 19935. En la práctica se realizaron 4 trabajos de campo en 1993, 1995, 1997 y 1999. No todas las personas pudieron ser entrevistadas en cada ocasión debido a defunciones, rechazos y pérdidas durante el seguimiento. De las 1.558 personas seleccionadas aleatoriamente a partir del Padrón Municipal, se completaron 1.283 entrevistas en 1993, 1.012 en 1995, 879 en 1997 y 527 en 1999. Uno de los indicadores de estado de salud considerado en este estudio fue la función cognitiva, variable de resultado utilizada en el presente trabajo. La función cognitiva se midió con una escala diseñada y validada específicamente para personas mayores con bajo nivel de instrucción, la Prueba Cognitiva de Leganés (PCL), con un rango de valores entre 0 y 326,7. Se obtuvieron datos sobre la función cognitiva en al menos una ocasión para 1.463 personas.

Las variables independientes utilizadas en este estudio han sido la edad (calculada en cada ocasión a partir de la fecha de la entrevista y la fecha de nacimiento), el sexo y el nivel de instrucción (recogido en cuatro categorías: analfabetos, sin escolarización, primaria incompleta y primaria completa). Las preguntas de investigación que se desean contestar son: 1) ¿Cómo varía la función cognitiva con la edad?; 2) ¿Difieren los niveles medios de función cognitiva de los hombres y las mujeres? ¿Difiere la velocidad del deterioro cognitivo según el sexo?; 3) ¿Difieren los niveles medios de función cognitiva según nivel de instrucción? ¿Difiere la velocidad del deterioro cognitivo según el nivel de instrucción? 

Formulación del modelo de dos niveles para las medidas repetidas 

El objetivo de los estudios longitudinales es analizar el cambio individual en alguna característica concreta; en nuestro caso, la disminución de función cognitiva con el envejecimiento. En resumen, se trata de describir los cambios en una característica de salud en una población mediante dos ecuaciones. La primera modela la trayectoria individual o evolución que sigue cada individuo a lo largo del tiempo. La segunda describe la variación de las trayectorias entre individuos e identifica factores que explican las diferencias entre individuos. Este esquema de análisis estadístico recibe varios nombres: modelos jerárquicos, modelos multinivel, modelos mixtos de efectos fijos y aleatorios y, por ultimo, modelos de crecimiento.

En el análisis de datos longitudinales se utiliza un modelo jerárquico con dos niveles: el nivel 1 serán las medidas repetidas y el nivel 2 el individuo3,4. El nivel 1 describe la evolución de cada individuo mediante una función matemática cuyos parámetros serán a su vez las variables de resultado en el modelo de nivel 2. En función de los predictores utilizados en las ecuaciones de nivel 1 y nivel 2, tendremos diferentes tipos de modelos, los cuales se describen a continuación. 

Modelo multinivel no-condicional o «modelo vacío» 

El modelo lineal jerárquico más sencillo es aquel que no contiene predictores de ningún tipo. Este modelo se denomina «Modelo vacío»3 o «Modelo no-condicional» y sus parámetros tienen interpretaciones útiles para comprender el proceso en estudio.

La ecuación del modelo no condicional se formula de la siguiente manera:

Nivel 1 (medidas repetidas):

Yti= π0i + εti (Eq 1)

donde Π0i es la intersección en el origen y εti los errores de nivel 1. Se asume que los errores de nivel 1 (εti) siguen una distribución normal con una media de 0 y una varianza constante (σ2). Es importante observar que este modelo predice el resultado dentro de la unidad de nivel 1 (medidas repetidas) con un solo parámetro de nivel 2, la intersección en el origen, π0i, que representa el resultado promedio para el individuo i.

Nivel 2 (ecuación entre personas):

π0i= β00 + r0i (Eq 2)

El parámetro β00 es la media de la población. El parámetro r0i es el efecto aleatorio del nivel 2 ó desviación de la media de cada individuo respecto a la media de toda la población (β00) y se asume que tiene una media de 0 y una varianza τ00.

Si sustituimos la segunda ecuación en la primera obtendremos la formulación completa del modelo no condicional:

Yti= β00 + r0i + εti

En este modelo sin variables predictoras, la varianza entre individuos, var(r0i)= τ00 estima la variabilidad de la media de la población, mientras que la variabilidad dentro de los individuos ó varianza de los errores, var(εti)=σ2, se calcula teniendo en cuenta todas las medidas que se hacen en cada individuo de t=0,1... T. La varianza total, var(Yti), será igual a la suma de τ00 y σ2.

La estimación del modelo no condicional es un paso preliminar muy útil en el análisis de datos jerárquicos, ya que permite obtener una estimación puntual de la media poblacional, β00, y ofrece información sobre la variabilidad del resultado en cada uno de los dos niveles. El coeficiente de correlación intraclases (CCI), o cociente entre la variabilidad entre individuos (t00) y la variabilidad total (τ00+ σ2), expresa la proporción de la variabilidad total que es atribuible a diferencias entre individuos. Si este coeficiente, con rango de 0 a 1, es elevado podremos asegurar que las trayectorias de diferentes personas son muy variables (τ00 >> σ2), y que estas diferencias podrían deberse a características del individuo.

En los análisis de medidas repetidas, el modelo vacío sirve para contestar las dos primeras preguntas de investigación: 1) ¿Hay variabilidad entre individuos? En otras palabras: ¿Son variables las trayectorias de los individuos?; 2) ¿Hay variabilidad de los individuos a lo largo del tiempo? En otras palabras, ¿evoluciona la característica Y a medida que transcurre el tiempo?

La puntuación en la Prueba Cognitiva de Leganés (PCL), variable dependiente utilizada para este trabajo, no sigue una distribución normal, ya que la mayoría de personas mayores tienen valores superiores a 20 y existe una minoría de personas con grave deterioro cognitivo y valores próximos a cero. Para intentar normalizar este tipo de variables se puede tomar el logaritmo de (Valor máximo-X +1), siendo X la puntuación obtenida en la PCL. Ya que en este caso el valor máximo es 32, el valor de la PCL se transforma en el logaritmo natural de (32-PCL+1). La variable resultante de esta transformación es aproximadamente normal y los valores elevados son indicativos de deterioro cognitivo8.

A continuación se presenta la tabla de resultados del ajuste del «modelo vacío» a los datos de Leganés utilizando la variable transformada de la puntuación PCL como variable de resultado (tabla 1). Como se recordará, este modelo no incluye ninguna variable predictora. Por tanto, únicamente se obtiene una estimación de la varianza entre medidas repetidas de cada individuo y de la varianza entre individuos. A partir de estas dos varianzas se puede calcular el CCI.

A partir de esta salida del programa de ordenador HLM Versión 57, se puede calcular el valor medio de la función cognitiva en esta muestra de 3.377 observaciones, que proceden de 1.463 individuos observados un número de ocasiones que va de 1 a 4. Este valor medio es el Log (32-exp(2,06) +1)=25,15 con su intervalo de confianza del 95%= (24,9-25,4).

El coeficiente de correlación intraclases (0,2484/(0,2484+0,2708)=0,48) nos informa de que el 48% de la variabilidad en las medidas de función cognitiva es atribuible a diferencias entre individuos, mientras que el 52% restante es atribuible a la evolución con el transcurso del tiempo en cada individuo.

 

 

 

Modelo multinivel con variables explicativas que cambian en el tiempo 

El segundo paso consiste en intentar explicar la variabilidad observada entre las trayectorias de los individuos introduciendo en el modelo variables que cambian en el tiempo, como por ejemplo la edad o el año de encuesta (tabla 2). 

Modelo de crecimiento lineal 

Este modelo asume que existe un crecimiento lineal de la característica de interés con la edad. En este caso la trayectoria individual vendrá representada por dos parámetros: la intersección en el origen y la pendiente, más un término de error (εti).

Yi= b0 + b1* edadi + εti

Estos parámetros, b0 (intersección en el origen) y b1 (pendiente), serán a su vez las variables dependientes de las ecuaciones de nivel dos. 

Ecuación de nivel 1 (trayectoria individual): 

Yti= π0i + π1i edadti + εti

donde

Yti= valor de la variable de resultado para la persona i en el instante t. Si las ocasiones de medida son cuatro, t=0,1,2,3.

edadti= edad de la persona i en el instante t.

π0i= Intersección en el origen o valor del resultado cuando la variable predictora es igual a cero. Para facilitar la interpretación de este coeficiente es preciso realizar una transformación de la variable predictora mediante el método de centrado de variables que se describe posteriormente.

π1i = Pendiente o aumento esperado en el resultado Y con un incremento en la variable independiente; en este caso, un año de edad o un año desde que comenzó el estudio. También se denomina tasa de cambio en Y por una unidad de «edad», o velocidad de cambio por unidad de tiempo.

Asumimos que los errores εti siguen una distribución normal con varianza σ2 y que son independientes.

Ecuaciones de nivel 2 (variación de trayectorias entre individuos) 

π0i00 + r0i

π1i= β10 + r1i

El parámetro β00 representa el valor medio de Y al inicio del estudio, (siempre que la variable edad haya sido centrada en el valor inferior del rango de edad), y el parámetro β10 representa la velocidad media de crecimiento de Y. La varianza de π1i informa de la variabilidad de velocidades entre los individuos.

La correlación de la velocidad de cambio con el estado inicial también tiene interés en el estudio de los cambios en un proceso. En los modelos lineales con crecimiento individual, esta correlación viene dada por:

Corr (π0i, π1i) = τ01 / (τt00 * τ11

Donde τ00=var (τ0i)

τ11=var (τ1i)

τ01=covar (πp0i1i)

Una elevada correlación entre la intersección y la pendiente indica que la evolución de Y (cambios en Y con el tiempo) depende del valor inicial de Y (figura 1). 

 

 

Modelo de crecimiento cuadrático con la edad 

Si la relación entre la variable de respuesta (outcome) y la edad no es lineal, podemos formular otros modelos que se adapten mejor a las observaciones. Por ejemplo, se sabe que la función cognitiva se deteriora de forma acelerada a edades avanzadas. Por tanto, es posible que los cambios en la función cognitiva se describan mejor mediante una función matemática que incluya un término cuadrático para la edad. Este modelo se llama modelo de crecimiento cuadrático.

En este caso la ecuación de nivel 1 incluirá un término cuadrático π2i * edadti2 con varianza τ22 y covarianzas con la intersección y la pendiente τ02 y τ12. El parámetro π2i representa la aceleración del deterioro cognitivo con la edad (Tabla 3).

 

Tabla 4

 

Ecuación de nivel 1:

Yti = π0i + π1i *edadti+ π2i *edad ti2+ εti

Ecuaciones de nivel 2

π0i00 + r0i

π1i=β10 + r1i

π2i20 + r2i

La estimación de tres componentes aleatorios de error requiere un gran tamaño de muestra. Puesto que la base de Leganés es limitada y el programa de estimación de HLM que utiliza procedimientos iterativos no converge al intentar calcular los parámetros del modelo, se decidió asumir una variación aleatoria únicamente en la intersección y estimar de forma fija los coeficientes de la edad y la edad al cuadrado. Equivale a asumir que la variabilidad entre las personas mayores se manifiesta de forma transversal pero que el envejecimiento cognitivo no varía aleatoriamente con la edad, ni con el término cuadrático de la edad. El modelo a estimar es:

Nivel 1:

Yti = π0i + π1i *edad ti+ π2i *edadti2+ εti

Nivel 2:

π0i00 + r0i

π1i10

π2i20

 

 

 

Centrado de variables 

El centrado de variables que miden el transcurso del tiempo, por ejemplo la edad, permite una interpretación lógica de la intersección en el origen. Existen diferentes formas de centrado. En este trabajo la edad se ha centrado en 65 años, edad mínima de los participantes en el estudio; por tanto, la edad centrada se ha calculado restando 65 a la edad de cada individuo. Con esta transformación π0i se interpreta como el valor de función cognitiva para las personas de 65 años.

El coeficiente del término cuadrático de la edad es significativo y el componente lineal no es diferente de cero. Los datos muestran una fuerte dependencia con el cuadrado de la edad. En otras palabras, la media del deterioro cognitivo entre los 65 y 66 años de edad es mucho menor que entre los 80 y los 81 años. Del mismo modo, se observa una disminución del componente de la varianza para la intersección en el origen que ha pasado de 0,2484-0,1575. Esta disminución indica que la edad explica parte de la variabilidad en la intersección aunque todavía queda variabilidad por explicar. 

1. Modelo multinivel con variables explicativas que no cambian en el tiempo 

Hasta ahora hemos construido modelos para explicar trayectorias individuales. Hemos descrito una trayectoria media para la población estudiada según la edad pero sabemos que existen diferencias significativas entre las trayectorias de los individuos. Estas diferencias entre las trayectorias pueden deberse a características de los sujetos que no se modifican con el tiempo (variables de nivel 2), como el sexo y el nivel de instrucción.

 

La generalización del modelo se representa extendiendo las ecuaciones anteriores de nivel 2 para incluir como variables predictoras otras características de los individuos, χq. La expresión general sería:

π0i00+∑ β0q χqi + r0i

π1i10+∑β 1q χqi + r1i

donde χq, con q=1... Q son las características de las personas que pueden influir en la trayectoria de Y y que no cambian con el tiempo.

Hay dos errores aleatorios r0i y r1i. La varianza de π0i es τ00 y la varianza de π1i es τ11. La covarianza de la intersección en el origen y la pendiente es τ01.

 

Suponemos que la intersección en el origen varía de forma aleatoria alrededor de un valor medio y que estas variaciones aleatorias de la constante pueden depender también de alguna característica del individuo que no cambie con el tiempo, por ejemplo, el sexo o el nivel instrucción. Construimos dos nuevos modelos introduciendo en la intersección el sexo (modelo 3) y el nivel de instrucción (modelo 4). Las categorías de referencia utilizadas para el sexo y el nivel de instrucción serán hombre y estudios primarios completos, respectivamente. Es decir, modelamos la intersección según:

modelo 3: π0i00 + β10*sexo + r0i

modelo 4: π0i00 + β10*sexo + β11*nivel instrucción+r0i

En el modelo 3 se observa que el sexo tiene un efecto significativo y de sentido positivo, por lo que se puede afirmar que las mujeres tienen mayor déficit cognitivo que los hombres una vez controlado el efecto de la edad. La varianza prácticamente no se ha reducido, lo que indica que debemos intentar explicar la variabilidad no explicada introduciendo otras características de los individuos. El nivel de instrucción (modelo 4), está asociado de forma importante al deterioro cognitivo y su inclusión en el modelo disminuye el efecto del sexo, que pierde su significación estadística. Esto indica que, una vez tenidas en cuenta las diferencias en el nivel de instrucción, la función cognitiva de las mujeres no difiere significativamente de la de los hombres por lo que podemos eliminar de la intersección la variable sexo.

Además de los efectos principales de las variables de nivel 1 y de nivel 2, también pueden existir efectos de interacción entre ambos tipos de variables. Por ejemplo, podemos estudiar si el sexo o el nivel de instrucción modifican la velocidad o la aceleración del deterioro cognitivo a medida que avanza la edad. Para ello se introducen en el modelo términos de interacción formados por los productos sexo*edad y sexo*edad2 (modelo 5) o bien educación*edad y educación* edad2 (modelo 6). Estas interacciones reciben el nombre de interacciones entre niveles ya que cada uno de los términos del producto pertenece a un nivel diferente.

A la vista de estos resultados podemos afirmar que no existe un efecto de interacción entre el sexo y la edad y por tanto, la velocidad y la aceleración del deterioro cognitivo con la edad no dependen del sexo (modelo 5). Por el contrario, si se observa una modificación del efecto debida a la educación, de forma que las personas mayores que no fueron escolarizadas en la infancia tienen mayor deterioro cognitivo a los 65 años y presentan una mayor velocidad y aceleración del deterioro cognitivo con la edad que aquellas que si fueron escolarizadas, hubieran terminado o no los estudios primarios (modelo 6). La ausencia de diferencias significativas entre los individuos que no finalizaron la primaria y los que si lo hicieron permite reagrupar estas dos categorías en una y construir el modelo final utilizando como categoría de referencia de la educación el hecho de haber acudido a la escuela (primaria incompleta y completa).

Los resultados de este modelo indican que el nivel de instrucción influye significativamente sobre la función cognitiva a los 65 años y sobre la velocidad y aceleración del deterioro. En la intersección en el origen, no haber recibido escolarización no tiene un efecto diferente de haberla recibido. Sin embargo, el hecho de ser analfabeto predice, como media, una peor función cognitiva al llegar a los 65 años que el ser capaz de leer y escribir.

El parámetro de la varianza se ha reducido sensiblemente en comparación con el valor obtenido en el modelo vacío (0,2484) ya que la educación alcanzada explica gran parte de la variabilidad en la función cognitiva de las personas mayores aunque sigue existiendo variabilidad residual que podría deberse a otros factores no considerados, como la desventaja económica y social no captada exclusivamente por el nivel de instrucción, el estado de salud, los síntomas depresivos o alguna variable ligada a la susceptibilidad genética.

Modelo 7

En la figura 2 se representa la evolución de la función cognitiva según el nivel de instrucción. Adviértase que en esta figura se ha utilizado la escala original de la «Prueba Cognitiva de Leganés» y no la transformación logarítmica empleada en los análisis.

 

Este ejemplo ilustra una aplicación de un nuevo método de análisis de medidas repetidas mediante la utilización adecuada de programas informáticos disponibles comercialmente. Sin embargo, la facilidad de acceso a estos programas conlleva el peligro de una mala utilización. Los modelos multinivel son muy flexibles pero también requieren asunciones sobre la distribución de las variables que deben ser verificadas antes de la modelización.

 

Aplicaciones de los modelos multinivel al análisis de cambios en variables que no son normales 

Aunque los modelos multinivel fueron desarrollados originalmente para variables de respuesta con distribución normal y bajo los supuestos de una distribución normal de los errores en cada individuo, estos métodos han sido generalizados para situaciones en las que la variable de respuesta es binomial, nominal u ordinal y para procesos donde la probabilidad del evento es pequeña y se puede modelar con una distribución de Poisson. Se llama función vínculo de nivel 1 (link function) a la transformación de la variable dependiente de nivel 1 que se iguala a una combinación lineal de los coeficientes de las variables explicativas. Esta función puede ser una función logística binomial, ordinal, multinomial o una transformación de Poisson. Los dos principales programas informáticos que realizan análisis multinivel, el HLM9 y el MLnWin10, permiten la formulación de estos modelos no lineales.

Estas generalizaciones no están exentas de problemas y la utilización de modelos multinivel con variables discretas requiere especial atención a los supuestos teóricos. Como una ilustración podemos citar la utilización de una función logística para modelar la discapacidad en las actividades de la vida diaria de las personas mayores. Esta variable es dicotómica con valores 0=independiente, 1=dependiente. Sin embargo cuando se utiliza el modelo de medidas repetidas con una variable dicotómica se observa el problema de la variación extra-binomial, también llamado sobredispersión o sub-dispersión. Este problema está ocasionado por la fuerte correlación entre un estado y los subsiguientes. Por ejemplo, si una persona está independiente en el tiempo 1 lo más probable es que también lo esté en el tiempo 2 y así sucesivamente. Es decir, la varianza en la respuesta de nivel 1 es inferior a la esperada por el modelo teórico (subdispersión). Otra fuente de variación extra-binomial es la ausencia de variables explicativas importantes en el modelo. El programa HLM versión 5 tiene una opción para modelar la varianza extra-binomial. Si este parámetro es muy diferente de 1, el modelo teórico no ajusta bien a los datos y se deben buscar alternativas para modelar la variable dependiente.

Otra extensión de los modelos jerárquicos multinivel es el estudio de respuestas multivariables, es decir el análisis multivariable multinivel. Así, por ejemplo, en el problema anterior sobre la modelización de la discapacidad en las actividades de la vida diaria utilizando los datos del estudio «Envejecer en Leganés» anteriormente citados, se observa sub-dispersión en la variable dependiente de nivel 1. Una forma alternativa de analizar estos datos es usar un modelo multivariante donde la variable de respuesta está constituida por los valores de la discapacidad en los cuatro tiempos de recogida de información, 1993, 1995, 1997, 1999.Se hacen los mismos supuestos que en el modelo de medidas repetidas pero no se permite variación en el nivel 1 y las variables binomiales covarían en el nivel 211. El programa HLM versión 5 no incluye la opción para realizar análisis multivariable multinivel con variables binarias. Esta aplicación está disponible en el programa MLWin.

 

BIBLIOGRAFÍA 

1. Lilienfeld AM, Lilienfeld D. Foundations of epidemiology. Second edition. New York: Oxford University Press; 1972.         [ Links ]

2. Raudenbush SW. Comparing personal trajectories and drawing causal inferences from longitudinal data. Ann Rev Psychol 2001;52:501-25.         [ Links ]

3. Raudenbush SW, Bryk AS. Hierarchical Linear Models. Applications and data analysis methods. Second Edition. Advance Quantitative Techniques in the Social Science. London: Sage Publications; 2002.         [ Links ]

4. Snijders T, Bosker R. Multinivel analysis. An introduction to basic and advanced multilevel modeling. London: Sage Publications; 1999.         [ Links ]

5. León V, Zunzunegui MV Béland F. El diseño y la ejecución de la encuesta «Envejecer en Leganés». Rev Gerontol 1995; 5:215-31.         [ Links ]

6. Zunzunegui MV, Gutiérrez CP, Beland F, Del Ser T, Wolfson C. Development of simple cognitive function measures in a community dwelling population of elderly in Spain. Int J Geriatr Psychiatry 2000; 15(2): 130-40.         [ Links ]

7. García de Yébenes MJ, Otero Puime A, Zunzunegui MV, Rodriguez Laso A, Sanchez Sánchez F, Del Ser Quijano T. Validation of a short cognitive tool for the screening of dementia in elderly people with low educational level. Int J Geriatr Psychiatry 2003;18:925-36.         [ Links ]

8. Tabachnick BG, Fidell LS. Using multivariate statistics-4th edition. Toronto: Allyn & Bacon; 2001. Disponible en: www.abacon.com/tabachnick/ stats         [ Links ]

9. HLM Version 5 Hierarchical Linear and Non Linear Modeling. Raudenbush S, Bryk A, Cheong YF, Congdon R. SSI Scientific Software International Inc; 2001. Disponible en .www.ssicentral.com        [ Links ]

10. Center of multilevel analysis Disponible en: www.multilevel.ioe.ac.uk[         [ Links ]STANDARDIZEDENDPARAG]

11. Goldstein H, Rasbash J. Improved approximations for multilevel models with binary responses. J R Stat Soc Ser A Appl Stat 1996; 159:505-13.         [ Links ]