INTRODUCCIÓN
Debido al proceso natural del envejecimiento, conforme avanza la edad, se produce un deterioro tanto a nivel de la función cognitiva1,2 como en la independencia funcional3. Esto último, relacionado en gran medida con el deterioro del equilibrio4, compromete el desempeño autónomo de las actividades de la vida diaria (AVDs), aumentando además el riesgo de caídas, las cuales producen fragilidad física y aumento de la dependencia, reduciendo la calidad de vida5. Este proceso suele desembocar en inactividad física, considerada como factor de riesgo para muchas enfermedades que comprometen la vida6.
Existen numerosas evidencias, recogidas en diferentes trabajos de revisión5,7, acerca de los beneficios que la práctica de ejercicio físico supone de cara al mantenimiento, mejora y ralentización del deterioro de no únicamente los parámetros de la independencia funcional, sino también a nivel de la función cognitiva. Para que la práctica de ejercicio físico conlleve realmente estos beneficios y no suponga riesgos adicionales, resulta necesario diseñar programas adecuados que estén correctamente contextualizados en las necesidades y características de este colectivo, asegurando una adecuada progresión que no solo minimice los riesgos de lesión, sino que favorezca la motivación y adherencia al programa, puntos esenciales para asegurar su efectividad8.
Para poder diseñar correctamente estos programas, es necesario el desarrollo de herramientas que evalúen el estado inicial de los individuos, siendo esencial que sean válidas y fiables para poder estudiar los efectos en la salud9. Los instrumentos más utilizados actualmente para la medición o estimación del nivel de condición física o actividad física (AF), se pueden clasificar en tres grupos principales: estimaciones mediante autoinformes o entrevistas (cuestionarios, escalas de puntuación, diarios), monitores de AF (acelerómetros, podómetros, monitores de frecuencia cardíaca) y métodos de medición directa del gasto energético (agua doblemente marcada, calorimetría indirecta)10.
Los cuestionarios son generalmente más utilizados debido a su bajo coste y fácil administración, siendo además considerados particularmente útiles en grandes estudios epidemiológicos y longitudinales10.
Dado el uso generalizado que se hace de estas herramientas, se han publicado varios estudios de revisión acerca de sus propiedades psicométricas. Si bien informan principalmente sobre el grado de validez y fiabilidad de los cuestionarios, mayoritariamente son estudios centrados en la versión original de los mismos, profusamente diseñados para su aplicación en población de habla inglesa11,12. A este respecto, se debe destacar que para que los cuestionarios que han sido diseñados para un país y comunidad particular puedan ser utilizados en una población diana de distinta nacionalidad, deben ser traducidos mediante un procedimiento metodológico estandarizado denominado adaptación transcultural13. Este proceso toma especial relevancia debido a las peculiaridades culturales y medioambientales que definen a cada país14. Posteriormente, dicha versión debe ser validada en la población del país diana, demostrando unas adecuadas propiedades psicométricas15.
Hasta la fecha, únicamente existe un estudio de revisión, desarrollado por Guirao-Goris et al16, donde se informa detalladamente sobre las propiedades psicométricas de los cuestionarios, tanto de sus versiones originales como, en caso de su existencia, de sus traducciones y adaptaciones en poblaciones de diferentes países, incluyendo España. Esta revisión, por otro lado, no aporta información sobre la calidad metodológica del estudio de validación y adaptación para población española de los cuestionarios, al igual que no aporta información sobre la muestra en la que se estudian las propiedades psicométricas de dichos estudios. Sumado a ello, en este trabajo de revisión tampoco se recoge información acerca de los efectos suelo-techo de dichos estudios. Cabe destacar, de igual manera, que esta revisión finalizó su búsqueda en 2007. Finalmente, a todo esto se debe añadir el hecho de que en las investigaciones en las que se revisan las características de instrumentos diseñados para monitorizar aspectos vinculados a la salud, es necesario aportar información sobre la calidad metodológica de las mismas, procedimiento que se realiza en base a criterios de consenso previamente establecidos a modo de lista de comprobación, como por ejemplo el COSMIN (Consensus-based standards for the Selection of health Measurement Instruments) "checklist"17. En el caso de los estudios de revisión centrados en las propiedades psicométricas que presentan los cuestionarios de valoración de la actividad física, se suele emplear una lista de comprobación específica creada a posteriori del COSMIN y conocida como QAPAQ (Qualitative Attributes and Measurement Properties of Physical Activity Questionnaires)18.
Debido a los puntos expuestos anteriormente, resulta necesaria una actualización de la temática, con un análisis en profundidad de los estudios de adaptación en población española, usando para ello una lista de comprobación específica.
Como consecuencia, se presenta el siguiente trabajo de revisión, que tuvo como objetivo identificar y analizar las características psicométricas de los cuestionarios de realización de AF validados en población española mayor de 60 años, así como la calidad metodológica de los estudios de acerca de su validez y/o fiabilidad.
MATERIAL Y MÉTODOS
Se realizó una revisión sistemática de estudios sobre cuestionarios de valoración de la AF en población española de adultos mayores de 60 años, publicados en inglés o español y sin acotación temporal. Se incluyeron los artículos que cumplían los siguientes criterios: a) estudio publicado en inglés o castellano; b) muestra formada específicamente por personas mayores de 60 años19 de nacionalidad española; c) utilizar una pregunta, serie de preguntas o cuestionario validado; d) informar de la validez y/o fiabilidad de la pregunta, serie de pregunta o cuestionario empleado; e) en caso de utilizar cuestionarios que evalúen varios constructos además de la AF, informar sobre la validez y/o fiabilidad de las preguntas relacionadas específicamente con la misma.
Se consultaron las bases de datos electrónicas PubMed, Scopus, Sport Discus, Dialnet y The Cochrane Database of Systematic Reviews.
La estrategia de búsqueda se diseñó, en un primer momento, para encontrar el mayor número de estudios que tenían como objetivo comprobar la validez y/o fiabilidad de cuestionarios diseñados para valorar la realización de AF en población adulta mayor a nivel internacional. Posteriormente, se acotaron los resultados a los cuestionarios evaluados en dicho sector de la población, pero únicamente en España. Se realizó una búsqueda en las bases de datos anteriormente mencionadas con la combinación de palabras clave "Physical Activity", "Questionnaire", "Energy Expen- diture" y "Older adults", "Elderly" o "Older People", seleccionando el último término en función del que obtuviese un mayor número de resultados en cada una de ellas. Posteriormente, se volvió a realizar una nueva búsqueda en las mismas bases de datos y añadiendo la palabra clave "Spain" a las anteriormente mencionadas, para revisar la existencia de nuevos estudios en España desde la primera prospección. La última búsqueda se realizó en diciembre de 2016. En la tabla 1 se muestra una lista de todas las variables para las que se buscaron datos, anteriormente mencionadas, así como de sus definiciones.
Selección de estudios. Dos revisores examinaron independientemente la información incluida en el título y/o resumen de los resultados tras la primera búsqueda en las bases de datos (MS y CA). En base a las búsquedas, se realizó una primera selección donde se incluyeron todas las investigaciones que tuvieron como objetivo principal analizar la validez y/o fiabilidad de una pregunta, serie de preguntas o cuestionario cuya respuesta ofreciese in- formación sobre el patrón de AF realizado por población española de edad superior a 60 años, identificándose la/s pregunta/s o el cuestionario empleado. No fueron incluidas las investigaciones que utilizasen cuestionarios que evaluasen varios constructos además de la AF a no ser que incluyesen una pregunta o serie de preguntas sobre cuya validez/fiabilidad aportasen información por separado. Se localizó el texto completo de aquellos estudios que no presentasen en su título o resumen esta información. El grado de acuerdo inter-jueces se evaluó mediante el cálculo del índice Kappa de Cohen. Para los casos en que hubo falta de acuerdo, los revisores consultaron a un tercer autor (JC) y se llegó a un consenso. Posteriormente se llevó a cabo un segundo proceso de selección con el fin de localizar y revisar los estudios que, pese a juzgar por su título o resumen no tenían el objetivo anteriormente mencionado, se intuyó que podrían aportar datos de relevancia al respecto. Finalmente, se revisaron los textos completos resultantes del segundo proceso de selección, para identificar el modo en el que se valoró el patrón de AF, excluyendo los artículos que no utilizasen una pregunta, serie de preguntas o cuestionario validado con ese objetivo, y que no informasen de la validez y/o fiabilidad de dichos ítems o herramientas. Todas las referencias bibliográficas de los estudios incluidos fueron también revisadas para identificar potenciales investigaciones adecuadas para la inclusión.
Tabla 1. Lista de variables para las que se buscaron datos y sus definiciones
Variable | Definición |
---|---|
Physical Activity | Estimación de la actividad física, la cual incluye al ejercicio físico, ampliando de esta forma los posibles resultados |
Questionnaire | Herramienta empleada con el fin de que estimase la actividad física, o bien varios constructos incluyendo a ésta |
Energy Expenditure | Estimación del gasto energético mediante la herramienta mencionada |
Older Adults | Colectivo de edad superior a los 60 años |
Elderly | Empleado en algunos casos de forma similar, para referirse a la población mayor de 60 o 65 años |
Older people | Otro término empleado indiferentemente con los dos anteriores, para referirse al mismo colectivo de edad |
Spain | Muestra de estudio española |
Extracción de datos. Este paso lo llevaron a cabo los dos revisores anteriormente mencionados, los cuales recogieron los datos en una plantilla de forma independiente. La información extraída de los estudios incluidos se realizó mediante la lectura de los mismos. Para cada pregunta, serie de preguntas o cuestionario se recogieron los siguientes datos: autor, país, lengua original de validación, proceso de adaptación cultural y capacidad para discriminar el grado de cumplimiento de las recomendaciones de consenso sobre el nivel de AF para adultos mayores de 60 años20. Para cada estudio se obtuvieron los siguientes datos: características de la muestra, variables evaluadas, grado de fiabilidad y/o validez informado, así como del procedimiento empleado para su valoración incluido el intervalo de tiempo entre medidas y la descripción de los instrumentos empleados (acelerómetros, otros cuestionarios y/o pruebas físicas). El grado de acuerdo inter-jueces se evaluó mediante el cálculo del índice Kappa de Cohen. Para los casos en que hubo falta de acuerdo, los revisores consultaron a un tercer autor (JC) y se llegó a un consenso.
Evaluación del riesgo de sesgo. Para la evaluación del riesgo de sesgo, se utilizó la versión modificada del checklist de Downs y Black21 llevada a cabo por Prince et al22. La escala original se desarrolló para ser empleada en estudios observacionales y consiste en 27 ítems con una puntuación máxima de 32 puntos. La versión modificada, se realizó con el objetivo de adaptar este instrumento con el fin de evaluar el riesgo de sesgo en una revisión sobre medidas directas y auto-informes para evaluar la actividad física en adultos. Debido a ello, se consideró óptima para su utilización en el presente estudio. La versión modificada utilizada, comprende los ítems 1-4, 6, 7, 9-13, 16-18 y 20 de la lista original, con una puntuación máxima de 15, indicando mayor calidad a mayor puntuación. Dos autores llevaron a cabo dicha evaluación independientemente (MS y CA). En caso de diferencias, se llegó a un acuerdo mediante la discusión de los mismos. Debido a la heterogeneidad de los estudios y al reducido número de los mismos, no se consideró posible un análisis del sesgo que pudiese afectar a la evidencia acumulativa.
Propiedades psicométricas. Se recogió la información aportada por cada uno de los estudios acerca de las características de la muestra (número, sexo y estado de salud diana). Se incluyó información acerca de la fiabilidad test-retest de los estudios que la hubiesen analizado, incluyendo los días entre las diferentes administraciones. Dada la ausencia de un patrón oro que permita estimar la validez de criterio de los cuestionarios diseñados para estimar la cantidad de AF realizada22, en la presente revisión se identificó como validez de constructo todos aquellos diseños metodológicos que mediante el empleo de acelerómetros, podómetros, pruebas de condición física o parámetros antropométricos (IMC) fueron desarrollados en las investigaciones localizadas con el fin de determinar la validez de los cuestionarios objeto de estudio23,24,25.
Calidad metodológica. Se evaluó la calidad metodológica de los estudios incluidos mediante la lista de comprobación QAPAQ18. Este instrumento fue desarrollado para describir y evaluar de forma independiente los atributos cualitativos y las propiedades de medición de los cuestionarios de valoración de AF. Para describir los atributos cualitativos se emplearon 9 indicadores: 1. Constructo; 2. Población diana; 3. Escenario de práctica; 4. Procedimiento de administración; 5. Período de recuerdo; 6. Número de ítems; 7. Lista de actividades; 8. Dimensiones de práctica; 9. Unidad de medida. Para evaluar las propiedades de medida se emplearon los siguientes 10 criterios, que fueron calificados como ausentes o presentes en función de si se aportaba o no la información correspondiente: Descripción completa de la muestra, diseño del estudio, procedimiento de administración, error de medida, coeficientes de fiabilidad, validez aparente, validez de contenido, efectos suelo- techo, validez de constructo y sensibilidad. La puntuación máxima por estudio fue, por tanto, de 10.
RESULTADOS
La búsqueda inicial permitió identificar un total de 662 estudios y la segunda 5 artículos más recientes. De ellos, se seleccionaron 96 textos para su lectura completa, tras la cual se excluyeron 89 (figura 1). De esta forma, se identificaron 7 estudios que informaron sobre la validez/fiabilidad de 8 cuestionarios redactados en lengua castellana con el objetivo de cuantificar la AF realizada por adultos mayo- res españoles (tabla 2). Se alcanzó un aceptable grado de acuerdo entre revisores, tanto en el proceso de selección de estudios como en el de extracción de datos (Kappa= 0.61 (0.52- 0.68) y Kappa= 0.72 (0.35-1.0)).

Figura 1. Diagrama de flujo del procedimiento de selección de las investigaciones localizadas en el estudio.
Tabla 2. Lista de los cuestionarios en castellano para estimar la actividad física analizados
Instrumento y referencia original | Estudios de validación existentes: Estado de salud diana | País original de administraciónb | Lenguae | Adaptación culturalf | Cumplimiento de recomendacionesg |
---|---|---|---|---|---|
YPAS28 | Sin patologías específicas26 y Pacientes con EPOC27 | EEUU | Inglés | Si | Si |
IPAQ-SF33 | Supervivientes de cáncer34 | Variosc | Variosc | Si | Si |
GPAQ35 | Supervivientes de cáncer34 | Variosd | Variosd | NI | Si |
Modified Baecke PAQ30 | Pacientes con EPOC29 | Holanda | Inglés | Si | No |
VREM* 34 | Sin patologías específicas35 | EEUU | Inglés | No | Si |
CHAMPS32 | Sin patologías específicas31 | EEUU | Inglés | Si | Sí |
LTPAI37 | Sin patologías específicas38 | Suecia | Inglés | Si | Si |
PAWHI39 | Sin patologías específicas38 | Suecia | Sueco | Si | Si |
*Validación de una adaptación propia del Minnesota Leisure Time Physical Activity Questionnaire;
bPaís original de validación;
cEl estudio de validez y fiabilidad se realizó simultáneamente en 12 países de Europa, América, Asia y Oceanía (Australia, Brasil, Reino Unido, Canada, Finlandia, Guatemala, Japón, Portugal, USA, Sudáfrica, Holanda y Suecia);
dEl estudio de validez y fiabilidad se realizó en 9 países (Bangladesh, Brasil, China, Etiopía, India, Indonesia, Japón, Portugal y Sudáfrica);
eLengua original de validación;
fEn el procedimiento de traducción se realizó retro-traducción;
gCapacidad para discriminar el grado de cumplimiento de las recomendaciones de consenso sobre el nivel de actividad física saludable para adultos mayores;
NI: No hay información.
Siguiendo la estructura del QAPAQ, en la tabla 3 se muestra la descripción de los atributos cualitativos de los cuestionarios. Como se puede observar, algunos de ellos fueron originalmente diseñados en población adulta mayor y otros son producto de adaptaciones de cuestionarios creados originalmente para su administración en población adulta. Tres de los cuestionarios analizados pertenecen al primer grupo: Yale Physical Activity Survey (YPAS)26,27,28, Modified Baecke Physical Activity Questionnaire (Modified Baecke PAQ)29,30 y el Community Healthy Activities Model program for Seniors Questionnaire (CHAMPS)31,32. En el segundo grupo están encuadrados los 5 restantes: La versión corta del Internatio- nal Physical Activity Questionnaire (IPAQ)(33) denominada IPAQ - Short Form (IPAQ-SF)34, el Global Physical Activity Questionnaire (GPAQ)34,35, una versión reducida del Minnesota Leisure Time Activity Questionnaire (MLTAQ)36 denominada Versión Reducida en Español del cuestionario de actividad física en el tiempo libre de Minnesota (VREM)37 y los cuestionarios adaptados Leisure Time Physical Activity Instrument (LTPAI)38 y Physical Activity at Home and Work Instrument (PAWHI)38, originariamente diseñados para población con fibromialgia39. Ninguno de los cuestionarios fue creado originalmente para su administración en población adulta mayor en lengua castellana, por lo que todos fueron adaptados a partir de su versión original en diferentes lenguas. En referencia al proceso de adaptación del idioma, seis de ellos informaron de un método estándar de adaptación cultural13. En la misma tabla se puede apreciar que cinco de los instrumentos se administran mediante entrevista y tres de ellos son autoinformes.
Tabla 3. Descripción de los atributos cualitativos de los cuestionarios validados al castellano para medir actividad física en adultos mayores (n=8)

Cs: Conducta sedentaria; D: Duración; F: Frecuencia; I: Intensidad; MET: Equivalente metabólico, unidad empleada para calcular el gasto de energía reflejado en el consumo de oxígeno de cualquier actividad física; Min: Minutos; NI: no informado; Sem: Semana; T: Tipo.
En la tabla 4 se resumen las principales características de las investigaciones que analizaron la validez y/o fiabilidad de los cuestionarios. En cinco estudios, la muestra estuvo conformada por población comunitaria26,31,34,37,38 y en dos por población clínica, concretamente pacientes con Enfermedad Pulmonar Obstructiva Crónica (EPOC)27,29. El único cuestionario validado tanto en población comunitaria como clínica fue el YPAS26,27. Se informó de la validez de constructo en todos los cuestionarios, utilizándose para ello la comparación con acelerómetros u otros cuestionarios validados en seis de los estudios localizados, cinco en población comunitaria (citas) y uno en clínica(27). A este respectó, destacó el VREM (validez de constructo 95,5% con Kappa = 0,93), que fue comparado con otro cuestionario validado, así como los ítems relacionados con una AF vigorosa en los cuestionarios IPAQ-SF y GPAQ, con un coeficiente de correlación lineal de Pearson (r) de 0,73 y 0,98 respectivamente, comparados con un acelerómetro. En cuatro investigaciones, la validez fue analizada mediante la comparación con pruebas físicas y/o parámetros de la composición corporal. Este procedimiento se empleó tanto en población comunitaria31,38 como clínica27,29. Los resultados indicaron que los cuestionarios Modified Baecke PAQ (r = 0,54)29 y el YPAS27 (coeficiente de correlación de Spearman (rho) de 0,40) mostraron los valores más altos, comparados con el test de la marcha de seis minutos (6MWT), seguidos por el CHAMPS en los ítems gasto energético total por semana (r=0,498) y minutos totales por semana (r = 0,519), comparado con el Índice de Barthel (IB). Se informó de la fiabilidad test-retest de cinco cuestionarios, tres con muestra comunitaria y dos en clínica, de los cuales el Modified Baecke PAQ (ICC = 0,92- 0,96) el VREM (ICC = 0,96) y el YPAS26 (ICC = 0,65 para el ítem tiempo total e ICC = 0,66 en el gasto energético diario) alcanzaron los valores más altos.
Tabla 4. Análisis de validez y fiabilidad de los cuestionarios incluidos en la selección final (n=9)

Ac*: Acelerómetro Caltrac; Ac**: Acelerómetro ActiGraph GT3X; Ac***: Acelerómetro SenseWear Pro2 Armband; CI: Intervalo de confianza 95%; EPOC: Enfermedad pulmonar obstructiva crónica; 5CSTS:: Prueba 5-Chair Sit-to-Stand Test; FEV1; Volumen espiratorio forzado en el primer segundo; GC: Porcentaje de grasa corporal; ICC: Coeficiente de correlación intraclase; IMC: Índice de masa corporal (kg/m2); Kappa: Coeficiente kappa de Cohen; MET: Equivalente metabólico, unidad empleada para calcular el gasto de energía reflejado en el consumo de oxígeno de cualquier actividad física; NI (no informada); r: Coeficiente de correlación de Pearson; rho: Coeficiente de Correlación de Spearman; Sem: semana; 6MWT: Test de la marcha de 6 minutos; ap<0,05 ; bp<0,01; cp<0,001; + Cuestionario YPAS; ++ Cuestionario de Actividad Física en el tiempo libre de Minnesota.
Se pueden observar en la tabla 5, finalmente, los resultados de la aplicación del instrumento QAPAQ y sus criterios de análisis para evaluar las propiedades de estimación de los instrumentos analizados. En referencia a la cuantificación del error de medida, únicamente cuatro de los instrumentos informaron del mismo. Cabe destacar que, como se muestra en dicha tabla, si bien todos superaron un grado de cumplimiento ≥ 50% de los criterios de calidad establecidos, ninguno de los estudios de los cuestionarios analizados cumple el 100% de los mismos.
Tabla 5. Evaluación de las propiedades de medida de los cuestionarios de valoración de AF en población española de adultos mayores (n=8)

aPoblación (descripción completa de la muestra; edad, género y nacionalidad); bDiseño del estudio (descripción de la versión del cuestionario usado, el tiempo entre mediciones y un tamaño de muestra adecuado n>50 sujetos); c Administración (descripción del procedimiento de administración); dError de medida (Bland Altman, error estándar de medida, cambio mínimo detectable) eCoeficientes de fiabilidad (ICC, Kappa de Cohen). fValidez aparente o lógica (grado en que los ítems del cuestionario reflejan adecuadamente el constructo a medir y son entendibles); gValidez de contenido (grado en que todos los aspectos relevantes relacionados con el constructo a valorar han sido incluidos con suficiente detalles como contenido); hEfecto suelo-techo (>15% de la muestra de estudio presenta los valores más altos o más bajos posibles, lo cual demostraría que el instrumento no es capaz de discriminar entre grupos y por lo tanto su fiabilidad es reducida y su sensibilidad limitada); iValidez de Constructo (comparación de los resultados del cuestionario con los de un instrumento validado que mide idéntico constructo); jSensibilidad (habilidad del instrumento para detectar cambios a lo largo del tiempo en el constructo medido). + (cumple el criterio); - (inclumple el criterio).
En el presente trabajo de revisión, se evaluó el riesgo de sesgo en todos los estudios (n=7). El rango de los resultados en los ítems de la herramienta modificada de Downs y Black21 fue de 12 a 14 (el máximo era 15), con una media de 13 ± 0,58. Los resultados de la evaluación del riesgo de sesgo indican que todos los estudios tuvieron una alta calidad, basada en un punto de corte de superior a 12 sobre los 15 puntos22. Como se ha indicado anteriormente, no se realizó un análisis del riesgo de sesgo entre los estudios debido a su reducido número y heterogeneidad.
DISCUSIÓN
El análisis de las investigaciones seleccionadas, demuestra que no todos los cuestionarios de recuerdo de realización de AF aplicables en población adulta mayor de 60 años española llevan a cabo una evaluación conveniente de sus propiedades psicométricas. De este modo, del total de los 7 estudios se informó en 7 de ellos, en el caso del YPAS dos veces26,27, sobre su validez y en 5 cuestionarios sobre su fiabilidad test-retest.
En referencia al análisis de la fiabilidad, únicamente dos cuestionarios que podrían calificarse con una alta fiabilidad40, el Modified Baecke PAQ y el VREM, mostraron valores superiores al estándar mínimo41.
Además de esta limitación, únicamente 4 estudios incluyeron información acerca de la cuantificación del error de medida. Esta propiedad permite informar del error aleatorio en la puntuación del cuestionario por medio de diferentes parámetros como el límite del acuerdo, el mínimo cambio detectable y/o el tamaño medio del error42. Dicho error de medida toma especial relevancia en estudios que pretenden medir el efecto de una intervención43.
Con respecto al análisis de validez, el mayor nivel de evidencia, denominada validez de criterio, se obtendría comparando el cuestionario con un patrón oro, un instrumento con una perfecta validez y fiabilidad, que en el caso de la medición de la AF no existe22,44,45. Si bien se consideraba el agua doblemente marcada como el patrón oro para estimar el gasto energético total diario46, este método no cumple al completo los requisitos para tal denominación, pues dicho gasto no es causado únicamente por la AF, sino también por el índice metabólico basal y el efecto térmico de los alimentos22. De igual manera, tampoco permite diferenciar entre el tipo, frecuencia y duración de las actividades43. Debido a la ausencia, por tanto, del denominado patrón oro, podríamos informar acerca de la validez de constructo, mediante la comparación del cuestionario con otro instrumento validado que mida constructos fuertemente relacionados, como los acelerómetros u otro cuestionario previamente validado22. De igual manera, diversos autores utilizan las pruebas de condición física y las mediciones antropométricas y de la composición corporal para el estudio de la validez de constructo23, aunque de forma más indirecta y por ello, normalmente, complementaria con el uso de acelerómetros25,47.
Si bien no hay un firme consenso sobre los valores de correlación que indicarían si la validez es o no adecuada, diferentes autores han considerado como valor mínimo estándar un coeficiente de correlación de Pearson, r ≥ 0,5023,48. De esta manera, únicamente el VREM habría obtenido unos resultados por encima de dicho valor en referencia a las puntuaciones totales. En el caso del GPAQ y el IPAQ-SF, sólo los ítems relacionados con una AF de intensidad vigorosa lo superan.
Con respecto al tamaño de la muestra para evaluar las propiedades de medida, en general fue superior al tamaño muestral mínimo aconsejable (n ≥ 50)49, excepto en el estudio de los cuestionarios LTPAI y PAWHI, donde no se cumplió dicha recomendación.
La comparación de los valores de las propiedades psicométricas de los cuestionarios entre su versión original y la adaptada en castellano ofrece resultados dispares. En relación al análisis de la validez, el valor obtenido con la versión española del YPAS en 108 sujetos sin patologías específicas26 es superior al obtenido en su versión original28 en una muestra de 25 adultos mayores de 60 años. En el caso del CHAMPS, los resultados son ligeramente inferiores en la versión en castellano31 frente a su versión original50, en muestras de n = 52 y n = 87, respectivamente. En esta línea, la versión en castellano38 del LTPAI, en un n = 44, obtuvo unos valores ampliamente inferiores a los de su versión original39 con n = 37. No se pudo establecer comparaciones en los otros casos. Por otro lado, en relación a la comparación de la fiabilidad, el valor obtenido con la versión española del YPAS28 en los ítems tiempo total y gasto energético total diario, fueron mayores que en su versión original28, no así en el caso de la sumatoria de los índices de actividades, donde fue inferior. En el caso del LTPAI, el valor obtenido con la versión en español38 es muy inferior al obtenido en su versión original39, guardando similitud con la versión en español del PAWHI38, que también consiguió unos resultados inferiores al original39.
En lo referente a los atributos cualitativos de los cuestionarios, se constató una gran disparidad. Así, de los cuatro escenarios principales de práctica de AF (ocio, trabajo, doméstico y deporte), la mayoría de instrumentos tienen en cuenta hasta 3 de ellos, encontrando que únicamente en el LTPAI y el PAWHI se evalúan solamente dos escenarios; ejercicio y ocio en el primero, doméstico y trabajo en el segundo. La ausencia de escenarios recogidos en el cuestionario reduce la precisión con la que los mismos pueden estimar la AF realizada51.
Al margen de los atributos cualitativos, se debe tener en cuenta que, si bien aparece reflejado en diferentes estudios que los adultos mayores son la población con una edad superior o igual a 65 años, en esta revisión sistemática se optó por utilizar como punto de corte de edad para considerar la muestra como adultos mayores, los 60 años, siguiendo la utilización de dicho término por la Organización Mundial de la Salud52 y permitiendo así una recuperación y análisis de un mayor número de estudios.
En relación a este punto, la edad, una importante debilidad observada en estos instrumentos es que tienen algunas limitaciones asociadas con el sesgo de recuerdo, donde suelen sobreestimar el tiempo en actividades de intensidad vigorosa y subestimar el tiempo de actividades que duran menos de 10 minutos o con un nivel de esfuerzo inferior a la marcha enérgica52. El hecho de que varios de los instrumentos aquí incluidos tengan un tiempo de recuerdo superior a 7 días a excepción del YPAS26, acentúa esta problemática, principalmente debido a la posible presencia de deterioro en la memoria a corto plazo, acrecentado conforme la edad aumenta7. Sumada a la anterior, otra debilidad está relacionada con la ausencia de una definición concreta que permita diferenciar los diferentes tipos de intensidad de la AF realizada, pues el factor subjetivo de cada respuesta podría alterar también en cierta medida los resultados.
En contraposición, una característica positiva observada fue la posibilidad de que la información recogida por el cuestionario en forma de puntuación pueda ser expresada en unidades estándar de gasto energético, Estimación de la Tasa Metabólica por minuto al día (METs∙min-1∙día-1); Kilocalorías por semana (Kcal∙sem-1), o que permitan su conversión a las mismas desde unidades de tiempo como la duración o la frecuencia. Esto resulta de gran interés pues permite identificar de forma rápida y directa, a partir del resultado obtenido en el cuestionario por parte del encuestado, si éste cumple las recomendaciones de AF publicadas para este grupo poblacional, los adultos mayores20.
Los resultados obtenidos en esta revisión indican por un lado que, en relación a las propiedades psicométricas estudiadas, los cuestionarios con un mejor comportamiento de la validez han sido el VREM y el Modified Baecke PAQ, al igual que en relación a la fiabilidad, superando en ambos casos los estándares mínimos establecidos para dichas propiedades.
Un aspecto a destacar es el hecho de que algunos de los cuestionarios aquí presentados y analizados (por ej., el Modified Baecke PAQ y el YPAS), fueron originariamente creados y validados en población comunitaria, si bien los estudios de adaptación cultural incluidos en esta revisión fueron realizados en poblaión clínica. Por otro lado, también se observó la situación inversa, puesto que los cuestionarios PAHWI y el LTPAI fueron originalmente creados para estimar la cantidad de AF realizada por personas con fibromialgia, mientras que su adaptación al castellano se realizó con población sana. De todos modos, gran parte de los cuestionarios localizados en la presente revisión fueron diseñados para ser aplicados en población comunitaria, y las muestras incluidas en los estudios de validación al castellano presentaron esta característica. En relación al único cuestionario validado tanto en población comunitaria como clínica, el YPAS, se debe mencionar que mostró un mayor grado de validez cuando se administró en este último colectivo.
En relación a los criterios de calidad metodológica de acuerdo con el instrumento QA-PAQ, se debe remarcar que el YPAS26 cumple el 90% de dichos criterios, mientras que el GPAQ34, el IPAQ-SF(34) y el Modified Baecke PAQ29 cumplen con el 80% de los mismos, si bien este último cuestionario sólo parece de utilidad en estudios transversales. El resto de instrumentos analizados se situaron por debajo de este porcentaje. En el caso del VREM, sólo se cumplen el 60% de los mismos.
No se ha encontrado, por tanto, ningún instrumento que cumpla los requisitos metodológicos del QAPAQ de forma completa o superando el 70% de los mismos, que alcance a su vez unos valores de validez y fiabilidad adecuados.
A la vista de los resultados aquí presentados, al objeto de estimar la cantidad de AF realizada por personas mayores de 60 años de nacionalidad española mediante cuestionarios, se aconseja el empleo, por este orden, de los instrumentos YPAS, VREM y Modified Baecke PAQ.