Introducción
De acuerdo a la normativa peruana del Ministerio de Salud,1,2 la evaluación de desarrollo psicomotor (EDP) es una de las prácticas clínicas ejecutadas dentro de las funciones del profesional de enfermería, habitualmente en el área de crecimiento y desarrollo (CRED). La importancia de implementar oportunamente la EDP está mundialmente reconocida desde hace varios años,3 y uno de los profesionales que tienen la mejor oportunidad para hacer evaluaciones de despistaje son las enfermeras.4 En la ejecución de su rol asistencial y de docencia, los profesionales de enfermería tienen la oportunidad de aplicar y enseñar el manejo de pruebas de desarrollo psicomotor, generalmente efectuado en dos ambientes: intramural (en el consultorio) y extramural (en la comunidad). En ambas la finalidad es conocer el estado de desarrollo psicomotor actual del niño, y de ese modo identificar retrasos que requieran evaluación específica o intervención.1 Este proceso no ocurre en un contexto de ausencia de reglas o principios de aplicación de instrumentos de medición, y sin los cuales no podrían obtenerse resultados válidos, ni replicables. Estas consideraciones o reglas, generalmente forman parte de las buenas prácticas de todo proceso evaluativo en todo el rango del desarrollo humano.
Sin embargo, los procesos de aplicación de estas evaluaciones son proclives de no cumplirse y, por lo tanto, de poner en riesgo la validez de los resultados. Por ejemplo, el control y monitoreo de la calidad de los materiales, y del entorno y ambientes para la ejecución de la evaluación.5 Esto se debe a que muchos de los instrumentos de desarrollo solo describen criterios generales que se deben de considerar antes de aplicar un instrumento.2
Para poder resumir estos aspectos en el marco del presente trabajo, se tienen que considerar dos aspectos: primero, la aplicación adecuada de las normas estandarizadas de aplicación del instrumento, y segundo, el control de los eventos del entorno que puedan provocar alteraciones en las respuestas del niño. Ambos aspectos tienen directa influencia en la validez de los resultados obtenidos de la EDP, y por lo tanto su incumplimiento estará asociado con algún grado de invalidez de los mismos (por ejemplo, la estructura del área de evaluación, iluminación, ruidos, etc.).5
En Latinoamérica existen algunos manuales de instrumentos de EDP que circulan regularmente, por ejemplo, el Test de Desarrollo Psicomotor (TEPSI),6 la Escala de Evaluación del desarrollo psicomotor (EEDP)7 y el Test del Denver,8 entre otros. En ellos es habitual hallar indicaciones generales sobre la aplicación de sus estímulos y el manejo del niño durante el desarrollo de los mismos. También, tienen variados grados de especificidad en las indicaciones de calificación e interpretación, así como aspectos comunes a todas ellas. Por ejemplo, no evaluar niños enfermos, aplicar en ambientes sin distracción, acompañamiento del padre, etc. Sin embargo, en la práctica profesional de evaluación, estos no parecen ser instrucciones suficientes para resolver algún evento que el evaluador puede enfrentar (por ejemplo, niños no colaboradores, falta de materiales, ambientes inapropiados de evaluación, etc.). Por lo tanto, son necesarias guías de buenas prácticas para la aplicación de pruebas de desarrollo.9 En este sentido, hasta la fecha no parece existir una guía de índole metodológico para aplicación de pruebas de desarrollo psicomotor en enfermería, independiente de los manuales de estas pruebas, y que aborde detalladamente los aspectos óptimos para una apropiada aplicación de las pruebas.
Esto es un problema técnico que afecta directamente a la práctica clínica de las evaluaciones de desarrollo, porque se ha documentado que las enfermeras, en sus prácticas de campo y de consultorio, hacen cambios en los materiales, procedimientos y condiciones de aplicación.2 Hay literatura relevante a la metodología de la administración de pruebas,10-12 y existen guías generales que sirven como heurísticas para los procedimientos evaluativos en general. Esto ha sido realzado como guías internacionales, que sirven como plataformas para elaborar otras guías en áreas disciplinares como la enfermería.10,13 También, hay claras descripciones sobre las implicación de las mismas, para la elaboración de buenas prácticas de evaluaciones en la escuela,14 y en el entrenamiento de graduados,15-17 y que apuntan a poner un fuerte énfasis en el entrenamiento y en la preparación de documentos que fortalezcan las habilidades para una apropiada aplicación de las pruebas.16,18
En este contexto, y de acuerdo a las características de la aplicación de pruebas de desarrollo psicomotor en el Perú o plausiblemente en otras partes de Latinoamérica, uno de los problemas que pueden enfrentar los enfermeros en la práctica o docencia universitaria, es no contar con una guía de procesos de EDP. Este tipo de guía puede servir para reducir las posibles prácticas inadecuadas aprendidas durante la etapa de formación y reducir también las que ocurren en la práctica profesional, que pueden consistir en modificaciones del material,2 interpretación idiosincrásica de las instrucciones de aplicación o calificación,15,16,18 entre otros. Por lo tanto, el propósito de este artículo es obtener evidencias de validez de contenido de una propuesta de guía para la aplicación de pruebas de desarrollo psicomotor, que ayude a formalizar las indicaciones para preparar al enfermero u otro profesional de salud en la apropiada aplicación de instrumentos de EDP. Las indicaciones presentadas aquí no podrían ser lo suficientemente específicas para aplicarse a todas las situaciones que el evaluador enfrentará; entonces, el evaluador debe utilizar su mejor juicio para adaptar estas indicaciones a estas situaciones específicas, y optimizarlas para su mayor funcionalidad. Estas indicaciones tienden a no ser explícitas en los manuales de EDP, y el desarrollo de la presente guía pretende llenar esta brecha para mejorar la práctica de las EDP.
Participantes y métodos
El estudio realizado fue observacional y transversal. Las participantes de enfermería fueron seleccionadas intencionalmente para los fines de la presente investigación,19 y específicamente se orientó hacia las profesionales que tenían en común varios aspectos: (a) la experiencia laboral precedente, (b) experiencia formativa en desarrollo infantil, y (c) estar actualmente en actividad laboral. Estos criterios fueron los principales para asegurar la significancia conceptual de los resultados,20 y por lo tanto, luego de iniciada la búsqueda de participantes, estos tres criterios de inclusión debieron ser cumplimentados para ser seleccionadas. El criterio de exclusión fue (a) la falta de disponibilidad y (b) la devolución tardía del material a los investigadores.
Hay varios aspectos metodológicos y prácticos para la elección de los participantes. Primero, los participantes seleccionados sirvieron como "jueces expertos", y tuvieron una ventaja importante: sus conocimientos y experiencias directamente vinculadas con el fenómeno de estudio,20,21 y que no podrían ser capturados completamente por un panel de jueces expertos que comparten su rol entre la docencia y la profesión. Aunque es plausible que estos participantes no reexaminen su conducta y experiencias de manera estructurada, con un medio adecuado podrían expresar sus juicios en relación a la claridad y relevancia con que perciben el contenido un material. Otros dos aspectos prácticos, pero se igual importancia, fueron la disponibilidad para participar y la capacidad de expresar sus experiencias para el objetivo propuesto.20,22 Durante la selección, las enfermeras fueron contactadas directamente desde la red de contactos de uno de los investigadores, y mediante la colaboración de estos participantes para contactar a otros colegas, a solicitud de los investigadores. Este último correspondió con un procedimiento de bola de nieve.19
El número de jueces mínimo para el presente estudio correspondió con dos criterios: la tendencia predominante sobre el tamaño muestral en estudios de validez de contenido en otras ciencias del comportamiento, y la significancia estadística mínima en un tamaño muestral específico para obtener un valor mayor o alrededor de .60. De este modo, la revisión de más de 20 estudios de validez de contenido, 21 las recomendaciones metodológicas basadas racionalmente desarrolladas en enfermería22-24 y para las áreas disciplinares en general,22,25 algunos reportes técnicos rastreables,26-27 y consideraciones mínimas del poder estadístico alrededor de un valor de .60,9,28-29 indicaron que el número mínimo aceptable de jueces puede estar entre 9 a 11 jueces, un tamaño que converge con otros estudios en enfermería30 y parece mantener un razonable balance del error Tipo I y error Tipo II.31 Un criterio de inclusión pragmática, pero no menos importante, fue la disponibilidad del participante en el marco de tiempo del estudio,20,22 la cual fue indagada directamente en los sujetos.
El número final de participantes que lograron incluirse en el estudio fueron 10 enfermeras mujeres, entre 28 y 37 años de edad. La experiencia laboral en el puesto fue entre 2 y 6 años, y la antigüedad en el ejercicio continuo de la profesión fue entre 5 y 7 años. Respecto al nivel de instrucción, una tuvo la licenciatura, dos con maestría, y el resto con licenciatura y segunda especialidad concluidas. Todas tuvieron experiencia docente y profesional en desarrollo infantil, y adquirieron experiencia en el uso del TEPSI y otros instrumentos de EDP.
El desarrollo de la guía fue influenciado por la literatura relevante sobre estándares de uso de instrumentos a poblaciones humanas, como en las escuelas,14 en contextos ocupacionales,32 y en contextos generalizados.10-11,13 Estos documentos son normas o propuestas generales que se usan como modelos aplicables a todo proceso e instrumento de evaluación en personas de distintas condiciones y edad, y por lo tanto se seleccionaron estas fuentes para orientar el desarrollo de la presente guía.
Los indicadores (i.e., ítems o conductas observables) se desarrollaron durante varias reuniones de trabajo de los autores, efectuados en dos pasos: (1) la creación independiente o coordinada de los dominios conceptuales y sus facetas, y (2) su revisión conjunta; estos pasos fueron iterativamente realizados hasta obtenerlos identificados consensualmente. De acuerdo a las fuentes metodológicas citadas anteriormente, este desarrollo incluyó: (a) la revisión de la literatura, (b) la sistematización de experiencias de los autores, (c) algunas entrevistas no estructuradas con enfermeras, y (d) un estudio no publicado sobre las características de utilización de pruebas de desarrollo psicomotor en Perú.2 La guía fue preparada como un cuestionario que cumpliera con la impresión de facilidad de uso.33
Para obtención de los juicios de validez de contenido, se diseñó un formulario estructurado, que contenía 4 partes: una breve presentación del proyecto, instrucciones para obtener el juicio de relevancia y claridad, datos generales, y la tabla de los indicadores (este material puede ser solicitado a la autora principal).
Respecto al análisis de la relevancia y la claridad en el nivel de los ítems, se analizaron mediante el coeficiente V,33-34 que re-escala entre 0 y 1 las calificaciones promedio de validez de los jueces. Su significancia estadística obtuvo mediante intervalos de confianza asimétricos,35 un método conveniente para distribuciones asimétricas, y que habitualmente ocurren en las calificaciones de validez contenido. Para su estimación se usó un programa ad hoc,36 en el nivel del 90% de confianza; si el límite inferior del intervalo estimado superaba .60, entonces se rechazaba la hipótesis nula de .60≤ en la población. Para estimar la validez de contenido en el nivel macro-analítico, se calculó el coeficiente V para todo el conjunto de ítems en cada componente evaluado en el formulario, y consistió en el promedio simple de los coeficientes V de cada ítem.23,37
Para evaluar la pertinencia de reportar los coeficientes de validez V, se examinó la homogeneidad de las calificaciones, por medio de la identificación del acuerdo entre los calificadores y la limitación de estimar el coeficiente V;37 para ello, se reportó la proporción de máxima heterogeneidad (VR/VRmax), como una medida estandarizada de dispersión aplicable a variables nominales y ordinales.38-39 Para su cálculo, primero se obtuvo la ratio de variación ,VR =1 - (Fm/n), y la ratio de variación máxima, VRmax = 1 - (n/k)/n. VR informa de la proporción de casos fuera de la frecuencia modal (Fm); n y k es el total de sujetos y número de categorías registradas en cada variable, respectivamente. Altos valores en VR o VR/VRmax señalan mayor dispersión. Debido que el número de categorías respondidas no fue la misma en cada variable, la interpretación se enfocó en VR/VRmax (J. T. Ward, Comunicación Personal, enero, 2017). Para estos cálculos, se usó un programa ad hoc en STATA. 38,39
Resultados
La dispersión, evaluada por VR y VR/VRmax, sugiere que las respuestas de los participantes fueron moderadamente concentradas (Tablas 1, 2 y 3). Esta dispersión también puede considerarse moderadamente variable entre ellas, indicando que los jueces expresaron distintas reacciones a la evaluación de los ítems. En conjunto, sin embargo, la dispersión obtenida no limitó la estimación del coeficiente V porque estas pueden considerarse variaciones muestrales esperadas.
Min | Max | M | DE | VR | VR/ VRmax | K | Coeficiente V (IC 90%) | |||
---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||
V | Inf | Sup | ||||||||
Relevancia | ||||||||||
Aee1 | 2 | 7 | 6.00 | 1.56 | .50 | .66 | 4 | .83 | .74 | .89 |
Aee2 | 2 | 7 | 5.60 | 1.95 | .60 | .90 | 3 | .76 | .66 | .84 |
Aee3 | 2 | 7 | 4.90 | 1.66 | .80 | .96 | 6 | .65 | .54 | .74 |
Aee4 | 4 | 7 | 5.40 | 1.43 | .60 | .90 | 3 | .73 | .63 | .81 |
Aee5 | 1 | 7 | 4.60 | 2.22 | .70 | .84 | 6 | .60 | .49 | .69 |
Aee6 | 2 | 7 | 5.30 | 2.31 | .50 | .75 | 3 | .71 | .61 | .80 |
Aee7 | 2 | 7 | 5.30 | 2.16 | .50 | .62 | 5 | .71 | .61 | .80 |
Claridad | ||||||||||
Aee1 | 3 | 7 | 6.40 | 1.35 | .20 | .30 | 3. | .90 | .81 | .94 |
Aee2 | 2 | 7 | 5.70 | 1.76 | .60 | .80 | 4. | .78 | .68 | .85 |
Aee3 | 3 | 7 | 5.40 | 1.57 | .70 | .87 | 5. | .73 | .63 | .81 |
Aee4 | 4 | 7 | 5.60 | .96 | .40 | .53 | 4. | .76 | .66 | .84 |
Aee5 | 4 | 7 | 6.10 | .87 | .40 | .60 | 3. | .85 | .75 | .91 |
Aee6 | 3 | 7 | 6.30 | 1.25 | .40 | .60 | 3. | .88 | .79 | .93 |
Aee7 | 3 | 7 | 5.80 | 1.31 | .50 | .66 | 4. | .80 | .70 | .87 |
Nota: VR: ratio de variación. VRmax: máxima ratio de variación. V: coeficiente de validez V. K: número de categorías funcionales para el cálculo de VR. Min: valor de la respuesta mínima. Max: valor de la respuesta máxima. M: media. DE: desviación estándar.
Min | Max | M | DE | VR | VR/ VRmax | K | Coeficiente V (IC 90%) | |||
---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||
V | Inf | Sup | ||||||||
Relevancia | ||||||||||
In1 | 4 | 7 | 6.40 | 1.07 | .30 | .40 | 4 | .90 | .81 | .94 |
In2 | 4 | 7 | 6.40 | .96 | .40 | .60 | 3 | .90 | .81 | .94 |
In3 | 6 | 7 | 6.70 | .48 | .30 | .60 | 2 | .95 | .88 | .98 |
In4 | 3 | 7 | 6.20 | 1.22 | .50 | .75 | 3 | .86 | .77 | .92 |
In5 | 3 | 7 | 6.20 | 1.31 | .40 | .53 | 4 | .86 | .77 | .92 |
Claridad | ||||||||||
In1 | 4 | 7 | 6.60 | .96 | .20 | .30 | 3 | .93 | .86 | .97 |
In2 | 4 | 7 | 6.50 | .97 | .30 | .45 | 3 | .91 | .83 | .95 |
In3 | 6 | 7 | 6.70 | .48 | .30 | .60 | 2 | .95 | .88 | .98 |
In4 | 6 | 7 | 6.60 | .51 | .40 | .80 | 2 | .93 | .86 | .97 |
In5 | 4 | 7 | 6.40 | 1.07 | .30 | .40 | 4 | .90 | .81 | .94 |
Nota: VR: ratio de variación. VRmax: máxima ratio de variación. V: coeficiente de validez V. K: número de categorías funcionales para el cálculo de VR. Min: valor de la respuesta mínima. Max: valor de la respuesta máxima. M: media. DE: desviación estándar.
Min | Max | M | DE | VR | VR/ VRmax | K | Coeficiente V (IC 90%) | |||
---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||
V | Inf | Sup | ||||||||
Relevancia | ||||||||||
cg1 | 6 | 7 | 6.50 | .52 | .50 | 1.00 | 2 | .91 | .83 | .95 |
cg2 | 5 | 7 | 6.30 | .67 | .50 | .75 | 3 | .88 | .79 | .93 |
cg3 | 5 | 7 | 6.60 | .69 | .30 | .45 | 3 | .93 | .86 | .97 |
cg4 | 5 | 7 | 6.40 | .84 | .40 | .60 | 3 | .90 | .81 | .94 |
cg5 | 6 | 7 | 6.70 | .48 | .30 | .60 | 2 | .95 | .88 | .98 |
cg6 | 4 | 7 | 6.20 | .91 | .50 | .75 | 3 | .86 | .77 | .92 |
Claridad | ||||||||||
cg1 | 6 | 7 | 6.30 | .48 | .30 | .60 | 2 | .88 | .79 | .93 |
cg2 | 5 | 7 | 6.60 | .69 | .30 | .45 | 3 | .93 | .86 | .97 |
cg3 | 5 | 7 | 6.50 | .85 | .30 | .45 | 3 | .91 | .83 | .95 |
cg4 | 5 | 7 | 6.40 | .69 | .50 | .75 | 3 | .90 | .81 | .94 |
cg5 | 6 | 7 | 6.80 | .42 | .20 | .40 | 2 | .96 | .90 | .98 |
cg6 | 4 | 7 | 6.50 | .97 | .30 | .45 | 3 | .91 | .83 | .95 |
Nota: VR: ratio de variación. VRmax: máxima ratio de variación. V: coeficiente de validez V. K: número de categorías funcionales para el cálculo de VR. Min: valor de la respuesta mínima. Max: valor de la respuesta máxima. M: media. DE: desviación estándar.
En la evaluación de los aspectos estructurales y espaciales (Tabla 1), en general, la calificación promedio de la relevancia estuvo predominantemente alrededor del valor 5, con dos ítems (3 y 7) debajo de esta. La estimación muestral de los coeficientes V fue superior a .60, y el intervalo de confianza indican que fueron estadísticamente significativas, excepto los ítems 3 ("Verificar que los objetos que se utilizan para evaluar -por ejemplo, cubos, cajas, figuras geométricas, etc., están completos y en buenas condiciones") y 5 ("Disponer de un aula vacía y suficientemente grande - Evaluación en colegio."), cuyo límite inferior de su intervalo de confianza estuvo debajo de .60. Con respecto a la claridad, la calificación promedio fue superior a .5, y los coeficientes V estuvieron generalmente sobre .70, todos estadísticamente significativos. La validez promedio total para relevancia y claridad fue .71y .81, respectivamente; estos valores pueden ser aceptados como satisfactorios.
En relación a los aspectos de la interacción (Tabla 2), las respuestas fueron menos dispersas, y mayormente concentradas en calificaciones altas promedio (≥ 6). Los coeficientes V fueron ≥ .85 y estadísticamente significativas. La validez promedio total de la relevancia y claridad para los indicadores de la interacción fueron .89 y .92, respectivamente, sugiriendo buenos niveles de validez.
Finalmente, la validez de la relevancia de los criterios generales (Tabla 3) fueron similarmente buenos comparada con los indicadores anteriores, con calificaciones promedio ≥ .6, homogéneas y concentradas en las calificaciones altas; y coeficientes individuales generalmente ≥ .85; globalmente, la relevancia y claridad promedio también fueron elevadas (respectivamente, .90 y .91).
Discusión
Aunque la práctica profesional especializada o general, y el sentido común pueden ser recursos suficientes para que un enfermero aplique apropiadamente instrumentos de desarrollo psicomotor, esta manera tiende a introducir varianza irrelevante y aumentar la probabilidad de resultados con menos confiabilidad y, consecuentemente, comprometer la interpretación válida de los puntajes obtenidos. Este marco sirvió para diseñar el objetivo del presente estudio, y en que los resultados obtenidos de la validez de contenido de una guía que oriente el procedimiento de aplicación de IDP, pueden considerarse satisfactorios. Estos dos aspectos evaluados fueron la relevancia y la claridad de los indicadores construidos, es decir, de aspectos estructurales y espaciales, de interacción y generales.
Al evaluar los resultados específicos obtenidos, vimos que los indicadores estipulados para los aspectos de la interacción y generales, mostraron en conjunto mayor relevancia que aquellos creados para los aspectos estructurales y espaciales, y también fueron homogéneamente más elevadas. La claridad de las mismas fue evaluada favorablemente, no requiriendo algún proceso de modificación a posteriori. Esto añade una ventaja al instrumento, pues su implementación durante las capacitaciones al personal de enfermería puede dirigirse hacia el acuerdo inter-observadores o la generalización de los indicadores para un rango amplio de pruebas de desarrollo psicomotor, en lugar de la interpretación o comprensión de las mismas. Aunque el grado de claridad obtenida no alcanzó el máximo valor ideal (i.e., V = 1.0), la magnitud de los coeficientes V fueron lo suficientemente altas como para hallar probablemente coeficientes V mayores a .70 en la población de referencia. Las variaciones individuales en las competencias lecturas, en la conexión entre conceptos y práctica, o el grado de abstracción de los indicadores propuestos, pudieron interactuar para que los participantes no calificaran los ítems con coeficientes más altos. Pero dado que los coeficientes fueron elevados, estos posibles factores no parecen ser críticos para decidir la reformulación del fraseo y esforzarse por hacerlos más claros.
Como implicaciones del presente estudio, la aplicación de este protocolo puede extenderse a otros contextos del trabajo profesional, pues de este modo ayudan a elaborar un plan de aplicación antes y durante el proceso de evaluación, los mismos que serán ponderados de acuerdo al contexto ambiental específico; es decir, si se anticipa controlar ciertos eventos durante el proceso de evaluación. La aplicación docente de estas guías también ayudaría al instructor a organizar una capacitación de evaluadores enfatizando la aplicación apropiada del instrumento, y brindado al estudiante una guía que sea utilizada en su práctica clínica. En un marco orientado al desarrollo de competencias,40,41 el instrumento desarrollado aquí sirve para el desarrollo de habilidades de evaluación de instrumento de desarrollo psicomotor, y promover de este modo las buenas prácticas de evaluación.
Conclusiones
La aplicación del protocolo está mejor fundamentada en evaluaciones extramulares, porque estas ocurren en contextos en que habitualmente el evaluador tiene menos control en comparación con las evaluaciones hechas intramuralmente. Situaciones como los horarios de disponibilidad, estímulos irrelevantes, poca o ninguna familiaridad con el personal de otras instituciones, imagen de autoridad no relevante, acceso a materiales de evaluación de repuesto, etc., son menos posibles de ser controladas cuando el examinador realiza el proceso de evaluación en colegios, locales comunales, etc. Sin embargo, el proceso que el enfermero puede controlar es la relacionada con las competencias de aplicación de las EDP; y el presente protocolo puede tener un rol importante para la práctica, la supervisión y la docencia.
Aunque nuestro estudio obtuvo resultados favorables y el contexto del estudio generalmente es aceptable con una muestra de alrededor de 10 participantes,21,30 la estabilidad de los resultados generalmente depende del mayor tamaño muestral,38 y por lo tanto se sugiere que los resultados se verifiquen en una muestra más grande. Por otro lado, el fraseo de los ítems se hizo orientado con una perspectiva hispana internacional, evitando el fraseo local o regionalismos, sin embargo, se sugiere la corroboración de este punto cuando el instrumento se utilice en otras regiones hispanas. El instrumento está disponible para los lectores investigadores y profesionales interesados.