Introducción
El examen por múltiple opción sin penalización de errores es muy usado en ciencias de la salud, tanto en el grado como en el posgrado y en concursos de oposición [1]. Es igualitario, con un mismo texto para todos los evaluados, puede abarcar gran amplitud de temas, es de rápida corrección y sus constancias escritas son fácilmente comparables [2], pero no permite saber si una respuesta correcta o errónea se realizó con pleno convencimiento, en incertidumbre o por azar.
En una evaluación sin penalizaciones, el evaluado habitualmente responde todas las preguntas, independientemente del grado de su conocimiento, pues no tiene nada que perder por sus errores. En una evaluación con penalizaciones habitualmente no se responden todas las preguntas y, por tanto, se pierde información de la modalidad de actuar del examinado cuando no hay riesgo de pena. Las causas por la que se abstiene a responder pueden relacionarse con factores que involucran el conocimiento o también con la personalidad del evaluado y su actitud ante el riesgo [3].
En el método de evaluación presentado, el evaluado debe responder en dos hojas de respuestas una misma batería de preguntas: una hoja sin penalización de las respuestas erróneas y otra con penalización. La diferencia entre el número de respuestas correctas así como de erróneas en ambas hojas evidencia el convencimiento o incertidumbre con que se respondieron las preguntas. El objetivo era comparar los resultados obtenidos en exámenes de elección múltiple con y sin penalización por errores.
Sujetos y métodos
Fueron evaluados por exámenes de múltiple opción 1.059 alumnos de la asignatura de anatomía del primer año de la carrera de medicina de la Universidad del Salvador a través de una batería de 180 preguntas (60 preguntas de cada uno de los tres exámenes formativos que cubrían la totalidad de los temas de la materia), elaboradas de acuerdo con los requerimientos de Tenbrink [4] y del National Board of Medical Examiners [5]. Cada pregunta constaba de una opción correcta y cuatro distractores.
La totalidad de los temas objeto de las preguntas se habían desarrollado profundamente en clase. Las preguntas fueron elaboradas cuidadosamente por los mismos profesores que dictaron la materia a fin de evitar ambigüedades en la interpretación de las opciones. La corrección de cada examen fue realizada por docentes de la materia y no por lectura óptica.
Las preguntas se contestaron en dos hojas de respuesta. En una, sin penalización, denominada HR-1, las puntuaciones asignadas a cada tipo de respuesta fueron: respuesta correcta (C1), 1 punto, y respuesta errónea (E1), 0 puntos. En otra hoja de respuesta, con penalización, denominada HR-2, las puntuaciones fueron: respuesta correcta (C2), 1 punto; respuesta errónea (E2), –1 punto, y pregunta no respondida o en blanco (B2), 0 puntos. Para el total de las evaluaciones, el nivel de dificultad media fue de 0,34 ± 0,01, y el índice de discriminación, de 0,43 ± 0,02.
Para cada alumno, en cada hoja de respuesta, se calculó el número de respuestas de cada tipo en las 180 preguntas y su porcentaje (180 preguntas = 100%) y el porcentaje del total de respuestas en blanco en la HR-2 que provenían de respuestas correctas y de respuestas erróneas de la HR-1. Teniendo en consideración que el número de respuestas de las pruebas de un número elevado de estudiantes tiende a seguir una curva en forma de campana de Gauss [6], se justifica el cálculo aplicado que indicamos a continuación.
Para dichos valores se determinaron las medias y se obtuvo por análisis de varianza la significación estadística entre el número de cada tipo de respuesta en ambas hojas de respuesta y entre los porcentajes entre respuestas correctas y erróneas en HR-1 que fueron en blanco en HR-2. Se calcularon los límites de confianza al 95% (LC 95%) de las medias que aportan información a la probabilidad de la significación estadística sobre la relevancia de los resultados [7].
Resultados
Los valores medios de cada tipo de respuesta que se muestran en la figura difieren significativamente (p < 0,001) entre sí de acuerdo al resultado del ANOVA y de los LC 95% de las medias que no se superponen entre sí. Como puede observarse en la figura, la media del número de respuestas correctas en HR-2 es aproximadamente dos tercios del correspondiente a las respuestas correctas en HR-1, lo cual muestra claramente el efecto de la penalización al indicar que, en HR-1, alrededor de un tercio de preguntas se respondieron correctamente en incertidumbre o por azar.
Las respuestas en incertidumbre-azar se distribuían de forma aleatoria en el grupo estudiado.
La figura muestra también que, en HR-2, la penalización de los errores produce abstención en un importante número de respuestas (respuestas en blanco), que en promedio es ligeramente mayor aunque significativo al número de las correspondientes respuestas correctas. Como consecuencia de la abstención, la media de respuestas erróneas en HR-2 es significativamente más baja que en HR-1.
Respecto a la procedencia de las respuestas en blanco en HR-2, en el grupo de exámenes estudiado, el 49,57 ± 0,73% de las respuestas en blanco provienen de respuestas correctas en HR-1 no respondidas en HR-2, y el 50,43 ± 0,73%, de las respuestas erróneas en HR-1 no respondidas en HR-2. Estos porcentajes no difieren significativamente (p gt; 0,05) entre sí de acuerdo al resultado del ANOVA. Los LC 95% de las respectivas medias se superponen entre sí.
A fin de generalizar los resultados para un número diferente de preguntas al utilizado en este estudio, la tabla muestra los valores (media ± LC 95%) de cada tipo de respuesta expresados como porcentajes del total (180 = 100% de respuestas).
Discusión
Los resultados muestran que el uso de dos hojas de respuesta simultáneas (una sin y otra con penalización de errores) para responder una misma batería de preguntas de opción múltiple arroja información complementaria que no se manifiesta en cada una por separado. La penalización disminuye en la HR-2 el número de respuestas correctas y de erróneas con relación a las de la HR-1. Indica que las repuestas en HR-2, tanto correctas como erróneas, se hacen con convencimiento de que se responde lo correcto, manteniendo prudencia ante la incertidumbre o el azar, lo que se puede calcular por diferencia con el número de las respuestas correspondientes en HR-1.
En el grupo de exámenes estudiado, el número de respuestas en incertidumbre o azar en HR-1, tanto correctas como erróneas, que pasan a integrar el 100% de respuestas en blanco en HR-2 lo hacen en proporción similar, lo que muestra que la incertidumbre al responder en HR-1 se manifiesta en las respuestas que se creen ser correctas o que se marcan por azar independientemente que resulten correctas o erróneas.
De acuerdo con Jurado-Núñez y Leenen [8], ¿lo que se espera de cualquier método de evaluación educativa es que proporcione una medición lo más certera posible del rasgo latente que se pretende medir?. Incertidumbre y azar son factores que pueden obstaculizar la obtención de ese objetivo.
Los investigadores en el tema han propuesto fórmulas de corrección, como penalizar en fracciones de unidad las respuestas erróneas de acuerdo con el número de distractores utilizado [9] o bien penalizar de acuerdo con un distractor equivocado [10].
Estas estrategias son elaboradas por los investigadores en el tema sin participación de los examinados. En nuestro método de la doble hoja de respuesta, es el mismo examinado quien pone en evidencia, a través de sus abstenciones a responder en HR-2, la seguridad, dudas y azar con que respondió en HR-1. El método propuesto, a la vez, evidencia la gravedad del desconocimiento a través de las respuestas erróneas en HR-2. Como es el mismo evaluado quien reconoce la incertidumbre o azar con que respondió en HR-1, brinda al evaluador una suerte de autoevaluación y obliga al evaluado a tomar conciencia de su desempeño para desarrollar actitudes responsables.
En conclusión, las dobles hojas de respuesta simultáneas del método de exámenes por múltiple opción, en más de un millar de evaluados, proporciona datos complementarios de interés para la evaluación del examen y de la actitud del examinado frente al desafío y permite disponer de un patrón de comparación para detectar desviaciones de casos individuales a ser tratados por personal especializado para su orientación.