<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1575-1813</journal-id>
<journal-title><![CDATA[Educación Médica]]></journal-title>
<abbrev-journal-title><![CDATA[Educ. méd.]]></abbrev-journal-title>
<issn>1575-1813</issn>
<publisher>
<publisher-name><![CDATA[Fundación Educación Médica]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1575-18132005000100006</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[La difícil objetividad de las pruebas de ensayo en la evaluación del rendimiento académico]]></article-title>
<article-title xml:lang="en"><![CDATA[The hard objectivity of the essay exams in academic achievement assessment]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Torrubia]]></surname>
<given-names><![CDATA[Rafael]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Pérez]]></surname>
<given-names><![CDATA[Jorge]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Autónoma de Barcelona Facultad de Medicina ]]></institution>
<addr-line><![CDATA[Barcelona ]]></addr-line>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Pompeu Fabra Facultad de Ciencias de la Salud y de la Vida ]]></institution>
<addr-line><![CDATA[Barcelona ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>03</month>
<year>2005</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>03</month>
<year>2005</year>
</pub-date>
<volume>8</volume>
<numero>1</numero>
<fpage>17</fpage>
<lpage>21</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://scielo.isciii.es/scielo.php?script=sci_arttext&amp;pid=S1575-18132005000100006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.isciii.es/scielo.php?script=sci_abstract&amp;pid=S1575-18132005000100006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://scielo.isciii.es/scielo.php?script=sci_pdf&amp;pid=S1575-18132005000100006&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Introducción: El objetivo del presente escrito es informar de dos experiencias empíricas donde se pone de manifiesto la poca objetividad de las pruebas de ensayo y de las posibilidades de reducir dicha deficiencia. Material y Métodos: Los participantes en el estudio (92 profesores de diversas universidades asistentes a un taller de formación y 460 estudiantes de segundo de Medicina ) puntuaron en tres situaciones diferentes la respuesta a una pregunta de ensayo sobre el tema de la evaluación del rendimiento académico de los estudiantes. En la primera situación cada evaluador usó sus propios criterios, en la segunda todos los evaluadores tuvieron unos criterios comunes y en la tercera se precisaban las puntuaciones concretas para dichos criterios. Resultados: Se evidenció la gran disparidad en las puntuaciones. Pero a medida que los criterios de evaluación fueron más precisos las puntuaciones fueron menos dispersas. Cuando la precisión en los criterios no fue máxima, los profesores asignaron mejores puntuaciones al examen que los estudiantes. A pesar de la reducción de la dispersión de las calificaciones cuando la precisión fue máxima, todavía existió una discrepancia considerable entre evaluadores. Conclusiones: Los resultados del estudio avalanla necesidad de usar criterios de corrección lo más precisos posibles a la hora de evaluar cualquier prueba de ensayo así como la oportunidad de usar pruebas más objetivas.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Introduction: We explain two empirical experiences about the low objectivity of the essay exams and the possibilities of increasing this objectivity. Method: Participants in the study (92 university lecturers and 460 medical students) graded an essay exam on student assessment in three different situations: without criteria, with common criteria and with precise common criteria. Results: The more precise the criteria, the more concordance there was among evaluators. In the two first situations, without precise criteria, lecturers assigned higher scores than students. In spite of precise common criteria, in the third situation there also appeared some discrepancies between evaluators. Conclusions: The results show the necessity to use precise criteria to grade essay exams and to use objective testing methods to assess the students’ academic achievement.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Evaluación del rendimiento académico de los estudiantes]]></kwd>
<kwd lng="es"><![CDATA[Exámenes de ensayo]]></kwd>
<kwd lng="es"><![CDATA[Objetividad]]></kwd>
<kwd lng="en"><![CDATA[Student assessment]]></kwd>
<kwd lng="en"><![CDATA[Essay exams]]></kwd>
<kwd lng="en"><![CDATA[Objectivity]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p><font face="Arial" size="4"><i>Original</i></font></p>  <hr>     <p><font face="Arial" size="5"><b>La dif&iacute;cil objetividad de las pruebas de ensayo en la evaluaci&oacute;n del rendimiento acad&eacute;mico</b></font></p>      <p><font size="4">The hard objectivity of the essay exams in academic achievement assessment</font></p>      <p><b>Rafael Torrubia<sup>1</sup> y Jorge P&eacute;rez<sup>2</sup></b></p>     <p><sup>1</sup> Facultad de Medicina. Universidad Aut&oacute;noma de Barcelona (Barcelona)    <br> <sup>2</sup> Facultad de Ciencias de la Salud y de la Vida. Universidad Pompeu Fabra (Barcelona)</p>     <p align="center">  <table border="0" width="100%">  <tr>   <td width="48%" valign="top">      <p align="left"><b><font face="Arial" size="2"><i>Introducci&oacute;n</i>: El objetivo del presente escrito es informar de dos experiencias emp&iacute;ricas donde se pone de manifiesto la poca objetividad de las pruebas de ensayo y de las posibilidades de reducir dicha deficiencia.    <br> <i>Material y M&eacute;todos</i>: Los participantes en el estudio (92 profesores de diversas universidades asistentes a un taller de formaci&oacute;n y 460 estudiantes de segundo de Medicina ) puntuaron en tres situaciones diferentes la respuesta a una pregunta de ensayo sobre el tema de la evaluaci&oacute;n del rendimiento acad&eacute;mico de los estudiantes. En la primera situaci&oacute;n cada evaluador us&oacute; sus propios criterios, en la segunda todos los evaluadores tuvieron unos criterios comunes y en la tercera se precisaban las puntuaciones concretas para dichos criterios.    <br> <i>Resultados</i>: Se evidenci&oacute; la gran disparidad en las puntuaciones. Pero a medida que los criterios de evaluaci&oacute;n fueron m&aacute;s precisos las puntuaciones fueron menos dispersas. Cuando la precisi&oacute;n en los criterios no fue m&aacute;xima, los profesores asignaron mejores puntuaciones al examen que los estudiantes. A pesar de la reducci&oacute;n de la dispersi&oacute;n de las calificaciones cuando la precisi&oacute;n fue m&aacute;xima, todav&iacute;a existi&oacute; una discrepancia considerable entre evaluadores.    ]]></body>
<body><![CDATA[<br> <i>Conclusiones</i>: Los resultados del estudio avalanla necesidad de usar criterios de correcci&oacute;n lo m&aacute;s precisos posibles a la hora de evaluar cualquier prueba de ensayo as&iacute; como la oportunidad de usar pruebas m&aacute;s objetivas.</font></b></p>     <p align="left"><font face="Arial" size="2"><i>Palabras clave: Evaluaci&oacute;n del rendimiento acad&eacute;mico de los estudiantes, Ex&aacute;menes de ensayo, Objetividad.</i></font></p>    </td>   <td width="4%" valign="top"></td>   <td width="48%" valign="top">     <p align="left"><b><font face="Arial" size="2"><i>Introduction</i>: We explain two empirical experiences about the low objectivity of the essay exams and the possibilities of increasing this objectivity.</font>    <br> <font face="Arial" size="2"> <i>Method</i>: Participants in the study (92 university lecturers and 460 medical students) graded an essay exam on student assessment in three different situations: without criteria, with common criteria and with precise common criteria.    <br> <i>Results</i>: The more precise the criteria, the more concordance there was among evaluators. In the two first situations, without precise criteria, lecturers assigned higher scores than students. In spite of precise common criteria, in the third situation there also appeared some discrepancies between evaluators.    <br> <i>Conclusions</i>: The results show the necessity to use precise criteria to grade essay exams and to use objective testing methods to assess the students' academic achievement.</font></b></p>     <p align="left"><font face="Arial" size="2"><i>Key words: Student assessment, Essay exams, Objectivity.</i></font></p>  	    <p>&nbsp;</td>  </tr>  </table> <hr align="left" width="30%">     <p><font size="2"><i>Correspondencia</i>:    <br> Jorge Palés    ]]></body>
<body><![CDATA[<br> Facultat de Ciènces de la Salut i de la Vida.    <br> Universitat Pompeu Fabra.    <br> c/Dr. Aiguader, 80, 08003 Barcelona.    <br> e-mail: <a href="mailto:jperez@imim.es">jperez@imim.es</a></font></p>      <p>&nbsp;</p>     <p>&nbsp;</p>      <p><font face="Arial"><b>INTRODUCCI&Oacute;N</b></font></p>     <p>La evaluaci&oacute;n del rendimiento acad&eacute;mico de los estudiantes es un paso fundamental de cualquier proceso educativo ya que por un lado nos permite determinar el grado de asunci&oacute;n de los objetivos propuestos <sup>1,2</sup> y, por otro, dirige los aprendizajes de los alumnos <sup>2-5</sup>. No hay ninguna duda de que los estudiantes abordan sus aprendizajes en funci&oacute;n del tipo de evaluaci&oacute;n a la que ser&aacute;n sometidos haciendo evidente el dicho &quot;dime c&oacute;mo eval&uacute;as y te dir&eacute; como aprenden tus alumnos&quot;.</p>     <p>As&iacute;, dada la importancia de la evaluaci&oacute;n, es fundamental seleccionar los m&eacute;todos e instrumentos m&aacute;s adecuados para medir nuestros objetivos educativos. Por suerte, disponemos de un abanico muy amplio de posibilidades t&eacute;cnicas diferentes que se adecuar&iacute;an selectivamente a los diferentes tipos de objetivos a evaluar tanto de conocimientos como de habilidades como de actitudes o valores <sup>1,6</sup></p>     <p>En estudios de ciencias de la salud, adem&aacute;s de las pruebas de elecci&oacute;n m&uacute;ltiple, los ex&aacute;menes escritos, de ensayo m&aacute;s o menos largo, son muy utilizados para evaluar los conocimientos de los estudiantes. Tal como se ha descrito por expertos, uno de los problemas que tienen estas pruebas hace referencia a su falta de objetividad <sup>1, 7</sup>.</p>     ]]></body>
<body><![CDATA[<p>Nuestro objetivo consiste en informar de dos experiencias emp&iacute;ricas donde se pone de manifiesto la baja objetividad de las pruebas de ensayo y de las posibilidades de reducir dicha deficiencia. No pretendemos hacer un estudio exhaustivo sobre el problema de la falta de objetividad de las pruebas de ensayo o sobre su pertinencia donde ya existe suficiente evidencia.<sup>8-11</sup></p>      <p><b><font face="Arial">LAS EXPERIENCIAS</font></b></p>     <p><i>Con profesores universitarios</i></p>     <p>Desde 1993 los autores de este trabajo venimos impartiendo un taller de formaci&oacute;n para profesores sobre la evaluaci&oacute;n del rendimiento acad&eacute;mico de los estudiantes. &Eacute;ste, generalmente, ha sido impartido en tres sesiones de tres horas en d&iacute;as diferentes. Entre otros, el taller ten&iacute;a dos claros objetivos. Por un lado hemos pretendido explicar las posibilidades de las pruebas objetivas y por otro hemos intentado poner de manifiesto la poca objetividad de las pruebas de ensayo y, a su vez, explicitar las posibilidades que tenemos para reducir su subjetividad en caso de utilizarlas.</p>     <p>Para ello, en la primera sesi&oacute;n y antes de recibir ninguna informaci&oacute;n sobre el tema, los profesores asistentes contestaban de forma an&oacute;nima una pregunta de ensayo sobre &quot;Las pruebas de ensayo en el proceso educativo: ventajas e inconvenientes&quot;. La prueba era contestada durante 10-15 minutos y su extensi&oacute;n no deb&iacute;a ser superior a un folio. De entre todas las respuestas, seleccion&aacute;bamos tres de ellas a partir de nuestra discreci&oacute;n intentando que tuvieran caracter&iacute;sticas diferentes (m&aacute;s o menos extensas, m&aacute;s o menos concretas, etc.).</p>     <p>El una segunda sesi&oacute;n los asistentes al taller evaluaban cuatro respuestas a la pregunta: las tres seleccionadas de los participantes y una cuarta respuesta-se&ntilde;uelo, seleccionada con anterioridad por nosotros, que servir&iacute;a para la realizaci&oacute;n del presente estudio ya que fue utilizada en diferentes talleres y fue evaluada por los profesores asistentes a los mismos.</p>     <p>En la tercera sesi&oacute;n se comentaban los resultados y se daba informaci&oacute;n para aumentar la objetividad de las pruebas de ensayo.</p>      <p><i>Con estudiantes de Medicina.</i></p>     <p>Coincidiendo en el tiempo, en la asignatura de Psicolog&iacute;a M&eacute;dica del curr&iacute;culum de Medicina de la Universidad Aut&oacute;noma de Barcelona tambi&eacute;n realiz&aacute;bamos una pr&aacute;ctica sobre la evaluaci&oacute;n del rendimiento acad&eacute;mico y que hab&iacute;amos desarrollado nosotros mismos<sup>12</sup>. Dicha pr&aacute;ctica estaba relacionada con el tema de la medida del comportamiento (psicometr&iacute;a) utilizando el ejemplo de los ex&aacute;menes para aumentar la motivaci&oacute;n de los alumnos. En la pr&aacute;ctica se incid&iacute;a en las ventajas e inconvenientes de sus ex&aacute;menes m&aacute;s habituales, los de elecci&oacute;n m&uacute;ltiple y los de ensayo. Entre otras cosas tambi&eacute;n evaluaban, en las mismas condiciones que los profesores, ciertos ex&aacute;menes de ensayo. Durante dos cursos, nuestros estudiantes evaluaron la respuesta-se&ntilde;uelo utilizada en este estudio.</p>      <p><font face="Arial"><b>MATERIAL Y MÉTODOS</b></font></p>     ]]></body>
<body><![CDATA[<p><i>Participantes</i></p>     <p>El estudio fue realizado utilizando dos poblaciones diferentes: profesores y estudiantes universitarios. Respecto al primer grupo, participaron 92 profesores universitarios asistentes a seis talleres realizados en lugares y fechas diferentes; 2 en la Universidad Aut&oacute;noma de Barcelona, 1998 y 1999; 1 en el Centro de Estudios Jur&iacute;dicos y Formaci&oacute;n Especializada de la &quot;Generalitat&quot; de Catalu&ntilde;a, 1999; 1 en la Universidad Jaume I de Castell&oacute;n, 1999; 1 en la Universidad Pompeu Fabra de Barcelona, 2000 y 1 en la Universidad del Pa&iacute;s Vasco, 2002). Tambi&eacute;n participaron 460 estudiantes de segundo de Medicina de la Universidad Aut&oacute;noma de Barcelona matriculados en la asignatura de Psicolog&iacute;a B&aacute;sica durante los cursos 1996-97 y 1997-98.</p>      <p><i>Material</i></p>     <p>Para la realizaci&oacute;n de nuestro estudio utilizamos una respuesta dada a la pregunta &quot;Las pruebas de ensayo largo: ventajas e inconvenientes&quot; por un profesor participante en un taller realizado anteriormente (<a href="#anexos">Anexo 1</a>), siendo la respuesta-se&ntilde;uelo que siempre fue objeto de evaluaci&oacute;n por los participantes en el estudio.</p>      <p><i>Procedimiento</i></p>     <p>Los participantes, profesores asistentes a los talleres y alumnos asistentes a la pr&aacute;ctica, deb&iacute;an evaluar la pregunta-se&ntilde;uelo asignando una puntuaci&oacute;n entre 0 y 10 en tres situaciones diferentes.</p>     <p>En una primera situaci&oacute;n (S-1) y despu&eacute;s de leer una monograf&iacute;a sobre el tema<sup>12</sup>, cada participante deb&iacute;a asignar una puntuaci&oacute;n a partir de sus propios conocimientos y criterios. En una segunda situaci&oacute;n (S-2) se calificaba el examen considerando unos criterios concretos que fueron entregados por escrito por los autores (<a href="#anexos">Anexo 2</a>). Finalmente (S-3), se realizaba una tercera evaluaci&oacute;n a partir de unas puntuaciones espec&iacute;ficas asociadas a cada uno de los criterios citados anteriormente. Dicha informaci&oacute;n tambi&eacute;n era presentada por escrito (<a href="#anexos">Anexo 2</a>).</p>     <p>Para la realizaci&oacute;n de la experiencia, agrup&aacute;bamos las calificaciones decimales en cuatro intervalos de resultados: deficientes (DEF) para las puntuaciones inferiores a 5; aceptables (ACE) para las puntuaciones entre 5 y 6,9; notables (NOT) para las puntuaciones entre 7 y 7,9; y eficientes (EFI) para las puntuaciones de 8 o superiores.</p>      <p><font face="Arial"><b>RESULTADOS</b></font></p>     <p>Las tablas <a href="#t1">1</a> y <a href="#t2">2</a> presentan el n&uacute;mero de profesores y de estudiantes que asignaron calificaciones dentro de cada intervalo en cada una de las tres situaciones de evaluaci&oacute;n. Tambi&eacute;n se presentan las calificaciones decimales m&aacute;s altas y m&aacute;s bajas que fueron atribuidas al examen en las diferentes evaluaciones.</p>     ]]></body>
<body><![CDATA[<p align="center"><a name="t1"><img border="0" src="/img/revistas/edu/v8n1/19.jpg" width="750" height="225"></a></p>     <p align="center"><a name="t2"><img border="0" src="/img/revistas/edu/v8n1/20.jpg" width="750" height="221"></a></p>      <p>&nbsp;</p>     <p>En ambos casos se puede observar una reducci&oacute;n de la dispersi&oacute;n de calificaciones ante cada evaluaci&oacute;n. En S-1 se necesitan tres intervalos para agrupar las notas del 75 % de los evaluadores, en S-2 dos intervalos y en S-3 uno solo. Tambi&eacute;n se puede observar que en las dos poblaciones y en las tres evaluaciones se asignaron notas con rangos muy altos.</p>     <p>Los datos presentan algunas diferencias entre las dos poblaciones de sujetos, los profesores, respecto a los estudiantes, en la primera (S-1) y en la segunda (S-2) evaluaciones asignaron menos notas inferiores a cinco y en la &uacute;ltima (S-3) no pusieron ninguna nota igual o superior a ocho. En los dos primeros casos las diferencias fueron significativas (S-1, chi2 = 7,92, gl = 1, p &lt; 0,01; S-2, chi2 = 12,36, gl = 1, p &lt; 0,001) y en el tercero no (chi2 = 1,01, gl = 1, n.s.).</p>      <p><b><font face="Arial">DISCUSIÓN</font></b></p>     <p>El objetivo de las experiencias comentadas era doble, por un lado pretend&iacute;amos hacer patente la dif&iacute;cil objetividad de las pruebas de ensayo pero tambi&eacute;n quer&iacute;amos evidenciar, en caso de utilizarlas, la posibilidad que tenemos para reducir al m&aacute;ximo la subjetividad.</p>     <p>Los resultados del estudio avalan de forma clara las dos previsiones. Por un lado queda patente la poca concordancia entre evaluadores cuando se corrigen las pruebas de ensayo y, por otro, vemos como a medida que precisamos los criterios de evaluaci&oacute;n la subjetividad disminuye. Tanto con profesores como con estudiantes, la dispersi&oacute;n m&aacute;xima de notas se produce en la primera situaci&oacute;n, &eacute;sta se reduce en la segunda evaluaci&oacute;n, cuando se establecen ciertos criterios de evaluaci&oacute;n, y la dispersi&oacute;n es mucho menor si se establecen puntuaciones concretas para cada uno de dichos criterios.</p>     <p>De los resultados de nuestro estudio se desprende un hecho que no estaba expresamente buscado. Las diferencias encontradas entre las dos poblaciones de evaluadores podr&iacute;an ser atribuidas a un posible efecto &quot;halo&quot;, otro de los grandes inconvenientes que presentan este tipo de pruebas. En la primera evaluaci&oacute;n sin criterios (S-1), vemos que los profesores asignaron menos notas inferiores a cinco que los estudiantes ( 2 % vs 12 % ). Seguramente este hecho se deber&iacute;a a que en el caso de los profesores, &eacute;stos evaluaron el examen creyendo que era el de un compa&ntilde;ero que compart&iacute;a el taller. Por el contrario, en el caso de los estudiantes se evaluaba un examen de una persona an&oacute;nima. Este efecto a&uacute;n se mantuvo en la segunda evaluaci&oacute;n cuando ya se inclu&iacute;an criterios concretos (25 % vs 45 %) pero desapareci&oacute; en la tercera evaluaci&oacute;n cuando la precisi&oacute;n para puntuar era m&aacute;xima (76 % vs 75 %).</p>     <p>En el estudio hemos presentado los resultados acumulados de la evaluaci&oacute;n de un examen (respuesta-se&ntilde;uelo) pero quisi&eacute;ramos destacar que siempre se produjo el mismo tipo de comportamiento en los participantes que evaluaron el caso en las diferentes sesiones. Es m&aacute;s, tambi&eacute;n hemos observado el mismo patr&oacute;n de resultados en la inmensa mayor&iacute;a de los otros ex&aacute;menes que han sido evaluados (dos o tres m&aacute;s por taller) durante los m&aacute;s de diez talleres de formaci&oacute;n impartidos desde 1993.</p>     ]]></body>
<body><![CDATA[<p>Nuestro estudio tiene algunas limitaciones que pod&iacute;an haber influido en los resultados. Por un lado los sujetos participantes, tanto profesores como estudiantes, no eran expertos en la materia y, por otro lado, los criterios de evaluaci&oacute;n en las situaciones 2 y 3 fueron fijados por los autores del estudio y no acordados por los propios evaluadores.</p>     <p>Las discrepancias entre evaluadores probablemente habr&iacute;an sido menores si &eacute;stos hubieran sido expertos y si hubieran determinado ellos mismos los criterios de evaluaci&oacute;n, ya que se puede prestar m&aacute;s atenci&oacute;n a los criterios con mayor peso en la puntuaci&oacute;n.</p>     <p>Tambi&eacute;n aceptamos como discutible la agrupaci&oacute;n de las calificaciones decimales en categor&iacute;as o los rangos utilizados para determinarlas. Posiblemente en un estudio exhaustivo sobre el tema se tendr&iacute;an que conocer las puntuaciones directas para poder observar mejor las variaciones intra-examinadores pero recordamos que el objetivo de la experiencia era mucho m&aacute;s humilde. Respecto a los rangos utilizados son muy semejantes a los utilizados en nuestro pa&iacute;s para determinar las calificaciones cualitativas.</p>     <p>De todas formas, creemos que los resultados de nuestro estudio permiten confirmar la subjetividad de la pruebas de ensayo, hecho ya puesto en evidencia con correctores con mucha experiencia<sup>11</sup>. Recordemos los altos rangos de puntuaciones existentes en todos los casos y que, incluso existi&oacute; un 25 % de evaluadores discrepantes cuando la precisi&oacute;n fue m&aacute;xima. Si bien lo anterior es cierto, los datos tambi&eacute;n ponen de manifiesto que es posible disminuir la subjetividad, es sorprendente la semejanza en las evaluaciones de profesores y alumnos en la tercera evaluaci&oacute;n. As&iacute;, el corolario m&aacute;s relevante de nuestro estudio ser&iacute;a la necesidad de usar criterios de correcci&oacute;n lo m&aacute;s precisos posibles a la hora de evaluar cualquier prueba de ensayo.</p>     <p>Finalmente, y dada la dificultad de objetivar las pruebas de ensayo a pesar de la precisi&oacute;n, creemos necesario, siempre que los objetivos a evaluar lo permitan, utilizar pruebas m&aacute;s objetivas. Como han se&ntilde;alado otros autores <sup>2,13</sup> en la educaci&oacute;n m&eacute;dica es recomendable utilizar pruebas diversas para evaluar el rendimiento acad&eacute;mico de los estudiantes.</p>     <p align="center"><a name="anexos"><img border="0" src="/img/revistas/edu/v8n1/anexos%20ORIGINAL1.jpg" width="750" height="639"></a></p>      <p><font face="Arial"><b>BIBLIOGRAF&Iacute;A</b></font></p>     <!-- ref --><p>1. Guilbert JJ. Education handbook for health personnel. 6th ed. Geneva.: World Health Organization, 1992.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799882&pid=S1575-1813200500010000600001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>2. Wass V, Van der Vluten C, Shatzer J. Jones R. Assessment of clinical competence. Lancet 2001; 357: 945-9.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799884&pid=S1575-1813200500010000600002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>3. Cohen-Schotanus J. Student assessment and examination rules. Med Teach 1999; 21: 318-21.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799886&pid=S1575-1813200500010000600003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>4. Rolfe I, McPherson J. Formative assessment: how am I doing?. Lancet 1995; 345: 837-9.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799888&pid=S1575-1813200500010000600004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>5 . Wong JGWS, Cheung EPP. Ethics assessment in medical students. Med Teach 2003; 25: 5-8.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799890&pid=S1575-1813200500010000600005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>6. Harden RM. Ten questions to ask when planning a course or curriculum. Med Edu 1986; 20: 356-65.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799892&pid=S1575-1813200500010000600006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>7. Cox KR. ¿Qu&eacute; tipo de examen escrito debe utilizarse?. En: Cox KR, Ewan CE. La docencia en Medicina. Barcelona: Doyma, 1990 (pp 162- 65).    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799894&pid=S1575-1813200500010000600007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>8. Breland HM. The direct assessment of writing skills: A measurement review. College Board Report nº 83-6. New York: College Entrance Examination Board, 1983.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799896&pid=S1575-1813200500010000600008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>9. Ebel RL, Frisbie DA. Essentials of educational measurement (4th ed.). Englewood Cliffs: Prentice-Hall, 1986.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799898&pid=S1575-1813200500010000600009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>10. Millman J, Greene J. The specification and development of tests of achievement and ability. En: Linn RL (Ed.) Educational Measurement (3rd ed.). New York: MacMillan, 1989 (pp 447-74).    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799900&pid=S1575-1813200500010000600010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>11. GRE Board. Writting proeficiency: How is it assesssed. GRE Board Newsletter 1992; 8:3-4.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799902&pid=S1575-1813200500010000600011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>12. P&eacute;rez J, Torrubia R. Proves de rendiment acad&egrave;mic. Monografies pr&agrave;ctiques n&uacute;m. 3. Bellaterra: Unitat de Psicologia M&eacute;dica. Universitat Aut&ograve;noma de Barcelona.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799904&pid=S1575-1813200500010000600012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>     <!-- ref --><p>13. Nendaz MR, Tekian A. Assessment in Problem-based learning Medical Schools: A literature review. Teach Learn Med 1999; 11: 232-43.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=1799906&pid=S1575-1813200500010000600013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></p>       ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Guilbert]]></surname>
<given-names><![CDATA[JJ]]></given-names>
</name>
</person-group>
<source><![CDATA[Education handbook for health personnel]]></source>
<year>1992</year>
<edition>6</edition>
<publisher-loc><![CDATA[Geneva ]]></publisher-loc>
<publisher-name><![CDATA[World Health Organization]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wass]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[Van der Vluten]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Shatzer]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Jones]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Assessment of clinical competence]]></article-title>
<source><![CDATA[Lancet]]></source>
<year>2001</year>
<volume>357</volume>
<page-range>945-9</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cohen-Schotanus]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Student assessment and examination rules]]></article-title>
<source><![CDATA[Med Teach]]></source>
<year>1999</year>
<volume>21</volume>
<page-range>318-21</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rolfe]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[McPherson]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Formative assessment: how am I doing?]]></article-title>
<source><![CDATA[Lancet]]></source>
<year>1995</year>
<volume>345</volume>
<page-range>837-9</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wong]]></surname>
<given-names><![CDATA[JGWS]]></given-names>
</name>
<name>
<surname><![CDATA[Cheung]]></surname>
<given-names><![CDATA[EPP]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Ethics assessment in medical students]]></article-title>
<source><![CDATA[Med Teach]]></source>
<year>2003</year>
<volume>25</volume>
<page-range>5-8</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Harden]]></surname>
<given-names><![CDATA[RM]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Ten questions to ask when planning a course or curriculum]]></article-title>
<source><![CDATA[Med Edu]]></source>
<year>1986</year>
<volume>20</volume>
<page-range>356-65</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cox]]></surname>
<given-names><![CDATA[KR]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[¿Qué tipo de examen escrito debe utilizarse?]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Cox]]></surname>
<given-names><![CDATA[KR]]></given-names>
</name>
<name>
<surname><![CDATA[Ewan]]></surname>
<given-names><![CDATA[CE]]></given-names>
</name>
</person-group>
<source><![CDATA[La docencia en Medicina]]></source>
<year>1990</year>
<page-range>162- 65</page-range><publisher-loc><![CDATA[Barcelona ]]></publisher-loc>
<publisher-name><![CDATA[Doyma]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Breland]]></surname>
<given-names><![CDATA[HM]]></given-names>
</name>
</person-group>
<source><![CDATA[The direct assessment of writing skills: A measurement review]]></source>
<year>1983</year>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[College Entrance Examination Board]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ebel]]></surname>
<given-names><![CDATA[RL]]></given-names>
</name>
<name>
<surname><![CDATA[Frisbie]]></surname>
<given-names><![CDATA[DA]]></given-names>
</name>
</person-group>
<source><![CDATA[Essentials of educational measurement]]></source>
<year>1986</year>
<edition>4</edition>
<publisher-loc><![CDATA[Englewood Cliffs ]]></publisher-loc>
<publisher-name><![CDATA[Prentice-Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Millman]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Greene]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The specification and development of tests of achievement and ability]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Linn]]></surname>
<given-names><![CDATA[RL]]></given-names>
</name>
</person-group>
<source><![CDATA[Educational Measurement]]></source>
<year>1989</year>
<edition>3</edition>
<page-range>447-74</page-range><publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[MacMillan]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="journal">
<collab>GRE Board</collab>
<article-title xml:lang="en"><![CDATA[Writting proeficiency: How is it assesssed]]></article-title>
<source><![CDATA[GRE Board Newsletter]]></source>
<year>1992</year>
<volume>8</volume>
<page-range>3-4</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Pérez]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Torrubia]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<source><![CDATA[Proves de rendiment acadèmic]]></source>
<year></year>
<publisher-loc><![CDATA[Bellaterra ]]></publisher-loc>
<publisher-name><![CDATA[Unitat de Psicologia MédicaUniversitat Autònoma de Barcelona]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Nendaz]]></surname>
<given-names><![CDATA[MR]]></given-names>
</name>
<name>
<surname><![CDATA[Tekian]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Assessment in Problem-based learning Medical Schools: A literature review]]></article-title>
<source><![CDATA[Teach Learn Med]]></source>
<year>1999</year>
<volume>11</volume>
<page-range>232-43</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
