Modelización de ítems de matrices figurales y pautas específicas propuestas para su construcción

Blum, G. Diego; Lozzia, Gabriela S.; Abal, Facundo J.P.; Attorresi, Horacio F.

doi:10.6018/analesps.31.2.174891

Mi SciELO

Servicios personalizados

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Citado por Google
Similares en SciELO
Similares en Google

Otros
Otros

Permalink

Anales de Psicología

versión On-line ISSN 1695-2294versión impresa ISSN 0212-9728

Anal. Psicol. vol.31 no.2 Murcia may. 2015

https://dx.doi.org/10.6018/analesps.31.2.174891

Modelización de ítems de matrices figurales y pautas específicas propuestas para su construcción

Modelling figural matrix items and specification of guidelines for their construction

G. Diego Blum, Gabriela S. Lozzia, Facundo J.P. Abal, y Horacio F. Attorresi

Instituto de Investigaciones de la Facultad de Psicología de la Universidad de Buenos Aires

Subsidios de la Universidad de Buenos Aires (UBACyT 2011-14 Código N^o 20020100100346) y de MINCYT y ANPCyT PICT Código N^o 2011-0826 (2012-15).

Dirección para correspondencia

RESUMEN

Este artículo da a conocer los resultados de la modelización de un Test de Analogías Figurales (TAF) utilizando los aportes conjuntos de la Teoría Clásica de Tests (TCT) y de la Teoría de Respuesta al Ítem (TRI), así como la posterior interpretación de las desventajas y posibles soluciones del diseño de dicho test. Se desarrolla el marco conceptual que dio origen al armado del TAF, así como los estudios realizados con esta prueba al administrarla a dos muestras. Una de las muestras corresponde a un estudio piloto con estudiantes de Psicología, mientras que la otra muestra consistió en estudiantes de carreras artísticas y de diseño. Los resultados principales revelan indicadores favorables de unidimensionalidad y confiabilidad, así como parámetros aceptables de discriminación (a), dificultad (b) y pseudoazar (c). Se discuten las desventajas del diseño de ítems con tres reglas y nuevas especificaciones en cuanto al armado de reactivos matriciales de 2x2.

Palabras clave: Matrices; figuras; ítems; analogía; reglas.

ABSTRACT

This manuscript publicizes the results that concern the modelling of a Test of Figural Analogies (TFA) using Classical Test Theory (CTT) and Item Response Theory (IRT) on a joint basis, as well as the interpretation of the disadvantages and possible solutions of the test design. The theoretical background for the TFA construction is outlined, and studies accomplished after its administration to two samples is explained. One of these samples corresponds to a pilot study with Psychology students, while the other sample consisted of Art and Design college students. Main results indicate good unidimensionality and reliability, as well as acceptable discrimination (a), difficulty (b) and guessing value (c) parameters. Design disadvantages of three-rule based items are discussed, and new specifications for the 2x2 matrix item construction are given.

Key words: Matrices; figures; items; analogy; rules.

Introducción

Las matrices de figuras suelen utilizarse para medir componentes de la Inteligencia General (Freund, Hofer, & Holling, 2008), siendo uno de los más importantes el Razonamiento Analógico (RA. Sternberg 1987). En particular, las matrices de 2x2 pueden emplearse para construir analogías de tipo A:B::C:D (Blum, Abal, Lozzia, Picón Janeiro y Attorresi, 2011). Es posible encontrar éste y otros modelos matriciales en el Test de Matrices Progresivas de Raven (Raven, Raven, & Court, 1991), en el Test de Cattell y Cattell (1973), en el Test de Inteligencia No-Verbal (Test of Non-Verbal Intelligence, TONI) de Brown, Sherbenou y Johnsen (2000), en los trabajos de Wolf Nelson y Gillespie (1991), en los trabajos de Susan Embretson (Embretson & Reise, 2000), en el subtest de Razonamiento con Matrices del WAIS-III (Wechsler, 1997), entre otros.

Numerosos estudios de calidad psicométrica se han realizado sobre tests como los que se mencionan, tanto desde la Teoría Clásica de Tests (TCT) como desde la más reciente Teoría de Respuesta al Ítem (TRI). En cuanto a esta última, Raven, Raven y Court (1991) emplearon el examen visual de las Curvas Características de los Ítems (CCI) para proporcionar información sobre la naturaleza de las aptitudes evaluadas y sobre el posible perfeccionamiento del test. Embretson (Embretson & Reise, 2000) presentó los resultados de la modelización de sus 30 ítems de Razonamiento Abstracto (Abstract Reasoning Test, ART) tanto desde el Modelo de Rasch como desde los de dos y tres parámetros (ML2P y ML3P), entre otros modelos aplicados. También se realizaron análisis del Funcionamiento Diferencial de los Ítems (FDI) en pruebas de analogías y/o matrices. Algunas referencias pueden encontrarse en Abad, Colom, Rebollo y Escorial (2004), Bandeira Andriola (2000) y Maller (2000).

El RA es un razonamiento no deductivo y, como tal, no asegura una conclusión verdadera cuando todas sus premisas son verdaderas. Esto quiere decir que es un razonamiento que no está basado en una conclusión necesaria, sino más bien probable. Por este motivo, se trata de un razonamiento ampliatorio, que permite razonar sobre lo posible y no sobre lo deductivamente válido. A diferencia de otros razonamientos no deductivos, como la inducción y la abducción, en el RA se establecen inferencias hacia casos particulares partiendo de premisas sobre otros casos particulares, de manera que nunca se parte de una generalidad ni tampoco se arriba a una generalidad de casos. Esto quiere decir que el RA va de lo particular a lo particular.

La inferencia se realiza sobre un caso nuevo, poco conocido. El RA consiste en atribuirle a dicho caso propiedades que pertenecen a otros casos, los cuales son mejor conocidos que el anterior y de los que se establecen las premisas. En palabras de expertos como Gick y Holyoak (1980), Holyoak y Koh (1987) y Gentner (1983), el dominio nuevo o caso poco conocido se conoce como Análogo-Meta (target analog, TA) y el/los dominio(s) fuente o caso(s) mejor conocido(s) como Análogo-Fuente (source analog, SA). Pero esta relación sólo es posible si tanto el TA como el SA comparten previamente ciertas propiedades comunes que los hacen similares uno respecto del otro. Esto queda muy claro en la experiencia relatada por Gick y Holyoak (1980), sobre la investigación General - Radiación. En ella, para que pueda extrapolarse la solución al problema del general hacia el problema de la radiación, tiene que existir antes una serie de correspondencias entre los roles que asumen los componentes de ambos problemas. Por ejemplo, en los dos relatos encontramos ciertos recursos para resolver el problema y también ciertas restricciones que impiden dicha resolución.

Por ello, la forma lógica de este razonamiento adquiere la siguiente expresión: si P(X,Y) y Q(X), entonces Q(Y). Esto quiere decir que, como primera instancia, los dominios X e Y poseen en común la propiedad P, la cual los hace similares. Ya a partir de esta primera premisa, tales dominios se convierten en análogos uno del otro. Esto se conoce también como la estructura representacional compartida (Cubillo y González Labra, 1998), es decir, el conjunto de relaciones y roles que tienen en común ambos dominios. Pero además, de uno de esos dominios se conoce otra propiedad, que es Q, la cual lo convierte en un dominio mejor conocido. Por ello, dicho dominio pasa a ser el SA. Luego, se infiere que es probable que el otro dominio también posea la misma propiedad, lo cual convierte a este último en el TA.

Generalmente, los dominios son relaciones entre elementos y las analogías, por consiguiente, suelen concebirse como comparaciones entre relaciones, es decir, entre dominios (Sternberg, 1977). Esto se conoce mejor como analogías proporcionales del estilo A:B::C:D (A es a B como C es a D), que son las analogías históricamente más estudiadas. Cuando un problema se basa en buscar el elemento faltante D de la analogía (i.e., A:B::C:?), entonces C:D se convierte en el TA y A:B se convierte en el SA. El enfoque sintáctico de Gentner (1983) plantea que las analogías dependen de la proyección de los predicados sobre las relaciones entre los elementos de cada dominio, y no de la proyección de los predicados sobre dichos elementos. Es decir, para que una analogía se conforme como tal, debe proyectarse la estructura relacional de segundo orden que vincula a los dominios y no sólo las relaciones de primer orden entre sus elementos. En otros términos, no sólo debe compararse A con C o B con D para determinar la analogía, sino que más importante aún es la extrapolación de la relación implícita en el par A:B hacia el otro par C:D. Bajo esta postura, una analogía determinada sólo por las relaciones de primer orden no es verdadera (De La Fuente Arnanz y Minervino, 2004). Sin embargo, desde el enfoque pragmático de Holyoak (e.g., Holyoak & Thagard, 1989), las relaciones de primer orden también conforman analogías y los factores contextuales son más decisivos para el desarrollo de un RA que los estructurales. A lo largo del presente manuscrito se mantendrá la postura de Gentner (1983), la cual también fue enunciada en un trabajo anterior de los autores (Blum, Abal, Lozzia et al., 2011).

A su vez, dependiendo de sobre qué elementos se realizan estas relaciones y comparaciones, podemos concebir distintos tipos de analogías, por ejemplo las verbales, las pictóricas y las figurales. De estas últimas se han desarrollado estudios profusos en el campo de la psicometría y, como consecuencia, muchos tests de matrices de figuras conocidos miden el RA desde un enfoque proporcional. En la matriz, el individuo debe identificar los elementos relacionados del SA y los del TA, que suelen ser pares de figuras, y luego extrapolar mentalmente las relaciones mejor conocidas del SA para completar el TA. Debajo o a un costado de la matriz aparecen opciones cerradas de respuesta. El individuo debe retener el TA que completó mentalmente y compararlo con cada una de las opciones presentadas, en orden de identificar la correcta o más cercana al elemento faltante del TA.

Desde un punto de vista cognitivo, la construcción de ítems basada en reglas puede jugar un rol importante en la evaluación del RA. Las reglas son operaciones cognitivas elementales que se requieren para resolver el ítem (Kubinger, 2008). Cada regla constituye "un determinado tipo de relación análoga" (Blum, Abal, Lozzia et al., 2011, p. 138), siendo ejemplos de reglas la adición (Arendasy, 2005; Freund, Hofer, & Holling, 2008), la sustracción (Arendasy, 2005), el desplazamiento espacial (e.g., rotación) y distorsiones del tamaño y de la forma (Whitely & Schneider, 1981). Es posible crear reactivos con diferentes reglas o combinaciones de reglas (Kubinger, 2008; Zeuch, 2010). Blum, Abal, Lozzia et al. (2011) trabajaron con un conjunto de reglas para el diseño de ítems con matrices de 2x2. Las reglas citadas por Blum, Abal, Lozzia et al. pueden agruparse en tres categorías: emplazamiento espacial (reglas de rotación, traslación y reflejo), distorsión (del tamaño y de la forma) y número (adición y sustracción). Los autores propusieron que el SA y el TA deberían ser, respectivamente, tanto A:B y C:D como A:C y B:D, lo cual otorga dos caminos de resolución posibles. También desarrollaron maneras de evitar sesgos relacionados con el tipo de regla empleado, las opciones de contestación y las condiciones de administración de la prueba.

El objetivo del presente artículo es dar a conocer los resultados de la construcción y modelización de un Test de Analogías Figurales (TAF) a partir de la TCT y la TRI, ambas utilizadas en forma complementaria. Se trata de un artículo de corte metodológico y representa la continuación de un estudio descrito por Blum, Abal, Galibert y Attorresi (2011) y por Blum, Galibert, Abal, Lozzia y Attorresi (2011); dicho estudio previo se realizó sobre una muestra piloto de alumnos de la Facultad de Psicología de la Universidad de Buenos Aires (UBA). A diferencia del mismo, en el presente escrito se consideran además los datos de una segunda muestra de estudiantes provenientes de la Facultad de Arquitectura, Diseño y Urbanismo de la UBA y del Instituto Universitario Nacional del Arte (IUNA), así como su comparación con los datos de la muestra de Psicología. También se brindan sugerencias que se añaden a aquéllas propuestas por Blum, Abal, Lozzia et al. (2011), para la sistematización y objetivación del proceso de construcción de ítems de matrices de figuras de 2x2. Estos aportes metodológicos no tienen precedentes en la investigación psicométrica argentina.

Método

Participantes

La muestra estuvo conformada por dos grandes grupos: 1) estudiantes de la carrera de Psicología de la Facultad de Psicología de la Universidad de Buenos Aires (UBA) y 2) estudiantes de la Facultad de Arquitectura, Diseño y Urbanismo de la UBA y estudiantes del primer año del Instituto Universitario Nacional del Arte (IUNA). El tamaño depurado de la primera muestra fue de 475 individuos, de los cuales aproximadamente 80% fueron mujeres y 20% varones. Estas proporciones son las usualmente encontradas en la población de estudiantes de Psicología de la UBA. La media y la mediana de edad fueron 21.87 y 20. En cuanto a la segunda muestra, su tamaño depurado fue de 1129 individuos, conformados en un 68% por estudiantes del Taller de Dibujo del primer año general de la UBA conocido como Ciclo Básico Común (CBC), en un 5% por estudiantes del IUNA, y el resto se repartía en los diversos niveles de la carrera de Arquitectura. En esta segunda muestra hubo un porcentaje mejor nivelado de hombres y mujeres (47% y 53%), una media y mediana de edad de 21.32 y 20. Las razones principales que llevaron a realizar el estudio con la segunda muestra fueron: 1) afinidad de los alumnos a los conceptos visuales y espaciales del TAF dado el contenido de las carreras, 2) nivelación de los porcentajes según el género y 3) superar las limitaciones del primer estudio realizado con la muestra de Psicología, a saber, a) el problema de la velocidad interviniendo en las respuestas, ya que en el primer estudio la correlación entre el tiempo total y el puntaje total resultó significativa al 1%, y b) el tamaño de la muestra acorde para un Modelo Logístico de Tres Parámetros (ML3P), ya que se recomienda que n > 1000 (Hanson & Beguin, 2002; Yen, 1987).

Procedimiento

Para la selección de los individuos, se estableció un diseño muestral no probabilístico, por accesibilidad o conveniencia (Gil Escudero y Martínez Arias, 2001). Los estudiantes fueron evaluados en las aulas del instituto donde se encontraban cursando, bajo su consentimiento y anoticiados de su anonimato. El tiempo promedio que los individuos destinaron a la resolución del TAF fue de 42 minutos en ambas muestras.

Instrumentos

A cada uno de estos dos grandes grupos se le administró una versión diferente del TAF mediando la revisión de 15 ítems entre muestra y muestra; tal revisión está especificada en Blum, Galibert et al. (2011). Ambas versiones contuvieron una consigna inicial con tres ejercicios de práctica, más un protocolo con 36 reactivos figurales. Los ítems del protocolo de la versión revisada pueden consultarse en la página 42 de Blum, Galibert et al. (2011).

Para la construcción de los reactivos del protocolo, se utilizaron las reglas de rotación, traslación, distorsión del tamaño, distorsión de la forma, adición y sustracción. Se construyeron ítems con una regla, con dos reglas y con tres reglas, bajo la hipótesis de que el aumento de la cantidad de reglas elevaría la dificultad de los reactivos. Entre las pautas utilizadas para su construcción (Blum, Abal, Lozzia et al., 2011), se cuidó especialmente que la respuesta correcta no pudiera encontrarse relacionando únicamente algunos elementos de la matriz. La razón de esto es que el motivo para elegir una respuesta debe basarse en el análisis previo de la estructura relacional de las figuras, es decir, P(X,Y), y en la subsiguiente comparación entre pares relacionados Q(X) → Q(Y).

Resultados

Todos los análisis que se describirán a continuación se realizaron sobre tres matrices de datos. Las primeras dos matrices (M1 y M2) corresponden a las dos muestras respectivamente, mientras que la tercera matriz (M3) reúne los datos de los 1604 individuos de ambas muestras con respecto a los 21 ítems no modificados a través de las mismas.

Se analizó la unidimensionalidad de la prueba por medio de MicroFact 1.1 (Waller, 1995) y del uso conjunto de Tet-corr 2.1 (Enzmann, 2005) y SPSS 15, sobre las matrices de correlaciones tetracóricas. El supuesto de unidimensionalidad es muy importante, ya que los modelos logísticos unidimensionales de la TRI asumen su existencia. Además, a partir de la existencia de unidimensionalidad puede deducirse la presencia de independencia local, que es otro supuesto de la TRI. La unidimensionalidad se determinó a partir de los criterios siguientes: un porcentaje de varianza total explicada por el primer autovalor igual o mayor al 40% (Carmines & Zeller, 1979), la presencia del criterio de caída de Cattell (citado en García-Cueto y Fidalgo, 2005), una razón del primer autovalor al segundo λ₁ / λ₂ > 5 (Martínez Arias, 1995) y el ajuste global al ML3P de la TRI utilizando BILOG-MG (Zimowski, Muraki, Mislevy, & Bock, 1996), ya que logrando dicho ajuste con un modelo que supone la unidimensionalidad, también se comprueba la misma. Como M1 poseyó una distribución de frecuencias del puntaje total tendiente a la simetría (valor de asimetría: -0.10), se corrió BILOG asumiendo la distribución normal por defecto. En cambio, M2 y M3 poseyeron una distribución más asimétrica (valores de asimetría: -0.34 y -0.37 respectivamente). En estos dos casos y en función de la búsqueda de un mejor ajuste global, se corrió BILOG considerando una distribución a priori empírica.

En forma previa al análisis de componentes principales, se calculó el coeficiente Kaiser-Meyer-Olkin (KMO) y el Test de Esfericidad de Bartlett, obteniéndose resultados que indicaron la pertinencia de continuar con este análisis. Los resultados en cuanto a la unidimensionalidad fueron favorables considerando las tres matrices de datos, excepto por el ajuste en M3, tal como muestran la Tabla 1 y la Figura 1. Sin embargo, en este último caso debe recordarse que una muestra de 1604 individuos es muy grande y, como consecuencia, el estadístico de calidad de ajuste pasó a ser bastante más sensible al rechazo de Ho.

Para el estudio desde la TCT se obtuvieron el Coeficiente a de Cronbach, Índices de Dificultad Corregidos (ID´) e Índices de Discriminación basados en la correlación ítem-total corregida (r). Se utilizó también el programa BILOG-MG para determinar el ajuste ítem por ítem al ML3P de la TRI y estimar los parámetros de Discriminación (a), de Dificultad (b) y de Pseudoazar (c) de cada reactivo. Asimismo, se calculó la Función de Información del Test (FIT) y el Error Estándar de Estimación para aportar un criterio adicional a la confiabilidad de la prueba en función de los diferentes niveles de habilidad.

Se determinaron resultados muy favorables en cuanto a la confiabilidad, tanto desde la TCT al estudiar el a de Cronbach, como desde la TRI al estudiar las curvas que representan las Funciones de Información del Test (FIT). En particular, los estudios desde la TRI dieron cuenta de que la máxima información (I. Máx) quedó determinada en los puntos medios de la escala de habilidad, y que las FIT se aproximaron bastante a curvas esperables, es decir, simétricas respecto de θ = 0 y una oscilación de la habilidad entre -3 y +3, tal como muestran la Tabla 2 y la Figura 2.

Según la información brindada en cuanto a los ID' y los r de la TCT, así como la estimación de los parámetros a, í y c de la TRI, se obtuvieron los siguientes resultados y se graficaron las siguientes CCI (Tabla 3 y Figura 3). A grandes rasgos, se obtuvieron índices y parámetros aceptables. En particular, todos los niveles de r puntuaron por encima de .30 y los niveles de a también fueron elevados sobre todo en la segunda muestra. Los niveles de c poseyeron una puntuación esperable cuando se trabaja con 6 opciones de respuesta, es decir, alrededor de .17 o inferior. Como puede apreciarse, la dificultad media fue cercana a θ = 0 y además, las CCI se agruparon mayormente hacia el centro representado por dicho nivel de habilidad. Esto quiere decir que la dificultad no fue muy variada. De hecho, los niveles máximos y mínimos de b fueron: -1.77 y 1.13, -1.79 y 0.94, y -0.86 y 0.98 respectivamente para M1, M2 y M3. Existen otras investigaciones que prueban que pueden construirse ítems de analogía figural con niveles de b más variados. En una investigación similar (Embretson & Reise, 2000), los b fluctuaron entre -2.81 y 3.46 utilizando el ML3P. En la primera muestra, el promedio de los b de ítems con una regla difirió al 5% del promedio de b de ítems con dos reglas (-0.48 vs. 0.11. t₍₂₈₎ = -2.35;p = .03. Tamaño del Efecto TE = 0.93), pero esta diferencia no fue significativa cuando se compararon ítems con dos reglas con los que poseen tres reglas (0.11 vs. 0.16. t₍₂₅₎ = -0.20;p = .84). En vista de esta falta de diferencia y antes de realizar el segundo estudio, los ítems que poseían tres reglas se modificaron para que contuvieran solo dos de ellas. Luego de administrarlos a la segunda muestra, se obtuvo que la comparación de los b de ítems con una y con dos reglas brindó datos significativos al 5% (-0.42 vs. 0.01. t⁽³⁴⁾ = -2.37; p = .02. TE = 0.91).

Se establecieron regresiones múltiples en cada muestra, tomando como variable criterio al parámetro b y, como potenciales predictores, las seis reglas utilizadas en este estudio. Se escogió aquel modelo de regresión cuyo C_P de Mallows (1973) fuera el más bajo. Como medidas del ajuste y del tamaño del efecto de la regresión múltiple se utilizaron respectivamente el Coeficiente de Determinación (r²) y F² de Cohen, cuya fórmula es r² / (1 - r²). Se encontró lo siguiente al 5%. En M1, el mejor modelo de regresión (C_P = 2.8) identificó a la rotación y a la sustracción como predictores de b (F_(2,33) = 5.43; p < .01), mientras que en M2, el mejor modelo de regresión (C_P = 5.9) determinó a la rotación, la traslación, la distorsión del tamaño, la adición y la sustracción como predictores de b (F_(5,30) = 2.94; p = .03). La varianza conjunta explicada y los F² de Cohen son, en M1, 24.77% y 0.33 y en M2, 32.90% y 0.49.

A continuación se muestran otros resultados de estas regresiones (ver Tabla 4). Puede apreciarse que todos los coeficientes parciales son positivos, con lo cual, la presencia de las reglas mencionadas predice el aumento de b. Por otro lado, las reglas de emplazamiento espacial contribuyeron más al aumento de la dificultad que las reglas de distorsión. Este último hallazgo es consistente con los resultados de Whitely y Schneider (1981) según los cuales es esperable que los ítems con cambios de emplazamiento espacial resulten más difíciles que los ítems con distorsiones.

Finalmente, en la Tabla 5 se muestran todos los índices y parámetros estudiados y se incluye el estudio del ajuste de cada ítem al ML3P. Cada fila representa los datos de un mismo ítem, sólo que se modificó el orden de presentación de algunos reactivos en M2 y por eso su numeración es distinta respecto de M1. Como puede observarse, la gran mayoría de los reactivos ajustó al ML3P en las tres matrices de datos. Los ítems que no ajustaron en M1 son el 5, el 11 y el 18, en M2 son el 6, el 11, el 15 y el 17, y en M3 son el 16, el 23 y el 27. Por lo tanto, sólo el ítem 11 no ajustó en más de una matriz de datos, lo que lo hace más proclive a la eliminación (Blum, Auné, Galibert y Attorresi, 2013).

Discusión

Dificultades encontradas y su posible solución

Más allá de los avances alcanzados en la elaboración de la prueba, aún quedan por desarrollar perfeccionamientos. De aquí en más, debe controlarse mejor la complejidad de las figuras y es necesario emplear criterios específicos para confeccionar las opciones de respuesta. Esto se debe a que, entre otras cuestiones, existieron problemas con el diseño de ítems con tres reglas en M1. Se esperaba que tales reactivos fueran más difíciles de resolver que los ítems con dos reglas; sin embargo, la diferencia entre los b de ambos grupos de ítems no fue significativa al 5%. Inspeccionando los ítems con tres reglas, se confirmó que muchos de ellos podían contestarse en forma correcta con sólo reconocer dos de esas reglas, lo cual es una consecuencia de la forma de plantear sus opciones de respuesta. Tales opciones deberían ser suficientemente parecidas como para que el evaluado encuentre la opción correcta con ayuda del empleo de todas las reglas que participan en el ítem, y no de algunas. Eliminar una regla de cada uno de los reactivos con tres reglas permitió simplificar los ítems en cuestión y reducir su complejidad frente al segundo estudio, pero esto implicó dejar de trabajar con tres reglas para concentrar la atención sólo en ítems más sencillos de construir. En algunos ítems podrían separarse mejor las opciones más parecidas y siguen existiendo cuestiones por modificar basándose en el análisis de los distractores.

Todo esto permite pensar en un fuerte componente humano influyendo negativamente en la construcción de ítems. Si bien la mayor parte de las medidas que se mencionarán a continuación se han tomado en cuenta, la rigurosidad de su definición y estructuración es necesaria para mejorar sustancialmente la sistematización del proceso de construcción.

1- Reducir la complejidad al mínimo necesario es una norma ineludible. La complejidad añade información al reactivo, información que debe ser procesada por el respondiente y que lo somete a una mayor probabilidad de cometer error (Mulholland, Pellegrino, & Glaser, 1980). Como el propósito no es medir esta complejidad sino la variable de interés (el RA o la Inteligencia General), debe diseñarse el reactivo sólo con los pocos elementos que servirán para aplicar las reglas. De ser posible y para ahorrar elementos, deberían aplicarse varias reglas a las mismas partes de la figura (Freund et al., 2008).

2- Debe existir mayor sutileza de las diferencias entre las figuras. Martínez, Moreno y Muñiz (2005) determinaron que las opciones de respuesta deberían ser parecidas entre sí. Para los fines aquí propuestos, esto se traduce en buscar la sutileza del cambio entre las figuras de la matriz, lo que permitirá elaborar opciones ligeramente distintas unas de otras. Por ejemplo, si se emplea una regla de rotación, tal vez en ciertos casos convenga rotar una parte de la figura y no toda; si se aplica la sustracción como regla, debe sustraerse un fragmento pequeño. De este modo, el cambio será más difícil de observar y el acierto del ítem dependerá del grado de concentración invertido y del nivel de habilidad de la persona.

3- Con el ideal de construir reactivos con una, dos y/o más reglas que regulen adecuadamente la dificultad, se deberían elaborar opciones de respuesta por medio de un Diseño de Combinación de Alternativas (DCA). Entiéndase por 'alternativa correcta' a una solución basada en la aplicación adecuada de una regla en el ítem, y por 'alternativa incorrecta' a una solución basada en su aplicación inadecuada. El constructor debe desarrollar, para cada regla que se presenta en el ítem, una sola alternativa correcta y una o más alternativas incorrectas. Luego le es posible combinar una alternativa de cada regla para generar una opción de respuesta, pudiendo realizar la totalidad de combinaciones disponibles para crear todas las opciones del ítem. La única respuesta correcta será aquella opción que contenga todas las alternativas correctas. Para un ejemplo práctico, analícese en detalle los tres ítems mostrados en la Figura 4. El número de opciones, por defecto, es igual al producto de los números que representan la cantidad propuesta de alternativas por regla; sin embargo, podría trabajarse con menos opciones al eliminar los distractores más alejados de la respuesta correcta, que son aquellas opciones que poseen la mayor cantidad de alternativas incorrectas. Al realizar este proceso, el constructor debe ser cuidadoso y no eliminar todas las alternativas incorrectas que pertenecen a alguna de las reglas, es decir, el ítem debe conservar al menos una alternativa incorrecta por regla a lo largo de las opciones no eliminadas. De lo contrario, se estarían eliminando los puntos de comparación que permiten resolver el ítem sobre la base de esa o esas reglas.

Pautas específicas para la construcción de ítems

Es posible desglosar las tres sugerencias mencionadas y conformar sugerencias específicas, planteadas a modo de pautas o pasos para la construcción manual de ítems con matrices de 2x2. Estos pasos se detallarán a continuación, utilizando un lenguaje similar al pseudocódigo para la creación de un programa de computadora, es decir, como si la intención real fuera manipular artificialmente los radicales (Irvine, 2002) de un Ítem-Modelo (Gierl & Lai, 2012; Lai, Alves, & Gierl, 2009) en un proceso de Generación Automática de Ítems (Arendasy, 2002; Freund, Hofer, & Holling, 2008). Los pasos presuponen que un ítem debe contener entre 2 y 8 opciones de respuesta, ya que cantidades mayores a 8 crean ítems con una estructura demasiado compleja y es posible que dicha complejidad distorsione las respuestas.

1- Proponer una cantidad de reglas: pensar en un valor del 1 al 3.

2- Asignar a cada regla una operación cognitiva elemental (tipo de regla): ejemplos de operaciones cognitivas encontradas en la literatura son rotación, traslación, reflejo, distorsión del tamaño, distorsión de la forma, adición y sustracción. Pueden proponerse otras, aunque éstas tal vez son más que suficientes. Una descripción de las reglas mencionadas puede encontrarse en Blum, Abal, Lozzia et al. (2011).

3- Elaborar una figura inicial: se confecciona la figura de partida, la cual se emplazará en el costado superior izquierdo de la matriz. Es aconsejable que la figura no contenga demasiada complejidad, para evitar que la complejidad contamine la respuesta al ítem.

4- Descomponer la figura: debe indicarse de qué manera hay que descomponer la figura para que pueda asignarse una regla por cada una de las partes en que la misma se descompuso. De este modo, cada regla va a actuar independientemente en cada parte designada de la figura. Si se trabaja con una sola regla, igualmente debe indicarse qué parte de la figura se verá afectada por dicha regla.

5- Designar la cantidad de alternativas por regla, considerando lo siguiente:

- Si se quiere trabajar con una sola regla, la cantidad mínima de alternativas es 2 y pueden utilizarse hasta 8 alternativas.

- Si se quiere trabajar con dos reglas, pueden utilizarse (a) dos alternativas por regla, (b) dos alternativas para una regla y tres para la otra regla, o (c) tres alternativas por regla.

- Si se quiere trabajar con tres reglas, la única cantidad de alternativas admisible por regla es 2.

6- Designar la cantidad de opciones de respuesta. El número de opciones está restringido a la cantidad de reglas y de alternativas por regla. Tomar en cuenta lo siguiente:

- Si la cantidad de reglas es 1, el número de opciones es indefectiblemente igual al número de alternativas.

- Si la cantidad de reglas es 2 y se quiere trabajar con dos alternativas por regla, la cantidad de opciones por defecto es 4, pero el investigador puede elegir sólo 3 opciones.

- Si la cantidad de reglas es 2 y se quiere trabajar con dos alternativas para la primera regla y tres para la segunda, la cantidad de opciones por defecto es 6, pero pueden designarse 5.

- Si la cantidad de reglas es 2 y se quiere trabajar con tres alternativas por regla, la cantidad de opciones máxima sugerida es 8, pero pueden escogerse 7.

- Si la cantidad de reglas es 3, la cantidad de opciones por defecto es 8, pero puede reducirse a 7, 6, 5 o 4.

7- Designar el número o código de orden, de izquierda a derecha, en que se emplazará la respuesta correcta, o establecer aleatoriamente dicho orden.

Todos los pasos mencionados asientan las bases a priori para construir una matriz de 2x2 y un conjunto de opciones de respuesta debajo de aquélla, tal como se ve en los reactivos de la Figura 4. En términos específicos, el investigador debe procesar dichos pasos en dos etapas:

1- Construcción de la matriz: requiere de la previa lectura de los pasos 1, 2, 3 y 4 explicadas arriba. El investigador toma la figura inicial, la descompone según los criterios especificados y aplica una regla por cada parte previamente identificada para realizar alteraciones. Se vale de este procedimiento para generar dos figuras modificadas respecto de la figura inicial. La forma de aplicar estas reglas la define el investigador. Una de las figuras modificadas es colocada hacia el costado derecho respecto de la figura inicial, y la otra es colocada debajo de la misma. Siempre quedará vacío un cuarto espacio (ver 'signo de pregunta'). De este modo se genera la matriz de 2x2 como se ve en los ejemplos.

2- Construcción de las opciones de respuesta: requiere de la previa lectura de todos los pasos ya explicados. El investigador desarrolla, por cada regla, una sola alternativa correcta y versiones de alternativas incorrectas. Luego combina una alternativa de cada regla para generar una opción de respuesta posible o, en el caso de trabajar con una sola regla, utiliza una alternativa para generar una opción de respuesta posible. Así, genera todas las opciones de respuesta realizando la cantidad total disponible de combinaciones. Luego emplaza las opciones uniformemente, en hilera horizontal y orden aleatorio, y ubica la respuesta correcta (aquella opción cuyas alternativas son todas correctas) en el orden designado. Considera lo siguiente:

- Si se trabaja con la cantidad de opciones sugerida por defecto, el investigador combina las alternativas para formar las opciones sin realizar un proceso de eliminación de opciones. La excepción la tiene el caso donde se proponen dos reglas y tres alternativas por regla, ya que si bien hay nueve opciones que resultan de la combinación, el investigador va a generar un máximo de ocho opciones al eliminar al azar una opción cuyas alternativas son todas incorrectas.

- Si se trabaja con dos reglas y con una cantidad de opciones menor a la sugerida por defecto, el investigador primero combina las alternativas para formar las opciones y luego elimina una o la única opción cuyas alternativas son todas incorrectas. Si proponiendo dos reglas y tres alternativas por regla, la cantidad de opciones a designar es 7, entonces del total de nueve combinaciones se eliminan dos opciones cuyas alternativas deben ser todas incorrectas.

- Si se trabaja con tres reglas y con una cantidad de opciones menor a la sugerida por defecto, existe un orden de prioridad para la eliminación. De acuerdo a la cantidad de opciones propuesta por el investigador, primero se elimina aquella opción cuyas alternativas son todas incorrectas y luego, si corresponde, se eliminan al azar una, dos o todas las opciones que contengan una sola alternativa correcta y otras dos alternativas incorrectas. Las demás opciones nunca se eliminan.

Una vez procesado el ítem, el archivo final debe contener:

1- Información escrita:

- El número o código de orden de la respuesta correcta.

- Nombres de cada regla utilizada.

2- Un cuadro rectangular que contenga al ítem en cuestión, tal como se ve en los ejemplos. Es preferible guardarlo en formato de dibujo de alta calidad, por ejemplo un Metarchivo Mejorado (Enhanced Metafile, EMF) de Windows.

También podría considerarse la posibilidad de realizar todo este proceso con cuatro reglas, aunque el diseño se volvería demasiado complejo en este caso. La única cantidad admisible de alternativas por regla sería 2, la cantidad mínima admisible de opciones sería 5 (una respuesta correcta y cuatro distractores, cada uno de los cuales contendría una sola alternativa incorrecta y tres correctas) y la cantidad máxima de opciones sería 8 ya que existiría la posibilidad de añadir distractores con dos alternativas correctas y dos incorrectas cada uno.

Conclusiones

Para la medición del Razonamiento Analógico u otros componentes de la Inteligencia General, muchas veces existe el inconveniente de que se utilizan pruebas muy convencionales, conocidas popularmente, que se publican en sitios web y están al alcance de todas las personas. Si bien la construcción de nuevas escalas se presenta como algo viable, es sabido que lleva mucho tiempo y esfuerzo elaborar una prueba en forma manual y que a su vez la misma presente las propiedades psicométricas esperadas. La lectura de material conceptual y la experiencia pueden servir de apoyo para dicha construcción, pero siempre se presentan dificultades basadas en el factor humano, las cuales obligan a realizar correcciones.

Es importante mencionar que existe una demanda creciente de miles de nuevos ítems para incluir en evaluaciones computarizadas por parte de agencias de evaluación muy conocidas (Gierl & Lai, 2012). Por ende, a medida que el desarrollo de ítems se complejiza, la demanda de cantidad y calidad de ítems excede con creces la capacidad de aquellos redactores que los arman del modo usual (Lai, Alves, & Gierl, 2009). Por lo tanto, la proposición de pautas específicas para la construcción de ítems, con escasos desarrollos en Argentina, permitiría crear reactivos de la manera más sistemática y objetiva posible, sin cometer grandes errores. Con el mismo fin, se están desarrollando actualmente estudios dentro del campo de la Generación Automática de Ítems, pero estas investigaciones son todavía muy recientes y su contribución a la construcción de tests con buenas propiedades psicométricas aún está puesta en duda. En un futuro cercano, tal vez los progresos en dicha temática permitan acortar gradualmente la brecha que existe entre la investigación psicométrica y los avances de la tecnología.

Agradecimientos

Se agradece la participación de los Lic. en Psicología: Romina Bershadsky, Susana Cappellini, Lidia Nicolai y Ezequiel Katz en la recolección de datos de la segunda muestra.

Referencias

1. Abad, F., Colom, R., Rebollo, I., & Escorial, S. (2004). Sex differential item functioning in the Raven's Advanced Progressive Matrices: evidence for bias. Personality and Individual Differences, 36, pp. 1459-1470. [ Links ]

2. Arendasy, M. (2002). GeomGen-Ein Itemgenerator für Matrizentestaufgaben. Wien: Eigenverlag. [ Links ]

3. Arendasy, M. (2005). Automatic generation of Rasch-calibrated items: figural matrices test GEOM and Endless-Loops Test E^C. International Journal of testing, 5(3), 197-224. [ Links ]

4. Bandeira Andriola, W. (2000). Funcionamento Diferencial dos Itens (DIF): Estudo com Analogías para Medir o Raciocínio Verbal. Psicologia Refexão e Crítica, 13(3), pp. 475-483. [ Links ]

5. Blum, G. D., Abal, F. J. P., Galibert, M. S. y Attorresi, H. F. (2011). Construcción de una Prueba de Analogias Figurales. Summa Psicológica UST, 18(1), 5-12. [ Links ]

6. Blum, G. D., Abal, F. J. P., Lozzia, G.S., Picón Janeiro, J. C. y Attorresi, H. F. (2011). Analogías de figuras: Teoría y construcción de ítemes. Interdisciplinaria Revista de psicología y ciencias afines, 28(1), 131-144. [ Links ]

7. Blum. G. D., Auné, S., Galibert, M. S. y Attorresi, H. F. (2013). Criterios para la eliminación de ítems de un Test de Analogías Figurales. Summa Psicológica UST, 10(2), 49-56. [ Links ]

8. Blum, G. D., Galibert, M. S., Abal, F. J. P., Lozzia, G. S. y Attorresi, H. F. (2011). Modelización de una Prueba de Analogías Figurales con la Teoría de Respuesta al Ítem. Escritos de Psicología, 4(3), 36-43. [ Links ]

9. Brown, L., Sherbenou, R. J. y Johnsen, S. K. (2000). TONI2. Test de Inteligencia No Verbal. Apreciación de la habilidad cognitiva sin influencia del lenguaje. Manual. Madrid: TEA. [ Links ]

10. Carmines, E. G., & Zeller, R. A. (1979). Reliatíility and validity assessment. Londres: Sage. [ Links ]

11. Cattell, R. B., & Cattell, A. K. S. (1973). Measuring Intelligence with The Culture Fair Tests. Champaign, IL: Institute for Personality and Ability Testing, Inc. [ Links ]

12. Cubillo, J. C. y González Labra, M. J. (1998). El razonamiento analógico como solución de problemas. En M. J. González Labra (Ed.), Introducción a la psicología del pensamiento (pp. 409-451). Madrid: Trotta. [ Links ]

13. De la Fuente Arnanz, J. y Minervino, R. A. (2004). Pensamiento analógico. En M. Carretero & M. Asensio (Coords.), Psicología del pensamiento (pp. 193-214). Madrid: Alianza. [ Links ]

14. Embretson, S. E., & Reise, S. P. (2000). Item Response Theory for psychologists. Mahwah: Lawrence Erlbaum Associates Inc. [ Links ]

15. Enzmann, D. (2005). Dirk Enzmann - Statistical Software (Some Useful Things). Recuperado de http://Avww2.jura.uni-hamburg.de/instkrim/kriminologie/Mitarbeiter/Enzmann/Software/EnzmannSoftware.html. [ Links ]

16. Freund, P. A., Hofer, S., & Holling, H. (2008). Explaining and controlling for the psychometric properties of computer-generated figural matrix items. Applied Psychological Measurement, 32(3), pp. 195-210. [ Links ]

17. García-Cueto, E. y Fidalgo, A. M. (2005). Análisis de los ítems. En J. Muñiz, A.M. Fidalgo, E. García-Cueto, R. Martínez, & R. Moreno (Eds.), Análisis de ítems (pp. 53-130). Madrid: La Muralla. [ Links ]

18. Gentner, D. (1983). Structure-mapping: A theoretical framework for analogy. Cognitive Science, 7(2), pp. 155-170. [ Links ]

19. Gierl, M.J., & Lai, H. (2012). The role of item models in automatic item generation. International Journal of testing, 12(3), 273-298. Doi: 10.1080/15305058.2011.635830. [ Links ]

20. Gick, M. L., & Holyoak, K. J. (1980). Analogical problem solving. Cognitive psychology, 12(3), pp. 306-355. [ Links ]

21. Gil Escudero, G. y Martínez Arias, M. R. (2001). Metodología de encuestas. En M. J. Navas (Ed.), Métodos, diseños y técnicas de investigación psicológica (pp. 379-436). Madrid: Universidad Nacional de Educación a Distancia. [ Links ]

22. Hanson, B. A., & Beguin, A. A. (2002). Obtaining a common scale for item response theory item parameters using separate versus concurrent estimation in the common-item equating design. Applied Psychological Measurement, 26(1), pp. 3-24. [ Links ]

23. Holyoak, K. J., & Koh, K. (1987). Surface and structural similarity in analogical transfer. Memory and cognition, 15(4), pp. 332-340. [ Links ]

24. Holyoak, K. J., & Thagard, P. R. (1989). A computational model of analogical problem solving. En S. Vosniadou & A. Ortony (Eds.), Similarity and analogical reasoning (pp. 242-266). Cambridge University Press. [ Links ]

25. Irvine, S. (2002). The foundations of item generation for mass testing. En S.H. Irvine, & P.C. Kyllonen (Eds.), Item generation for test development (pp. 3-34). Mahwah: Lawrence Erlbaum Associates. [ Links ]

26. Kubinger, K. D. (2008). On the revival of the Rasch model-based LLTM: from constructing tests using item generating rules to measuring item administration effects. Psychology science quarterly, 50(3), 311-327. [ Links ]

27. Lai, H., Alves, C., & Gierl, M. J. (2009). Using automatic item generation to address item demands for CAT. En D.J. Weiss (Ed.), Proceedings of the 2009 GMMAC Conference on Computerizad Adaptive Testing. Recuperado de: www.psych.umn.edu/psylabs/CATCentral. [ Links ]

28. Maller, S. J. (2000). Item invariance in four subtests of the Universal Nonverbal Intelligence Test (UNIT) across groups of deaf and hearing children. Journal of psychoeducational assessment, 18(3), pp. 240-254. [ Links ]

29. Mallows, C. L. (1973). Some Comments on CP. Technometrics, 15(4), 661-675. Doi:10.2307/1267380. [ Links ]

30. Martínez Arias, R. (1995). Psicometría: Teoría de los Tests Psicológicos y Educativos. Madrid: Síntesis. [ Links ]

31. Martínez, R., Moreno, R. y Muñiz, J. (2005). Construcción de los ítems. En J. Muñiz, A.M. Fidalgo, E. García-Cueto, R. Martínez, & R. Moreno (Eds.), Análisis de los ítems (pp. 9-48). Madrid: La Muralla. [ Links ]

32. Mulholland, T. M., Pellegrino, J. W., & Glaser, G. (1980). Components of geometric analogy solution. Cognitive Psychology, 12(2), pp. 252-284. [ Links ]

33. Raven, J., Raven, J. C., & Court, J. H. (1991). Manual for Raven's Progressive Matrices and Vocabulary Scales. Sections 1, 2, 3 and 4. Oxford: Oxford Psychologists Press. [ Links ]

34. Sternberg, R. J. (1977). Intelligence, information processing and analogical reasoning: the componential analysis of human aíilities. Hillsdale, NJ: Lawrence Erlbaum Associates. [ Links ]

35. Sternberg, R. J. (1987). Inteligencia humana II: Cognición, personalidad e inteligencia. Barcelona: Paidós. [ Links ]

36. Waller, N. G. (1995). MicroFact 1.1. A Microcomputer Factor Analysis Program for Ordered Polytomous Data and Mainframe Size Proílems. St. Paul Minessota: Assessment System Corporation. [ Links ]

37. Wechsler, D. (1997). Wechsler Adult Intelligence Scale-III. Nueva York: Psychological Corporation. [ Links ]

38. Whitely, S. E., & Schneider, L. M. (1981). Information structure for geometric analogies: A test theory approach. Applied Psychological Measurement, 5(3), pp. 383-397. [ Links ]

39. Wolf Nelson, N., & Gillespie, L. L. (1991). Analogies for thinking and talking. Words, pictures and figures. Tucson: Communication Skill Builders. [ Links ]

40. Yen, W. M. (1987). A comparison of the efficiency and accuracy of BILOG and LOGIST. Psychometrika, 52(2), pp. 275-291. [ Links ]

41. Zeuch, N. (2010). Rule-based item construction: analysis with and comparison of linear logistic test models and cognitive diagnostic models with two item types (Tesis doctoral, Westfälische Wilhelms-Universität Münster, Germany). Recuperado de http://miami.uni-muenster.de/servlets/DerivateServlet/Derivate-6086/diss_zeuch.pdf. [ Links ]

42. Zimowski, M., Muraki, E., Mislevy, R., & Bock, R. (1996). BILOG-MGTM: Multiple-group IRT analysis and test maintenance for binary items (Software). Chicago, IL: Scientific Software International. [ Links ]

Dirección para correspondencia:
G. Diego Blum.
Anchorena 1.169 3^oB (1425),
CABA Argentina
E-mail: blumworx@gmail.com

Artículo recibido: 20-5-2013
revisado: 16-01-2013
aceptado: 10-11-2013