INTRODUCCIÓN
En evaluación psicológica pueden darse cuatro estilos de respuesta1: Sincero u honesto; Simulador (exagera o inventa psicopatología); Disimulador (niega o minimiza psicopatología); o Inconsistente (puede ser la consecuencia de procesos psicóticos, de padecer daño orgánico, de no entender lo que se pregunta o de no estar involucrado en la evaluación). Por lo que los diseños experimentales que investigan simulación están condicionados a la propia distorsión. Aunque lo ideal sería poder comparar un grupo clínico simulador honesto, con un grupo clínico honesto y con un grupo control, las dificultades obvias por la falta de honestidad de los grupos experimentales obligan a crear diseños en los que la manipulación esté controlada.
Estos diseños pueden ser2: De grupos conocidos (known groups comparisons), cuando la condición experimental está formada por sujetos en situaciones reales que han sido clasificados por un grupo de expertos como probablemente honestos o probablemente simuladores; De medidas autosuficientes (bootstrapping comparisons), cuando la condición experimental está formada por sujetos en situaciones reales que han sido clasificados mediante puntos de corte en índices de validez como probablemente honestos o probablemente simuladores; De prevalencia diferencial (differential prevalence design), cuando las condiciones experimental y control vienen dadas por un criterio externo, real y definido por la propia situación en la que se encuentren (p.ej. demandantes de pensión versus no demandantes de pensión; en proceso judicial con solicitud de eximente por trastorno mental versus en proceso judicial sin solicitud de eximente por trastorno mental; etc.); De análogos (analog design), cuando a la condición experimental se le pide que responda a la prueba simulando un trastorno mental (de ahí su nombre “análogo”), condición que será comparada, al menos, con un grupo honesto sin psicopatología o grupo control). Para analizar el efecto que tiene el grado de conocimiento sobre trastornos y/o pruebas diagnósticas, se han hecho variaciones en esta condición experimental. Así, puede haber un grupo de novatos (sin conocimientos en trastornos mentales y/o en pruebas diagnósticas y/o en índices de detección), o formada por expertos (con conocimientos en trastornos mentales y/o en pruebas diagnósticas y/o en índices de detección).
El beneficio del diseño de análogos es que aporta una alta validez interna, en detrimento de una baja validez externa, al contrario que los diseños de grupos conocidos o de medidas autosuficientes. Mientras que los diseños de prevalencia diferencial cuentan con una baja validez interna y una moderada validez externa.
Investigaciones con diseños de análogos en personal militar con el MMPI-2-RF, PAI y SIMS
El interés por estudiar la simulación de enfermedad en militares siempre aumentó en tiempos de guerra, pero no es hasta la II Guerra Mundial cuando surgen los primeros trabajos empíricamente validados en simulación. Las primeras investigaciones3,4 demostraron que la psicometría era capaz de clasificar a un grupo de “débiles mentales”, otro de pacientes psiquiátricos y otro de análogos. En otro estudio más complejo5 con el Minnesota Multiphasic Personality Inventory (MMPI6), se compararon las puntuaciones de 121 soldados, con las de un grupo de militares familiarizados en psicodiagnóstico (n=11) que primero respondieron a la prueba honestamente, después simulando “psiconeurosis” y, por último, simulando esquizofrenia paranoide. Todos los perfiles se mezclaron con casos clínicos reales. En los resultados se encontró que el índice F-K detectaba al 82% de los simuladores, frente a los cuatro expertos que llegaron a una precisión del 55%- 73%. Estos resultados se replicaron un año después7.
Las décadas posteriores trajeron diversas investigaciones (p.ej. ver citas8 9 10 11 12 13 14-15) con una muestra de al menos 1192 militares (entre todas ellas) repartidos en grupos clínicos en su mayoría de TEPT, grupos control y análogos. Dichas investigaciones sirvieron para replicar resultados, mejorar las pruebas diagnósticas, elaborar nuevos índices de detección y confirmar la precisión de las escalas e índices de validez F, |F-Fb|, F-K, F(p), Ds2, O-S, OT y FBS del MMPI-216, resultando el índice F-K el mejor, seguido de F y F(p). Además, se ratificó que, empleando los criterios psiquiátricos clásicos de clasificación, el número de falsos positivos (sujetos honestos clasificados como simuladores) y falsos negativos (sujetos simuladores clasificados como honestos) era significativamente mayor que si se empleaban criterios psicométricos.
En los últimos años, el MMPI-2-RF17 ha seguido demostrando su eficacia clasificatoria. Por ejemplo, con un paradigma estadístico nuevo18, el Optimal Data Analysis (ODA)19 en una muestra de 288 militares, se concluyó que el índice HHI (Henry-Heilbronner Index)20 y las escalas RBS, FBS y FBS-r eran más eficaces que las escalas de la familia F del MMPI-2 y que la escala Fs reaccionaba de manera similar a la escala F del MMPI-2, resultando ser la mejor de todas las de esta familia. En otro estudio21 con 501 militares evaluados por Traumatismo Craneoencefálico, la escala RBS diferenció entre los que parecían sospechosos de simular de los que no. Por último, con un diseño de análogos22 en una muestra de 112 militares (54 veteranos diagnosticados de TEPT, 30 análogos expertos y 29 veteranos análogos novatos) las escalas F-r, Fp-r, Fs, FBS-r y RBS diferenciaron correctamente entre el grupo clínico y los dos grupos de análogos.
En los años 90, aparece otra prueba con excelentes resultados en evaluaciones clínicas y forenses, el Personality Assessment Inventory (PAI23,24). En un diseño de análogos con el PAI25,26 se comparó un grupo de 30 veteranos con problemas de abuso de alcohol, otro de 29 veteranos que además de abusar del alcohol tenían un diagnóstico de TEPT y un grupo análogo compuesto por 30 estudiantes universitarios que simulaban un TEPT. Puntuaciones altas en las escalas IMN, ANS, ESQ, PAR, SOM y bajas en la escala AFA, diferenciaron entre los veteranos y los simuladores. En diferentes estudios25 26 27 28 29-30 se ha replicado que las puntuaciones altas en la escala IMN clasifican correctamente a los simuladores.
Por último, el Structured Inventory of Malingered Symptomatology (SIMS31,32) creada para evaluar simulación de psicopatología y de alteraciones neurocognitivas, ha demostrado su capacidad clasificatoria en numerosas investigaciones con análogos (p.ej. ver citas33 34 35 36 37 38-39) que juntas sumarían una muestra de 1469 sujetos, incluyendo una muestra de 143 militares. Así mismo, en el estudio más exhaustivo realizado con el SIMS mediante la metodología de meta-análisis40, analizaron 72 estudios que incluían 8879 protocolos diagnósticos, determinando que: El SIMS diferencia bien entre sujetos entrenados para simular y honestos; los grupos de sujetos evaluados en contextos forenses (p.ej. alegar amnesia relacionada con un crimen) obtienen mayores puntuaciones que grupos de sujetos en otros contextos; se puede llegar a sobrestimar presencia de simulación en pacientes con esquizofrenia, discapacidad intelectual o convulsiones psicógenas no epilépticas; y es una prueba robusta frente a sujetos que se entrenan en la prueba con el fin de no ser detectados.
Dado que la investigación en detección de simulación con muestras militares españolas son escasas, se planteó la necesidad de realizar el presente estudio dando continuidad, a su vez, a la primera investigación que se llevó a cabo en España con una muestra militar análoga27. El principal objetivo consiste en comprobar la utilidad del MMPI-2-RF, el PAI y el SIMS en la detección de simulación -por ser estas tres pruebas diagnósticas las más empleadas e investigadas a nivel nacional e internacional, tanto en ámbitos clínicos como forenses-. El segundo objetivo sería analizar qué escalas del MMPI-2-RF, PAI y SIMS clasifican mejor a los análogos y el tercero consistiría en comparar el poder predictivo de las tres pruebas en la detección de simulación de psicopatología, analizando fortalezas y debilidades de cada una de ellas.
En cuanto a las principales hipótesis que se plantean, para las escalas del MMPI-2-RF son que: Se encontrarán diferencias significativas en las escalas F-r, Fp-r, Fs y FBS-r entre la condición control y las condiciones análogas; no se encontrarán diferencias significativas en las escalas F-r, Fp-r, Fs y FBS-r entre las tres condiciones análogas; y el mayor tamaño del efecto se encontrarán en la escala F-r. En cuanto a las escalas del PAI, las hipótesis son que: Se encontrarán diferencias significativas en las escalas IMN, SIM y FDR entre la condición control y las condiciones análogas; no se encontrarán diferencias significativas en las escalas IMN, SIM y FDR entre las condiciones análogas; y el mayor tamaño del efecto se encontrará en la escala IMN. En cuanto al SIMS, se esperaría encontrar que la media del grupo control fuera significativamente inferior a las medias de los otros tres grupos en todas las escalas y que las escalas con mayores tamaños del efecto fueran Af y Total, por este orden.
MÉTODO
Diseño
Se empleó un diseño de análogos con cuatro variables independientes. Para ello, la muestra se dividió en cuatro grupos que, a su vez, dieron lugar a las cuatro condiciones experimentales. Se hizo un muestreo por conglomerados, formándose cuatro grupos con el personal de las unidades. No se empleó el procedimiento de aleatorización de la muestra, pues esto sería imposible de solicitar y realizar, dadas las necesidades del servicio. Sin embargo, si fue aleatoria la inclusión de cada sujeto en su condición experimental.
La condición experimental A (control) estuvo compuesta por 95 sujetos (27,8%), la B (análogo general) por 70 (20,5%), la C (análogo depresión) por 90 (26,3%) y la D (análogo ansiedad) por 87 (25,4%).
Las variables dependientes fueron las escalas de las pruebas. Así, se analizarán las relaciones entre las cuatro variables independientes y las dependientes, que fueron, en total, 111: 51 del MMPI-2-RF, 54 del PAI y 6 del SIMS. Estas escalas se describen en el apartado de “Instrumentos de medida”. Por motivos de espacio solo se muestran los resultados de las escalas de detección de simulación (13 en total) y se omiten las 98 restantes.
Se detectaron dos posibles variables contaminantes. La primera era que los participantes presentaran psicopatología real y, la segunda, que los participantes fueran expertos en trastornos mentales o en índices de detección de simulación de las pruebas. La primera estaba controlada porque los participantes estaban en activo y, además, son evaluados periódicamente en escalas clínicas. La segunda se estimó remotamente improbable. Además, se sabe que incluso los expertos en trastornos mentales son también detectados cuando se les pide simular.
Procedimiento
En cinco días consecutivos se citó a los participantes a las 9:00 de la mañana en el comedor de la unidad en la que estaban destinados. Cada día estaban citados entre 75 y 100 participantes, para formar parte de una condición experimental diferente. Puesto que el primer día la participación fue menor, el quinto día, se citaron 50 sujetos para aumentar la condición A.
Una vez reunidos los grupos, se les explicó el contexto de la investigación, la finalidad, confidencialidad, anonimato, voluntariedad, consentimiento informado y la duración aproximada del ejercicio. Posteriormente, se les pidió que firmaran el consentimiento informado, rellenaran los datos sociodemográficos y respondieran a tres pruebas psicológicas en el mismo orden en el que se iban a presentar, primero MMPI-2-RF, segundo PAI y tercero SIMS. Finalmente, se expuso el formato de cada una, así como el modo en que debían responderse siguiendo para ello las instrucciones estándar incluidas en los manuales de aplicación respectivos de cada prueba.
Cada condición experimental recibió diferentes instrucciones previas a la realización de las pruebas. Al grupo control se le pidió que respondiera con normalidad y sinceridad. Al grupo de análogos de psicopatología general, se le solicitó que contestara a las preguntas intentando aparentar encontrarse tan mal psicológicamente como para necesitar una baja laboral. Al grupo de análogos de depresión, se le dijo que respondiera como si estuvieran pasando por una depresión con necesidad de estar de baja laboral. Por último, al grupo de análogos de ansiedad, se le dijo que realizara las pruebas fingiendo ansiedad o estrés como para estar de baja laboral. A los tres grupos de análogos se les advirtió que las pruebas detectaban simulación y que debían intentar fingir sin ser detectados. A las condiciones C y D se les ofreció un incentivo económico de 50€ al que consiguiera fingir sin ser descubierto.
Instrumentos de medida
A todos los participantes se les aplicó un cuestionario de datos sociodemográficos y la batería de pruebas adaptadas a población española MMPI-2-RF17,41, PAI23,24,42 y SIMS31,32,43.
Descripción del MMPI-2-RF: Es un inventario de evaluación de la personalidad psicopatológica. Se compone de 338 ítems dicotómicos (verdadero/falso), seleccionados de entre los 567 ítems originales del MMPI-2. Fue desarrollado con el objetivo de proporcionar una evaluación alternativa al MMPI-2 que fuera más breve y psicométricamente más eficiente. Se aplica en 35- 50 minutos. Incluye seis conjuntos de escalas: validez, dimensiones globales, clínicas reestructuradas, problemas específicos, intereses y personalidad psicopatológica. Los coeficientes alfa de Cronbach medios para las escalas analizadas por Ben-Porath & Tellegen17 oscilaron entre 0,50 y 0,77 y entre 0,60 y 0,86 para las muestras de tipificación y clínica respectivamente. En la adaptación a población española se hallaron unos alfa de Cronbach que oscilaron entre 0,49 y 0,79 para la muestra de tipificación y entre 0,55 y 0,85 para la muestra clínica. Las correlaciones test-retest de las escalas oscilaron entre 0,66 y 0,89 (para mayor información ver citas17,41).
Los indicadores de exageración de síntomas que mejores resultados han demostrado en distintos contextos y particularmente en la detección de simulación en contextos médico-legales son44 45 46 47 48 49-50):
- F-r (Infrecuencia), Indicador general de exageración de síntomas. Está compuesta por 32 ítems que son respondidos infrecuentemente en la dirección de la escala por la muestra normativa. Elimina la antigua distinción entre F y Fb, sintetizando ambas en una única escala, F-r, que está compuesta por ítems de las distintas partes del cuestionario.
- Fp-r (Psicopatología infrecuente): Es un indicador de exageración de síntomas psicopatológicos graves. Esta escala fue desarrollada originalmente por Arbisi & Ben-Porath51) para complementar a la escala F, cuyas puntuaciones podían verse elevadas por la presencia de trastornos psicopatológicos graves. La escala Fp pretendía solucionar este problema seleccionando ítems infrecuentes, no en la muestra normativa como la escala F, sino en muestras con problemas psicopatológicos. Así, a diferencia de lo que sucede en F-r, las puntuaciones de Fp-r tienden a confundirse menos con trastornos o problemas graves.
- Fs (Quejas somáticas infrecuentes): Se utiliza para identificar a sujetos evaluados que informan de un elevado número de quejas somáticas raramente alegadas por pacientes en tratamiento médico. Esta escala sigue la misma estrategia de infrecuencia, pero aplicada, en este caso, a quejas somáticas. Wygant, Ben-Porath & Arbisi52 desarrollaron esta escala a partir de la identificación de 16 ítems que describían síntomas somáticos infrecuentes en dos grandes muestras de pacientes en tratamiento médico y en una muestra de pacientes con dolor crónico.
- FBS-r (Validez de los síntomas): Constituida por 30 ítems que forman un subconjunto dentro del conjunto completo de 43 ítems que componían la versión de esta escala en el MMPI-2 (FBS), está diseñada como complemento a la escala F del MMPI-2. Tiene como objetivo identificar individuos con síntomas no creíbles en el contexto de litigios civiles o solicitudes de incapacidad. Esta escala fue construida a partir de criterios empíricos y racionales buscando detectar una doble estrategia de simular un alto grado de afectación debido a la lesión y una minimización de los problemas emocionales y de personalidad previos al accidente o lesión. Es decir, una combinación de exageración y minimización presente en los contextos de reclamación por accidentes, lesiones o solicitudes de incapacidad53.
Descripción del PAI: El PAI es un cuestionario multidimensional de personalidad de uso principalmente clínico y forense. Está compuesto por 344 ítems, con un formato de respuesta de cuatro opciones (falso, no es cierto en absoluto/ ligeramente verdadero/ bastante verdadero/ completamente verdadero), que se aplica en 45 minutos. Proporciona resultados en 4 escalas de validez, 11 escalas clínicas, 5 escalas relacionadas con el tratamiento y 2 escalas interpersonales. Las escalas clínicas se corresponden con las agrupaciones psicopatológicas del DSM. De estas, 9 (más una escala de consideraciones para el tratamiento) se subdividen cada una en 3 distintas subescalas, formando 30 subescalas, que se centran en aspectos específicos dentro del amplio cuadro que forma el síndrome. Las propiedades psicométricas del PAI, en su versión original, mostraron una fiabilidad promedio test-retest de 0,83, una consistencia interna para el conjunto de escalas de 0,75 a 0,79 y unos valores medios de alfa de Cronbach de 0,81 a 0,86. En la adaptación española, la fiabilidad promedio test-retest fue de 0,82 y la consistencia interna de sus escalas obtuvo coeficientes alfa de Cronbach promedio de 0,78 para la muestra normal y de 0,83 para la muestra clínica (para mayor información ver citas24,42).
Los indicadores de exageración de síntomas del PAI que se analizarán son:
- IMN (Impresión Negativa): Es la escala inicial para valorar la presencia de exageración de síntomas. IMN está compuesta por nueve ítems con un contenido altamente improbable, atípico, psicótico, disfórico y orgánico que son raramente respondidos en la dirección de la escala tanto por muestra normal como por muestra clínica. Existen dos grupos de ítems dentro de esta escala. Un grupo presenta una visión distorsionada o exagerada de sí mismo y de sus circunstancias (p.ej., “mi destino ha sido ser infeliz desde el día en que nací”), mientras que otro representa síntomas extremadamente raros y extraños (“a veces veo sólo en blanco y negro”, “creo que dentro de mí hay tres o cuatro personalidades completamente diferentes”). Estos dos grupos representan dos grandes estrategias de detección de exageración de síntomas, amplificación e inverosimilitud de los síntomas.
- SIM (índice de simulación; Malingering Index)54: Fue creado por Morey como un índice más específico de simulación que fuera relativamente independiente del nivel de psicopatología que mostrara el sujeto. El SIM está compuesto por ocho características observadas en los perfiles de simulación comparados con los perfiles de pacientes con psicopatología (especialmente de trastornos graves).
- FDR (Función discriminante de Rogers; Rogers Discriminant Function)55: Fue creado para distinguir perfiles del PAI de pacientes clínicos genuinos, de sujetos a los que se les había instruido para simular distintos trastornos psiquiátricos. Para ello, calcula una puntuación basada en la ponderación de 20 escalas del PAI. Se ponderan negativamente ocho escalas del PAI, que suelen ser más altas en pacientes genuinos que en simuladores; por el contrario, se ponderan positivamente otras doce escalas que suelen ser más altas en muestras de simuladores que en pacientes clínicos genuinos. Esta escala comparte con el SIM su relativa independencia del nivel de psicopatología y su resistencia al entrenamiento para evitar ser detectado. No obstante, la investigación realizada no ha confirmado claramente su efectividad en contextos reales, por lo que Hawes & Boccaccini56 recomiendan que esta escala no sea usada por el momento hasta que otras nuevas evidencias garanticen su eficacia en estudios de grupos diagnósticos.
Descripción del SIMS: El SIMS es un instrumento de evaluación que consta de 75 ítems, con un formato de respuesta dicotómico verdadero-falso, que puede ser aplicado en 10-15 minutos. Su objetivo es la detección de síntomas simulados de carácter psicopatológico y neuropsicológico y puede resultar útil aplicado como medida de screening aislada o formando parte de una batería de evaluación más completa. Las estrategias que emplea para la detección de síntomas simulados, incluye síntomas improbables, infrecuentes, severidad de los síntomas y combinación de síntomas inverosímiles. Cuenta con seis escalas: Total, Psicosis (Ps), Deterioro neurológico (Dn), Trastornos amnésicos (Am), Baja inteligencia (Bi) y Trastornos afectivos (Af). En un estudio con 1005 participantes obtuvo un Coeficiente alfa de Cronbach de 0,94 para la escala Total; de 0,90 para Ps; 0,85 para Dn; 0,90 para Am; 0,69 para Bi; y 0,65 para Af; y una correlación test-retest de 0,7257) (para mayor información ver citas32,43).
Participantes
Los participantes del estudio son Militares de Tropa y Marinería (MTM) seleccionados de diversas unidades de la Fuerza del Ejército de Tierra (ET). La característica esencial de la muestra es que pertenecen a la estructura de la Fuerza Terrestre, cuyo cometido principal consiste en “prepararse para constituir, de forma rápida y eficaz, estructuras operativas terrestres para la realización de operaciones militares” (artículo 28.b del Real Decreto 872/2014).
La muestra estuvo compuesta por 342 participantes sanos, con edades comprendidas entre los 18 y 50 años, y con una media de edad de 26,06 años (d. t.= 5,40). El 91,2% eran varones y el 8,8% mujeres. En cuanto al estado civil, el 76,6% eran solteros, el 19% casados y el 4,4% separados/ divorciados. En relación al nivel de estudios, el 21,6% habían acabado 2º de Enseñanza Secundaria Obligatoria (ESO) o el antiguo 8º de Enseñanza General Básica (EGB). El 5,8% habían superado 3º de ESO o 1º del antiguo Bachillerato Unificado Polivalente (BUP). El 44,4% tenían los estudios de 4º de ESO, 2º de BUP o Grado Medio. El 10,2% alcanzaron el nivel de 1º de Bachillerato o 3º de BUP. El 12,3% obtuvieron el título de 2º de Bachillerato o el Curso de Orientación Universitaria (COU). El 4,1% tenía la Selectividad. El 0,3% contaban con estudios de Diplomatura y el 1,2% de Licenciatura. La media de antigüedad en las Fuerzas Armadas fue de 4,82 años (d.t. = 4,99) y la nacionalidad de los participantes fue mayoritariamente española (85,7%).
Análisis estadísticos
Todos los análisis estadísticos fueron realizados mediante el paquete estadístico SPSS 19.0. Se llevaron a cabo diferentes análisis en relación a los objetivos e hipótesis propuestos en este estudio. En primer lugar, se eliminaron del estudio los protocolos respondidos al azar o que presentaran respuestas en blanco. A continuación, se procedió a realizar un análisis descriptivo de diversas variables. Para ello, se calcularon frecuencias, porcentajes, estadísticos de tendencia central y dispersión dependiendo de la naturaleza de cada una de las variables incluidas. Asimismo, se utilizaron pruebas de Chi-Cuadrado de Pearson para comprobar la posible existencia de diferencias estadísticamente significativas entre los grupos de participantes en variables de tipo socio-demográfico y variables descriptivas, así como análisis de varianza (ANOVA) de 1 factor en el caso de variables cuantitativas.
En segundo lugar, se analizaron las posibles diferencias entre los grupos de participantes en aquellas variables dependientes especificadas en el apartado inmediatamente anterior Instrumentos de medida. Para ello, se realizó con cada una de las variables dependientes un análisis de covarianza (ANCOVA) de 1 factor, ya que los grupos diferían de manera estadísticamente significativa en dos variables cuantitativas: edad y antigüedad, obteniendo además el tamaño del efecto (eta cuadrado parcial) de las diferencias encontradas. Por último, se utilizaron comparaciones post-hoc a través de la prueba de Bonferroni, mediante la que se determina en qué grupos concretos se dan diferencias en el caso de que existan.
Adicionalmente se calcularon los tamaños del efecto con la d de Cohen, pues el estadístico más asentado en el campo de la simulación y con criterios específicos de interpretación es la d de Cohen58, con unos rangos de interpretación sugeridos más exigentes para éste ámbito que para otros59: d ≥ 0,75 = Tamaño del efecto moderado; d ≥ 1,25 = Tamaño del efecto grande; d ≥ 1,50 = Tamaño del efecto muy grande.
RESULTADOS
Utilidad del MMPI-2-RF en la detección de simulación de psicopatología
Se encontraron diferencias estadísticamente significativas en todas las escalas analizadas: F-r (F(3,336) = 163,82, p<,001), Fp-r (F(3,336) = 100,60, p<,001), Fs (F(3,336) = 122,79, p<,001), FBS-r (F(3,336) = 115,14, p<,001).
El grupo control presentó una media estadísticamente más baja en todas las escalas de validez y específicas de detección de simulación del MMPI-2-RF en comparación con los otros tres grupos de participantes. El grupo general presentó una media estadísticamente inferior a la obtenida por el grupo de depresión en las escalas F-r, Fs y FBS-r. El grupo depresión presentó puntuaciones estadísticamente superiores al grupo ansiedad en las escalas F-r y Fp-r (ver comparaciones post-hoc Bonferroni de la Tabla 1). El análisis de eta cuadrado parcial mostró unos tamaños del efecto desde 0,47 en FBS-r hasta 0,59 en F-r. Los tamaños del efecto medidos con la d de Cohen entre los grupos análogos y el grupo control oscilaron entre 2.10 y 4.02 (ver Tabla 1).
Nota.Los datos de las 4 primeras columnas corresponden a la media ± desviación típica;
η2parcial = eta cuadrado parcial;
*p<,05
**p<,01
***p<,001.
Se observa un patrón en el comportamiento de los grupos análogos en la exageración de síntomas. La tendencia es que el grupo de depresión destaca por encima del general y del de ansiedad, aunque las diferencias son significativas con respecto al grupo general para las escalas F-r, Fs y FBS-r (no para Fp-r) y con respecto al grupo de ansiedad para F-r y Fp-r (no para Fs, ni FBS-r). La tendencia también muestra que el segundo grupo que más exagera es el de ansiedad aunque las diferencias fueron significativas solamente entre este grupo y el general únicamente en la escala FBS-r (ver Gráfico 1).
Comparando las d de Cohen con las obtenidas por otros autores22,60 hay que destacar que en contextos análogos se obtienen mayores diferencias entre los grupos que en contextos reales (ver Gráfico 2). Además, las escalas con mayores diferencias entre grupos análogos de novatos y de expertos, así como entre pacientes honestos y sospechosos, son Fp-r y Fs. Sin embargo, cuando se trata de comparaciones entre pacientes honestos y simuladores expertos, la escala con mayores diferencias es F-r (ver Gráfico 2).
*Honesto- sospechoso = Comparación de pacientes diagnosticados de trastorno mixto ansioso- depresivo y clasifcados según honestidad/ sospecha de simulación. **Novato- experto = Comparación entre grupo de veteranos análogo no experto y grupo análogo experto; Novato- honesto = Comparación entre grupo de veteranos análogo no experto y grupo de veteranos honesto; Experto- Honesto = Comparación entre grupo análogo experto y grupo de veteranos honesto
Todos los sujetos análogos fueron detectados con el MMPI-2-RF.
Utilidad del PAI en la detección de simulación de psicopatología
Se encontraron diferencias estadísticamente significativas en todas las escalas analizadas: IMN (F(3,336) = 134,44, p<,001), SIM (F(3,336) = 82,97 p<,001) y FDR (F(3,336) = 82,97, p<,001).
El grupo control presentó una media estadísticamente más baja en todas las escalas específicas de detección de simulación del PAI, en comparación con los otros tres grupos de participantes. El grupo general presentó una media estadísticamente inferior a la obtenida por el grupo de depresión en las escalas IMN, SIM y FDR. Además, el grupo depresión presentó puntuaciones estadísticamente superiores al grupo ansiedad en las escalas IMN, SIM y FDR (ver comparaciones post-hoc Bonferroni de la Tabla 2).
Nota.Los datos de las 4 primeras columnas corresponden a la media ± desviación típica;
η2parcial =eta cuadrado parcial;
*p<,05
**p<,01
***p<,001.
En cuanto a los tamaños del efecto (eta cuadrado parcial) de las diferencias, destacar que se hallaron tamaños del efecto desde 0,38 en FDR hasta 0,55 en IMN. Los tamaños del efecto medidos con la d de Cohen entre los grupos análogos y el grupo control oscilaron entre 1.41 y 5.65 (ver Tabla 2).
En general, se aprecia un patrón en las escalas de detección de simulación entre los grupos (ver Gráfico 3). El grupo general y el grupo de ansiedad simulan de manera similar según las escalas de detección de simulación del PAI, pues no se encontraron diferencias significativas entre ellos. Además, el grupo de depresión obtuvo puntuaciones significativamente superiores en comparación tanto con el grupo de ansiedad como con el grupo general en las escalas específicas de detección de simulación.
Todos los sujetos análogos fueron detectados con el PAI.
Utilidad diagnóstica del SIMS en la detección de simulación de psicopatología
Se encontraron diferencias estadísticamente significativas en todas las escalas analizadas: Total (F(3,336) = 112,09, p<,001), Ps (F(3,336) = 51,48, p<,001), Dn (F(3,336) = 86,91, p<,001), Am (F(3,336) = 83,15, p<,001), Bi (F(3,336) = 31,78, p<,001) y Af (F(3,336) = 162,02, p<,001). El grupo control presentó una media estadísticamente más baja en todas las escalas del SIMS, en comparación con los otros tres grupos de participantes. El grupo general presentó una media estadísticamente superior a las obtenidas por el grupo ansiedad en las escalas Total, Ps, Am y Bi y una media estadísticamente inferior en comparación con el grupo de depresión en Af. Por último, el grupo depresión presentó puntuaciones estadísticamente superiores al grupo ansiedad en las 6 escalas (ver comparaciones post-hoc Bonferroni de la Tabla 3). El tamaño del efecto (eta cuadrado parcial) de las diferencias encontradas va desde 0,22 en Bi hasta 0,59 en Af. Los tamaños del efecto medidos con la d de Cohen entre los grupos análogos y el control oscilaron entre 1.34 y 6.31 (ver Tabla 3).
Nota.Los datos de las 4 primeras columnas corresponden a la media ± desviación típica;
η2parcial =eta cuadrado parcial;
*p<,05
**p<,01
***p<,001.
A grandes rasgos se aprecia un patrón entre los grupos (ver Gráfico 4). El grupo general y de depresión exageran de manera similar en todas las escalas, pues no se dan diferencias significativas entre ellos, excepto en Af. El grupo general y de ansiedad exageran de manera similar en las escalas Dn y Af, pero en el resto de escalas el grupo general exageró significativamente por encima al grupo de ansiedad. Además, el grupo de depresión exageró significativamente más que el grupo de ansiedad en todas las escalas.
Comparando los resultados obtenidos con los de Blasco & Pallardó60 en una muestra clínica -honesta y sospechosa-, se observan semejanzas entre el comportamiento de los grupos de análogos y la muestra sospechosa de exagerar con diagnóstico de trastorno mixto ansioso-depresivo remitidos por mutuas de trabajo para tratamiento psicológico (ver Gráfico 5). En el Gráfico 6 se incluyen los tamaños del efecto de las diferencias entre el grupo control con cada grupo análogo y el grupo clínico honesto y el grupo clínico sospechoso del mismo estudio de Blasco & Pallardó60. Estas d de Cohen muestran que las escalas del SIMS con mayores tamaños del efecto son Af, Total, Dn y Am.
Todos los sujetos análogos fueron detectados con el SIMS.
CONCLUSIONES
Las pruebas más empleadas en psicología forense son el MMPI en sus distintas versiones y el PAI61. Según Lally62, además, son las más recomendadas para evaluar simulación y según Rogers63 son las pruebas con más evidencias positivas para la detección de simulación recogidas en la comunidad científica. El SIMS, más enfocado a la evaluación de daño neurocognitivo, acumula no pocos estudios a su favor (p.ej. ver cita40). Estas tres pruebas, además, han demostrado evidencias favorables en muestras militares. En su conjunto, los resultados obtenidos permiten disponer de evidencias sobre la utilidad de las tres pruebas como herramientas de apoyo para la detección de simulación de trastornos mentales.
Los resultados obtenidos con el MMPI-2-RF, el PAI y el SIMS, muestran que los distintos grupos de análogos obtienen puntuaciones significativamente mayores en todas las escalas en comparación con el grupo control, a excepción de las escalas que evalúan buena imagen. Goodwin, Sellbom & Arbisi22 encontraron resultados similares en una muestra militar de análogos.
La escala específica de detección de simulación del MMPI-2-RF que mejor discriminó entre los grupos fue F-r, seguida de Fs, después de FBS-r y, por último, de Fp-r. Este resultado difiere del obtenido por Blasco & Pallardó60, quienes encontraron en dos muestras clínicas -una sospechosa y otra honesta- que la escala Fs era la que mejor diferenciaba entre ellas, seguida de Fp-r, F-r y FBS-r.
En los resultados obtenidos con el PAI, los análogos reportan puntuaciones estadísticamente inferiores al grupo control en las escalas de buena imagen, como era de esperar. Los índices específicos de exageración de síntomas del PAI (IMN, SIM y FDR), han diferenciado correctamente entre el grupo que simulaba psicopatología general del grupo que simulaba depresión y entre el que simulaba depresión y el que simulaba ansiedad. De estas tres escalas, IMN demuestra mayores diferencias, seguida de SIM y de FDR, confirmando los resultados de otros autores25 26 27 28 29-30. Además, el grupo que simulaba depresión puntuó significativamente más que los otros dos grupos en estas tres escalas de simulación.
El estudio realizado con el SIMS reporta resultados similares a los señalados por Smith & Burger31, ya que los distintos grupos de análogos obtienen puntuaciones significativamente mayores en todas las escalas en comparación con el grupo control. Además, en sintonía con otros autores60 61 62 63-64, en este estudio se ha encontrado que las escalas Af y Total son las que mayores diferencias significativas encuentran entre las distintas condiciones experimentales. A su vez se ha encontrado que los tres grupos análogos siguen la misma tendencia que la muestra clínica sospechosa de simular de Blasco & Pallardó60, lo cual es interesante porque dicho estudio60 se realizó en contextos reales.
Wisdom, Callahan & Shaw65 señalan que la capacidad del SIMS para hacer un screening general de las distintas áreas donde puede presentarse la simulación es una de las aportaciones más relevantes de la prueba. Sin embargo, tres de las cinco escalas específicas del SIMS evalúan aspectos de tipo neuropsicológico o cognitivo y solo una escala (Af) evalúa trastornos mentales más comunes de tipo no psicótico y no neuropsicológico. Por otra parte, Smith & Burger31 comprobaron en un diseño de análogos que cada grupo elevaba más la escala del SIMS del cuadro que estuviera simulando. En este estudio, el grupo que simulaba trastornos afectivos se diferenció significativamente -en la escala Af del SIMS- del grupo que simulaba psicopatología general y del que simulaba trastornos de ansiedad, puntuando por encima de los dos. Pero Af no ha diferenciado entre el grupo que simulaba psicopatología general del que simulaba ansiedad. Así, se puede decir, que los sujetos con una estrategia de simulación orientada a los trastornos del estado de ánimo o con sintomatología real de estos trastornos que quisieran exagerar, podrían encontrarse identificados en esta escala. Sin embargo, los sujetos con una estrategia de simulación orientada al estrés o la ansiedad o con sintomatología real de estos cuadros, podrían encontrar menos aspectos con los que identificarse.
Según Santamaría66, existe una íntima relación entre el tipo de diseño empleado y los tamaños del efecto que se esperan. Debido a que los sujetos a los que se les pide que simulen suelen ser más extremos en sus respuestas que los simuladores en contextos reales, es frecuente encontrar tamaños del efecto mayores en los diseños análogos que en los diseños en contextos reales. Por eso, la mayoría de las escalas de este estudio tienen un eta cuadrado parcial muy por encima de lo que se considera que reporta un tamaño del efecto grande (0,14).
Se ha observado una tendencia en el comportamiento de los grupos de análogos. La tendencia general en las tres pruebas es que el grupo que simulaba depresión obtuvo mayores puntuaciones en las escalas de detección. Pese al posible efecto que hubiera podido ejercer el incentivo económico en una simulación más sutil o disimulada, sin embargo, este efecto no se produjo. Esto puede deberse a que los estereotipos de la depresión son más generales e inespecíficos que los de la ansiedad y/o a que el estereotipo de la depresión lleva a creer que sus síntomas son más graves que los de los trastornos de ansiedad.
Las limitaciones del estudio son varias. La principal debilidad del estudio es la ausencia de una muestra clínica, por ello, al comparar sujetos que simulan un trastorno con otros que no sufren ninguno (en lugar de comparar sujetos que simulan un trastorno con otros que lo están sufriendo) se está analizando la sensibilidad de las pruebas pero no la especificidad -esto es, en qué medida las pruebas diferencian a los simuladores de los casos clínicos-. Esta limitación afecta a la generalización y alcance de los resultados. Por otra parte, quedaría pendiente hacer el estudio de la precisión clasificatoria mediante el análisis del Área Bajo la Curva; comprobar la utilidad diagnóstica del empleo combinado de las distintas pruebas; o el análisis de correlación entre los distintos indicadores de simulación.
En cuanto a las líneas de investigación futuras, se destacan varias alternativas. Para obtener puntos de corte más precisos y mejorar la especificidad, sería necesario incluir muestras clínicas reales sospechosas y no sospechosas de simular. Para conocer la capacidad predictiva de la prueba en personas expertas, habría que incluir una muestra experta en trastornos mentales, otra en pruebas diagnósticas y, una tercera, en índices de detección de las pruebas. Los estudios de prevalencia de simulación (en diferentes contextos ocupacionales -incluido el militar-) serían necesarios de cara a que los principales manuales de diagnóstico psiquiátrico se basaran en datos probados cuando incluyen la condición de “ser militar” entre los criterios de sospecha de simulación.