Introducción
Muchas investigaciones tratan de explicar la psicopatología y/o el bienestar psicológico teniendo en cuenta el modo en el que somos capaces de manejar nuestras emociones (Chervonsky & Hunt, 2017; Ford, Gross & Gruber, en revisión; Sloan et al., 2017; Visted, Vollestad, Nielsen & Schanche, 2018). Existe un amplio consenso al entender la regulación emocional como un proceso en el que el sujeto es capaz de influir en el tipo de emoción, así como en el momento y en el modo en que se expresa (Ford, Gross & Gruber, en revisión; Sloan et al., 2017). El Modelo de Proceso (Gross, 1998) es el marco teórico habitual en la explicación de las estrategias de la regulación emocional. El Modelo, por un lado, propone cuatro fases principales en el proceso de la generación de las emociones: a) presentación de situaciones o estímulos, b) identificación y significado de los mismos, c) selección de técnicas para manejar esas valoraciones, y d) implementación de respuestas para promover el cambio esperado. Por otro lado, el modelo incluye diferentes categorías de estrategias de regulación emocional en las diferentes fases del proceso: a) la selección de la situación y la modificación de la situación, b) el despliegue atencional, c) la revaluación cognitiva, y d) la modificación en la respuesta. Es posible que las personas tiendan a utilizar estrategias (o fallar en su uso) correspondientes a la misma categoría como por ejemplo la distracción, rumiación y mindfulness; todas ellas centradas en el grupo de despliegue atencional (Naragon-Gainey, McMahon y Chacko, 2017).
Además del Modelo de Proceso, otra forma de conceptualizar las estrategias de regulación emocional consiste en tener en cuenta modelos basados en estrategias específicas y su relevancia en el desarrollo y/o mantenimiento de los trastornos psicopatológicos. En este sentido, encontramos tres categorías de clasificación. La magnitud de la relación entre la estrategia de regulación emocional y los síntomas patológicos permitiría la clasificación en estrategias adaptativas o no adaptativas (Aldao & Nolen-Noeksema, 2012). No obstante, no todas las estrategias clasificadas como no adaptativas tienen repercusión psicopatológica ya que el éxito de una estrategia puede depender de las situaciones o los objetivos concretos. Por ejemplo, aunque la evitación puede considerarse una estrategia no adaptativa, apartar de la conciencia ciertos pensamientos negativos puede resultar beneficioso para llevar a cabo tareas con una fuerte demanda cognitiva. La segunda clasificación corresponde a estrategias cognitivas (rumiación, aceptación) y conductuales (consumo, evitación conductual). Las estrategias conductuales no siempre tienen como objetivo la regulación emocional y, cuando lo tienen, suelen estar asociadas a trastornos psicopatológicos como el abuso de sustancias o los trastornos de la alimentación (Aldao & Dixon-Gordon, 2014; Dixon-Gordon, Aldao & De los Reyes, 2015). Por último, clasificar en función de la capacidad de disposición de estrategias alude a que la ausencia o mal uso de las mismas se asociaría a síntomas psicopatológicos como los de la depresión, la ansiedad o los trastornos de la personalidad, entre otros (Gratz & Roemer, 2004).
El gran número de estrategias de regulación emocional existente permite utilizar más de una al mismo tiempo o para el mismo objetivo. En este sentido, se puede hacer referencia al término reciente "polirregulación" que alude a la capacidad de los sujetos para considerar múltiples objetivos y estrategias con el fin de dar respuestas diferentes en el proceso emocional (Ford, Gross & Gruber, en revisión). Esta capacidad requiere la comprensión e internalización del Modelo de Proceso y el uso de diferentes estrategias de regulación emocional para que no derive en una inadecuada selección de técnicas o una secuencia desorganizada y costosa para el sujeto.
Los estudios que han tratado de consolidar y definir la estructura de las estrategias de regulación emocional se han basado en los resultados obtenidos mediante instrumentos estandarizados (Naragon-Gainey, McMahon y Chacko, 2017; Seligowski & Orcutt, 2015). Los test son los instrumentos más empleados en los últimos años para la evaluación de la regulación emocional (Pérez-Sánchez, Delgado & Prieto, en revisión). Hacer balance de la calidad de esos instrumentos y realizar un análisis metodológico y exhaustivo de los mismos resulta esencial ya que en muchas ocasiones la redundancia empírica o la sobreestimación de factores puede derivar del instrumento de evaluación empleado. El estudio de las propiedades psicométricas de los test exige el análisis de los ítems, la fiabilidad de las puntuaciones, las evidencias de validez y la construcción de baremos (Muñiz, 2018).
La consistencia y precisión de las puntuaciones obtenidas en un test refleja la propiedad psicométrica denominada fiabilidad (Muñiz, 2018; Prieto y Delgado, 2010). En la Teórica Clásica de los Test (TCT) se evalúa la fiabilidad de las puntuaciones en un grupo de personas mediante diferentes estadísticos (coeficiente de fiabilidad y error típico de medida) que se estiman a partir de diversos procedimientos empíricos: equivalencia (formas paralelas), estabilidad (test-retest), consistencia entre las partes de una prueba (consistencia interna) y, en su caso, consistencia de las puntuaciones de distintos calificadores (inter-jueces) (Abad, Olea, Ponsoda & García, 2011; Prieto y Delgado, 2010). Los modelos psicométricos avanzados tales como el Modelo de Rasch hacen posible la estimación de la precisión del parámetro de cada persona y del parámetro de localización de cada ítem (error estándar). Además, permiten obtener estadísticos de fiabilidad a nivel del grupo de personas y de ítems (Person Separation Reliability e Item Separation Reliability) que tienen una interpretación análoga a los índices de fiabilidad en la TCT.
La concepción más reciente de la validez implica: a) evidencias basadas en la relación entre las puntuaciones del test y otras variables (marcadores de constructos), evidencias basadas en la relación entre las puntuaciones del test y un criterio de interés, y evidencias de estructura interna del test (Abad, Olea, Ponsoda & García, 2011; Prieto y Delgado, 2010).
Existe un amplio consenso en el estudio y análisis de todos estos aspectos psicométricos para la construcción, análisis y estandarización de un test. La Comisión Internacional de Test (ITC), la EFPA Standing Committee on Tests and Testing (SCTT), el Buros Center for Testing (BUROS), el Test Review System of the Committe onTests, el System for the Evaluation of Psychological Tests, el COTAN Evaluation system for test quality y el Cuestionario de Evaluación de Test (CET) son modelos metodológicos de referencia en la evaluación de la calidad de los test y de su uso adecuado. El CET (Prieto & Muñiz, 2000) fue el método estandarizado de evaluación de la calidad de cuestionarios diseñado por la Comisión de Test del Colegio Oficial de Psicólogos en España. En el año 2016 se publicó la versión revisada del modelo denominada Cuestionario de Evaluación de Test-Revisado (CET-R; Hernández et al., 2016) que incorpora avances y recomendaciones frente a la anterior.
En una revisión sistemática sobre la frecuencia de uso de los diversos instrumentos que evalúan la regulación emocional (Pérez-Sánchez, Delgado & Prieto, en revisión) se observó que el Difficulties in Emotion Regulation Scale (DERS, Gratz & Roemer, 2004) y el Emotion Regulation Questionnaire (ERQ, Gross & John, 2003) fueron los test más empleados en los últimos años. Lo cual justifica sobradamente nuestro objetivo de analizar, en el marco del CET-R, la calidad psicométrica de estos dos test.
METODOLOGÍA
Muestra
Para la selección de artículos se llevó a cabo una búsqueda en Scopus, una de las bases de datos de mayor cobertura en Ciencias de la Salud, Medicina, Tecnología y Ciencias Sociales permitiendo el acceso a resúmenes de artículos procedentes de más de 5000 editoriales. Se revisaron los artículos publicados desde el año 2013 al 2018 que contenían en el título, resumen o palabras clave el término emotion regulation, seleccionando los que incluían los test DERS y ERQ en el ámbito de la psicología. La búsqueda concluyó el 1 de Abril de 2019. Se revisaron todos los resúmenes para escoger los artículos empíricos que utilizaron el DERS y el ERQ para la evaluación de la regulación emocional. El número total de artículos analizados fue de 653, de los cuales 337 contenían el DERS y 316 utilizaron el ERQ.
Procedimiento
En cada artículo se examinó el año de publicación, los datos demográficos, el foco de estudio, los datos de fiabilidad y las evidencias de validez. También se tuvieron en cuenta las diferentes versiones utilizadas de ambos test. La información se organizó tomando en consideración tres apartados principales del CET-R (Hernández et al., 2016): a) descripción general del test, b) fiabilidad y c) validez. En la codificación de los datos, los infrecuentes casos dudosos se resolvieron mediante el consenso entre todos los investigadores.
RESULTADOS
Descripción de los test
El DERS es un instrumento destinado a la evaluación de las dificultades para la regulación emocional. Es un cuestionario de autoinforme en el que se indica la frecuencia con la que determinados comportamientos afectivos o estados emocionales corresponden a los del sujeto evaluado. El test consta de seis subescalas de las que, a continuación, se enumera la denominación en la escala original y el objeto de evaluación: a) nonacceptance (no aceptación de las respuestas emocionales), b) goals (dificultad para adoptar comportamientos dirigidos a objetivos), c) impulse (dificultad para el control de impulsos), d) awareness (falta de conciencia emocional), e) strategies (acceso limitado a estrategias de regulación emocional) y f) clarity (falta de claridad para identificar sus emociones). El DERS contiene 36 ítems con formato de respuesta tipo Likert y cinco categorías (desde 1=casi nunca, 2=algunas veces, 3=la mitad del tiempo, 4=la mayoría de las veces, 5=casi siempre). La calificación de este cuestionario se obtiene mediante las puntuaciones directas en las subescalas y en la escala total; las puntuaciones altas en la escala total indican dificultades en la capacidad para regular las emociones. Este instrumento incluye once ítems con codificación inversa (Tabla 1). El tiempo aproximado de aplicación es de cinco minutos y se administra en formato de papel y lápiz. La Tabla 2 refleja la descripción resumida del DERS. La adaptación al castellano se llevó a cabo por Hervás y Jódar (2008) con la denominación de Escala de Dificultades en la Regulación Emocional.
El ERQ es un cuestionario de autoinforme que evalúa la tendencia para regular las emociones teniendo en cuenta dos estrategias posibles: revaluación cognitiva o supresión expresiva. El ERQ pretende reflejar información sobre la experiencia emocional subjetiva del sujeto o - cómo se siente interiormente - y la expresión emocional o - cómo se muestran las emociones mediante el habla, los gestos u otras conductas -. El test está compuesto por dos subescalas: reappraisal (revaluación cognitiva) y supression (supresión). La primera contiene 6 ítems mientras que la segunda 4. En conjunto, el ERQ contiene 10 ítems con formato de respuesta tipo Likert y siete categorías que van desde completamente en desacuerdo hasta completamente de acuerdo. La calificación de este cuestionario se obtiene mediante puntuaciones directas en las subescalas; cuanto más alta es la puntuación, mayor es el uso de esa estrategia de regulación de la emoción en particular, por el contrario, las puntuaciones más bajas representan un uso menos frecuente. El tiempo aproximado de aplicación es de dos minutos y se administra en formato de papel y lápiz. La Tabla 2 refleja la descripción resumida del ERQ. Este cuestionario fue adaptado al español por Cabello et al. (2013).
Perspectiva teórica
La relevancia clínica que tienen las dificultades en la regulación emocional fue el motivo principal para construir el DERS. Se entiende así la regulación emocional como a) la conciencia y comprensión de las emociones, b) aceptación de emociones, c) control de impulsos y d) flexibilidad en la modulación de respuestas emocionales (Gratz y Roemer, 2004). La ausencia de estas habilidades o el mal uso de las mismas indicarían dificultades en la regulación emocional que pueden derivar en comportamientos no adaptativos, alteraciones clínicas o trastornos de personalidad, entre otros. En cambio, el ERQ se desarrolló teniendo en cuenta el Modelo de Proceso (Gross, 1998); existen diferentes etapas en la generación de la emoción complementadas por varios procesos de regulación. Los autores del ERQ seleccionaron e incluyeron deliberadamente las dos estrategias de regulación del Modelo más empleadas en la vida diaria, más fáciles de manipular en situaciones de laboratorio y correspondientes a momentos específicos y diferentes del Modelo de Proceso. Se trata de la revaluación cognitiva y de la supresión.
Validez
Evidencias basadas en las relaciones entre las puntuaciones del test y un criterio
El 67% de los artículos que utilizaron el DERS y el 68% de los que emplearon el ERQ tuvieron como foco de estudio la predicción de criterios. En ese caso, la regulación emocional actuaba como variable predictora o mediadora. La clasificación y la frecuencia de aparición de los criterios se realizaron teniendo en cuenta los datos correlacionales y los análisis de regresión en cada estudio. No obstante, para la evaluación e interpretación de los resultados se seleccionaron solo aquellos estudios que aportaban datos que permitían calcular los rangos y los promedios de las correlaciones entre los test de regulación emocional (la escala total del DERS y las dos subescalas del ERQ) y el criterio. Para interpretar los promedios se establecieron los siguientes rangos de valores basados en el CET-R (Hernández et al., 2016) y en Rosenthal y Rosnow (1984): bajo-medio (r < .35), medio (.35 < r < .55) y alto (r > .55).
En la Tabla 3 se observa que el DERS y el ERQ coincidieron en la predicción de la mayoría de los criterios a excepción del académico y del familiar. El DERS destacó en la predicción de 5 criterios (adicción, ansiedad, comportamientos, trastorno de la alimentación y trastorno postraumático) y el ERQ en la de 4 (ansiedad, comportamientos, emoción y social). La frecuencia de predicción del criterio ansiedad y comportamiento fue similar en ambos test. En esos dos criterios el promedio de las correlaciones fue significativamente superior cuando se utilizó el DERS Total (.35 >r < .55) que con el ERQ (r< .35). El criterio depresión, funciones cognitivas, emoción y estrés presentaron los promedios de asociación más altos en el DERS Total (r> .55). Aunque el criterio afrontamiento y psicopatología presentaron los promedios más altos con la subescala reppraisal y la subescala suppression del ERQ, respectivamente, todos los promedios se incluían en la categoría baja-media (r<.35). Por último, como datos extremos cabe destacar que las correlaciones obtenidas en algunos estudios diferían notablemente de la mediana en el criterio; se trataba mayoritariamente de estudios en los que se apreciaba diferencia en las características o tamaño de las muestras o en los test que median el criterio.
Evidencias basadas en la relación entre las puntuaciones del test y otras variables
En este apartado se optó por estudiar la relación entre el DERS y el ERQ, habida cuenta de que fueron construidos para medir el mismo constructo. En este sentido, se calculó el promedio de las correlaciones entre las diferentes subescalas de ambos test como evidencias de validez convergente. Solo 16 artículos reflejaron datos que permitieron estos cálculos (Tabla 4).
De acuerdo con el CET-R, el promedio de correlaciones es por lo general inadecuado (r<.35) a excepción de la relación entre la subescala suppression del ERQ y awareness del DERS, que es adecuado pero con algunas carencias (.35 < r < .50). Cabe destacar que la relación entre la subescala suppression del ERQ y la de impulse del DERS es muy pequeña (.08). Además, la subescala reappraisal mantiene relaciones inversas con el DERS mientras que con la de suppression son asociaciones directas.
Evidencias basadas en la estructura interna del test
De todos los trabajos seleccionados que emplearon el DERS (n=337), solo cuatro tuvieron como foco de estudio la estructura interna del test original y nueve obtuvieron este tipo de evidencias a partir de versiones adaptadas o modificadas (Tabla 5). En la mayoría de los estudios se realizaron análisis factoriales exploratorios de los ítems para identificar el número y la composición de los factores. Casi el 50% de los artículos mantuvo la estructura original con 6 factores y 36 ítems. En aquellos estudios con 5 factores solía eliminarse la subescala awareness dado que las cargas factoriales de los ítems lo aconsejaban.
En el caso del ERQ, solo un estudio analizó la estructura interna del test original y siete se centraron en otras versiones del ERQ. Todos los estudios mantuvieron los dos factores propuestos en la versión original (reappraisal y suppression), sin embargo en varios estudios (Enebrink, Björnsdotter & Ghaden, 2013; Gómez-Ortiz et al., 2016; Westerlund, M., & Santtila, 2018) se eliminó el ítem 1 (I control my emotions by changing the way I think about the situation I'm in) y/o el ítem 5 (When I want to feel less negative emotion (such as sadness or anger), I change what I'm thinking about) ya que no ajustaban al modelo factorial propuesto por los autores de la versión original.
Fiabilidad
El principal indicador de fiabilidad fue el coeficiente de consistencia interna á de Cronbach. La Tabla 6 muestra el número de coeficientes para cada escala o subescala de ambos test, el rango, el promedio y la valoración según el CET-R. Dado que el número de ítems está asociado positivamente con la magnitud del coeficiente, el valor promedio más alto correspondió a la escala total del DERS. Asimismo, el promedio de los coeficientes de la subescala reappraisal del ERQ es mayor que el de la subescala suppression, habida cuenta que la primera cuenta con un mayor número de ítems que la segunda. Con pocas excepciones, el tamaño de las muestras en los estudios de fiabilidad fue moderado (estudios con muestras grandes, N > 500, y muestras pequeñas, N < 200).
Ocho estudios que utilizaron el DERS proporcionaron coeficientes de estabilidad (test-retest), de acuerdo interjueces (ICC coeficiente de correlación intraclase) y/o coeficiente omega para expresar datos de fiabilidad. No fue posible establecer una valoración basada en el CET-R de estos últimos indicadores de fiabilidad debido a su escaso número y a que fueron presentados en valores de rango. Además, algunos estudios solo presentaron los datos de fiabilidad obtenidos en estudios anteriores o en el estudio original del test. En los estudios seleccionados se han utilizado diferentes versiones y/o adaptaciones del DERS. Se registraron seis versiones diferentes del DERS y doce adaptaciones a diferentes idiomas. La Tabla 7 refleja el nombre de la versión, autor y año de publicación, la muestra del estudio, la fiabilidad y la frecuencia de empleo de esa versión dentro de nuestra selección de artículos. La escala total del DERS en todas sus versiones reflejó coeficientes á de Cronbach excelentes (á > .85) según el CET-R. Con el DERS-M (Bardeen et al., 2016), una versión modificada del DERS, se obtuvo el coeficiente más alto (.97). Por el contrario, el coeficiente á de Cronbach de la subescala strategies de la versión argentina (Medrano y Trógolo, 2014) puede ser valorado como inadecuado (á < .60) según el CET-R.
Por otra parte, seis estudios mostraron coeficientes de estabilidad del ERQ, con un promedio adecuado (.65 < r <.75) en las dos subescalas. Dos estudios presentaron coeficientes omega y correlación r Spearman para expresar la fiabilidad de los resultados del test. Ocho estudios solo citaron los estadísticos de fiabilidad del estudio original. De la misma manera que en el DERS, se registraron diferentes versiones y adaptaciones del ERQ (Tabla 8), en concreto cinco nuevas versiones y catorce adaptaciones. En términos generales, la valoración del CET-R para los coeficientes á de Cronbach en cada subescala del ERQ fue adecuada (.70 < á < .80) en la mayoría de sus versiones o adaptaciones.
CONCLUSIONES
En primer lugar, la evidencia procedente de los estudios de validación de criterio corrobora lo que el análisis conceptual ya señalaba: que los test revisados, los más empleados para evaluar la regulación emocional, parten de distintos enfoques teóricos (Gratz & Roemer, 2004; Gross, 1998). Aunque el DERS y el ERQ se emplearon con la misma frecuencia para predecir criterios como los de "ansiedad" y "comportamiento", la mayor parte de los criterios predichos por cada uno de los test refleja el modelo teórico de partida. Es decir, las investigaciones llevadas a cabo con el DERS se centran en la funcionalidad de la regulación emocional y en sus consecuencias psicopatológicas, tales como adicciones o trastornos de la alimentación; por su parte, las llevadas a cabo con el ERQ se enfocan al proceso de generación de las emociones, destacando las dos estrategias de regulación emocional más empleadas en relación con criterios como calidad de vida o emoción.
Prestando atención al marco conceptual, cabe destacar también las evidencias de validez derivadas de la relación entre ambos test. A diferencia de la revaluación, la supresión y la mayoría de las estrategias evaluadas por el DERS tratan de regular la experiencia emocional cuando esta ya ha tenido lugar, por lo que alivian a corto plazo. Esto explicaría las correlaciones directas entre la subescala suppression del ERQ y el DERS e inversas entre la subescala reappraisal y el DERS. Además, la correlación más elevada (r=.40) aparece entre la escala awareness del DERS y la subescala suppression del ERQ indicando que la supresión de emociones y el conocimiento de las mismas son procesos ligados.
Los promedios de los coeficientes de consistencia interna, en términos generales fueron superiores en el DERS que en el ERQ, en la escala total frente al resto de subescalas del DERS, así como en la subescala reappraisal del ERQ con respecto a la de suppression. Estos resultados pueden explicarse en parte por el número de ítems que es diferente en el DERS (36 ítems; 6 en cada subescala) y en el ERQ (10 ítems; 6 en revaluación y 4 en supresión). A pesar de contar con diferentes versiones y adaptaciones, la inglesa/original ha sido la más empleada en ambos test. Los coeficientes á de Cronbach de la mayoría de las versiones o adaptaciones fueron similares a los de la original.
Los análisis factoriales (exploratorio y confirmatorio) fueron por excelencia las técnicas más empleadas para analizar la estructura interna del DERS, el ERQ o sus versiones/adaptaciones. Estos estudios mantuvieron la dimensionalidad propuesta en las versiones originales de ambos test.
Las diferencias de validez y fiabilidad entre el DERS y el ERQ pueden verse determinadas también por el número de categorías de respuesta de los test, en ambos casos impares, así como por la recodificación de los ítems inversos. El estudio de las categorías de respuesta resulta tan importante como el análisis y desarrollo de los ítems. La investigación apoya que lo ideal serían entre cuatro y seis categorías de respuesta, ya que incluir o reducir opciones atenuaría la precisión psicométrica y sostiene que es preferible opciones pares dado que las respuestas intermedias pueden generar ambigüedad (Simms, Zelazny, Williams & Bersntein, 2019). La combinación de ítems con codificación inversa y directa influye en la precisión de medida, la dimensionalidad, la variabilidad y la influencia en las respuestas de los examinados (Suárez-Alvarez et al., 2018).
La metodología psicométrica utilizada en los artículos analizados corresponde a la Teoría Clásica de los Test (TCT). Resulta de interés proponer investigaciones que empleen modelos psicométricos avanzados como el de Escalas de Calificación (Andrich, 1988), que permitan estudiar, además de la calidad de las categorías de respuesta, otros aspectos destacados como el escalamiento conjunto de personas e ítems y el funcionamiento diferencial de los ítems y que ofrezcan resultados sobre la fiabilidad, validez, análisis de ítems y dimensionalidad comparables a los obtenidos hasta ahora a través de modelos clásicos.