Introducción
La FDA (food and drug administration) autorizó los antidepresivos (AD) para el nuevo constructo DSM-III del trastorno depresivo mayor (TDM) basándose en ensayos clínicos controlados y aleatorizados (ECA) en los que los AD inhibidores selectivos de la recaptación de la serotonina (ISRS) y los duales de nueva generación eran superiores comparados con el placebo, con discreta significación estadística y escasa y dudosa significación clínica (1). No se hallaron diferencias entre los nuevos AD y los antiguos tricíclicos (2). De 39 ensayos remitidos a la FDA, solo el 14% encontró el medicamento superior al placebo (3). La respuesta al placebo era importante, llegando hasta el 35-45% en el tratamiento del TDM (3). Se estimó que solo el 18% de la respuesta al AD era atribuible al efecto farmacológico, dudándose si este era genuino o derivado de la ruptura del cegamiento por sus efectos perceptibles (1), como se deduce de comparar los AD con placebos activos (4).
La industria reaccionó restringiendo los criterios de inclusión en sus ensayos ECA, identificando y excluyendo a pacientes con alta respuesta al placebo y baja respuesta al medicamento, para maximizar la diferencia de resultados entre el placebo y el AD en estudio. Posternak (5) detectó hasta diez criterios de exclusión en los ECA de AD. Se descartan sistemáticamente a los diagnosticados de trastorno bipolar, de depresión psicótica, con ideación suicida, uso de tóxicos, ansiedad comórbida, intensidad insuficiente de la depresión, etc., hasta más del 90% de una muestra ordinaria de los tratados ambulatoriamente (6). Dado que los resultados seguían siendo pobres, la industria optó por multiplicar los ensayos hasta obtener el mínimo de los 2 positivos necesarios para la autorización del AD por la FDA, la mayor parte del resto no se publicaban (3,7).
El carácter generalizable de tales ECA queda en entredicho, y con ello las bases científicas de la práctica clínica con AD, que, aun defendiendo un uso prudente de fármacos solo discretamente superiores al placebo (1), permite la comercialización de otros AD menos eficaces aún y con mayor secundariedad (8), expandiéndose el uso de los más nuevos, más caros y sin ventajas comparativas (9), una práctica habitual desde la década de los 90 hasta hoy.
En esa década se produjo una explosión en la prescripción de AD (10), paralela a cambios sociales en la percepción de las causas y tratamiento de la depresión, hacia un encuadre cada vez más biológico (11). Argumentando la importancia epidemiológica y la carga asociada al TDM en términos de discapacidad y mortalidad (12), cuando no se revertía con un primer tratamiento con AD, algo habitual en la práctica ordinaria (13), se cambiaba de AD o se añadía otro fármaco a criterio de cada clínico, según su propia experiencia o guiado por consensos de expertos (14). Abandonada científicamente la hipótesis serotoninérgica de la depresión (15), esta práctica se defendía por una supuesta heterogeneidad biológica del TDM (16).
En este contexto de escepticismo hacia los ECA de AD, se realizó el estudio Sequenced Treatment Alternatives to Relieve Depression (STAR*D) para evaluar los principios teóricos y las creencias clínicas del manejo de la depresión resistente al tratamiento, en términos de síntomas, funcionalidad, satisfacción, carga de efectos secundarios, utilización de recursos sanitarios y costes estimados (17). Se pretendía definir qué tratamientos eran más efectivos para pacientes con TDM no respondedores a un primer tratamiento con AD y, eventualmente, a otros posteriores (17), o ante una respuesta parcial sin remisión completa, y determinar una secuencia específica de tratamientos (12). Se pretendía averiguar si las recomendaciones de los expertos estaban justificadas (12).
Descripción del STAR*D
El STAR*D fue un estudio de financiación pública presentado por su financiador, el National Institute of Mental Health de Estados Unidos (NIMH), como “el mayor estudio que se haya realizado para evaluar el tratamiento de la depresión (…) tanto en formato de atención primaria como especializada” (18). Dio lugar a unas 120 publicaciones para el año 2009 (19), es ampliamente citado y tuvo una intensa cobertura por parte del propio NIMH (20,21), un amplio eco en medios de comunicación generalistas y un gran impacto en el tratamiento de la depresión en todo el mundo (22).
“Dada la escasez de datos controlados [en pacientes del mundo real], los resultados deberían tener una importancia científica y de salud pública sustancial, porque se obtendrían en grupos/configuraciones de participantes representativos, utilizando herramientas de gestión clínica fácilmente aplicables en la práctica cotidiana” (17). El NIMH contrató el estudio en 1999 (23). El diseño del estudio, su justificación y antecedentes se publicaron entre 2003 y 2004 (12,17) y sus primeros resultados en enero de 2006 (24).
Se reclutaron 4.041 pacientes utilizando estrategias de marketing —folletos, newsletter y un video promocional— (12), sin excluir condiciones médicas o psiquiátricas comórbidas y con una duración del episodio depresivo mayor o igual a dos años. Se incluyeron pacientes con una puntuación de 14 o más en la escala Hamilton Rating Scale for Depression (HRSD) —menor a la habitual en los ECA y similar a la de los pacientes deprimidos en tratamiento ambulatorio (6)—, excluyendo aquellos con un diagnóstico principal de trastorno bipolar, psicosis, trastorno obsesivo compulsivo o trastorno de la conducta alimentaria. Un 77,8% o más de los pacientes reclutados por el STAR*D habrían sido excluidos por los ECA de la industria (25).
El ensayo incorporaba un programa “educativo” que definía la depresión como una enfermedad tratable como cualquier otra, como la diabetes o la tensión arterial, explicando los mecanismos de acción de los fármacos (26).
Se incluyeron llamadas telefónicas —antes de la cita, el mismo día si se fallaba, al día siguiente, cartas al médico tratante a las 48 h., etc.—, un procedimiento “más agresivo que el habitual, justificado para asegurar la retención y detectar cualquier signo de empeoramiento o cuestiones de seguridad del paciente deprimido” (12). Se ofrecieron compensaciones económicas para las evaluaciones telefónicas, desde 10 a 25$, según el tiempo que invertía el paciente (12).
Se utilizó como primera medida de resultados el constructo de “remisión” — una puntuación de menos de 8 en la HRSD— y no el de “respuesta” —una reducción del 50% o más de los síntomas depresivos en el HRSD—; es decir, una exigencia más alta de lo habitual.
Se realizó una “atención basada en mediciones”, que implicaba medir los síntomas y los efectos secundarios en cada visita clínica para permitir una dosificación suficiente que “asegurara maximizar la probabilidad de obtener la remisión y que quienes no la obtuvieran fueran realmente resistentes a la medicación” (24). Estas herramientas de manejo clínico — escalas QIDS (Quick Inventory of Depressive Symptomatology)— se administraban en cada visita por los coordinadores de investigación clínica, encargados asimismo de la psicoeducación.
Se realizaron hasta 4 fases, pasos o etapas por paciente, ensayos aleatorizados abiertos de 12 semanas de duración, con dos semanas adicionales para pacientes que se consideraran próximos a la remisión. Si esta no se producía, se animaba al paciente a pasar a la siguiente fase, pudiendo escoger en coordinación con su médico a partir de la fase 2 el tipo de estrategia a utilizar: de potenciación —añadir otro antidepresivo al que estaba tomando— o de cambio —sustituir un antidepresivo por otro (12)—, un procedimiento de asignación al azar de aleatorización de incertidumbre estratificada (equipoise-stratified randomization) defendido como más próximo al mundo real, donde algunas opciones de tratamiento no son aceptables para el paciente (27).
La fase 1 fue un tratamiento con citalopram (24). En la fase 2 la estrategia de cambio incluyó sertralina, venlafaxina y bupropion (16) y la de potenciación, buspirona y bupropion (28). En la fase 3, la estrategia de cambio fue con nortriptilina y mirtazapina (29), y la de potenciación, con litio y hormona tiroidea (30). La fase 4 utilizó la tranilcipromina —un IMAO—, comparándola con una combinación de venlafaxina y mirtazapina (31). En ninguna se comparó la(s) molécula(s) activa(s) con el placebo. Se elije el citalopram en primera instancia, y cada secuencia posterior propuesta en caso de fracaso de la anterior, con base en estudios previos de eficacia y seguridad y en los mecanismos de acción atribuidos a los AD y al resto de medicamentos, buscando alternarlos o potenciarlos (3) según la teoría de la heterogeneidad biológica del TDM (32). Se consideraron, sin incluirlas, la terapia electroconvulsiva y la estimulación magnética transcraneal por motivos de aceptabilidad y falta de datos de eficacia a largo plazo, respectivamente. Fueron once combinaciones diferentes de fármacos y cinco comparaciones directas.
En la fase 2 estaba prevista la terapia cognitivo conductual como opción de cambio, pero pocos pacientes la consideraron una alternativa aceptable, por motivos poco claros1, por lo que se excluyó de los análisis de cambio y potenciación de tratamiento de la fase 2 (16,28). No obstante, más tarde fue objeto de un análisis separado que encontró que para las personas que la eligieron, los resultados fueron similares a los de la estrategia de cambio o potenciación farmacológica (34).
Se permitió el uso de otros medicamentos no objeto del estudio —benzodiacepinas y trazodona para la ansiedad e insomnio, medicamentos para la disfunción sexual…, salvo antipsicóticos y estabilizadores diferentes al litio (13,24)—, de los que se hizo un uso generoso: por ejemplo, en la fase dos, a un 17,1% de los pacientes se le prescribió trazodona; al 15,5%, un sedante o hipnótico; y al 11,8%, un ansiolítico (16). Se permitieron cambios en las dosis y visitas extras en caso de reemergencia sintomática y/o efectos secundarios.
Se invitó a quienes lograron la remisión, en cualquier fase, a participar en una fase de seguimiento durante 12 meses, lo mismo que a los pacientes que, sin alcanzarla, no deseaban pasar a la siguiente etapa del tratamiento al implicar cambios en la medicación. El protocolo de seguimiento “recomienda vivamente que los participantes continúen con el/los mismo(s) medicamento(s) que resultaron efectivos en el tratamiento agudo y en las mismas dosis” de acuerdo con la guía clínica de la American Psychiatric Association (APA) de esa época (35), aunque permitía a los médicos tratantes introducir “cualquier psicoterapia, medicación o cambio de dosis” que juzgaran necesarios para mantener los resultados positivos durante el seguimiento, incluyendo citas programadas adicionales en caso de recurrencia de los síntomas depresivos y/o aparición de efectos secundarios intolerables (32,36).
Resultados publicados
En enero de 2006 se publicaron los resultados de la primera fase del tratamiento, con algo menos del 28% de remisiones según el HRSD, que sube al 33% de remisiones considerando la escala QIDS (24). En marzo se publican los de la segunda fase, donde un 25% de pacientes remiten al cambiar el fármaco, sin diferencias entre los medicamentos (16), y entre el 20 y el 30%, según escalas, con la estrategia de potenciación, sin diferencias entre fármacos (28).
En noviembre de 2006, se publica un amplio informe sobre los resultados de las fases agudas y de la fase de mantenimiento que informa de un 67% de remisiones acumulativas —36,8%, 30,6%, 13,7% y 13,0% para la primera, segunda, tercera y cuarta fase de tratamiento, respectivamente, según el QIDS—. No hay diferencias entre las alternativas de cada fase de tratamiento (32). El porcentaje de remisiones disminuye en cada fase: “cuantas más fases de tratamiento son necesarias, menor es el porcentaje de remisiones (sobre todo, en la tercera y la cuarta) y mayor el de recaídas en la fase de mantenimiento” (32).
Coincidiendo con este artículo, en noviembre de 2006, el NIMH informó mediante nota de prensa: “En el curso de las cuatro fases del tratamiento, casi el 70% de los que no abandonaron el estudio quedaron libres de síntomas” (21, punto 5). Según su director, Thomas Insel: “Al permanecer en tratamiento y trabajar estrechamente con los clínicos para adoptar los siguientes pasos más apropiados, muchos pacientes pueden encontrar el tratamiento único o combinado que les lleva a librarse de los síntomas” (20). El hallazgo tuvo repercusión en los medios en los mismos términos comunicados por el NIMH (22).
Sesgos patentes a la lectura de los artículos publicados en 2006
Pigott et al. describen hasta siete sesgos patentes de diversa naturaleza e importancia en los artículos publicados en 2006. Todos ellos aumentan el porcentaje de pacientes en remisión (37–39). Los principales son:
Sustituir la medida primaria de resultados, puntuación en el HRSD administrado por evaluadores ciegos, por otra secundaria, el QIDS-SR (Quick Inventory of Depressive Symptomatology- Self Report), una de las “herramientas de manejo clínico” del STAR*D usada por los coordinadores de investigación clínica no ciegos, pensada para guiar el tratamiento. En los resultados de la fase 1, se publican ambas medidas (24), pero en las fases posteriores y en el informe general solo se publican las medidas QIDS-SR (32). Cambiar las medidas pre-especificadas de resultados por otras secundarias con mejores resultados es un sesgo habitual en los ECA financiados por la industria para inflar los resultados; un clásico (40) que es objeto de preocupación actual (41).
Se cambian los criterios de elegibilidad de la fase 1 en las fases 2-4. Se incluyeron 607 pacientes inicialmente excluidos en el artículo de la fase 1 porque su puntuación inicial era <14 en el HRSD (es decir, como máximo solo síntomas depresivos leves) y también otros 324 pacientes que inicialmente se informaron como excluidos al carecer de la evaluación inicial HRSD.
Se excluye de los análisis posteriores a los 370 pacientes que abandonaron el tratamiento tras la primera visita, que, según el artículo de la fase 1, deberían considerarse como no remisiones (24).
Se elabora una “tasa teórica acumulativa de remisión” bajo la cláusula condicional de que “esta estimación asume que no se produzcan abandonos de tratamiento, y que quienes dejen el estudio tendrán las mismas tasas de remisión que quienes continúen en el protocolo” (32), algo que simplemente no es cierto en el mundo real y tampoco lo fue en el STAR*D, puesto que son más los pacientes que abandonan en cada fase que los que remiten (37,39).
Tomadas en conjunto, estas desviaciones del protocolo inicial suponen pasar de una “tasa de éxito teórico” del 67%, tasa obtenida según la cláusula de que no se produjeran abandonos o que quienes abandonaran obtuvieran las mismas tasas de remisión que los participantes en el estudio, a un 38% de remisiones reales, tasa obtenida simplemente ateniéndose a los datos publicados de remisiones y de participantes en el estudio (22,33).
Tan importante, o más, es el hecho de que, en el artículo resumen de resultados, los investigadores del STAR*D no revelan cómo interpretar los datos de supervivencia trimestre a trimestre que presentan en diversos gráficos durante los 12 meses de seguimiento tras la remisión (32).
Deconstruyendo el STAR*D
Para conocer los entresijos del estudio, Pigott solicitó bajo el amparo de la Ley de Libertad de Información2 (FOIA) el contrato del STAR*D, obteniendo el protocolo del estudio y su plan analítico (36).
El protocolo corrobora los sesgos ya descritos: la distinción entre la medida principal de resultados de los investigadores ciegos (HRSD) y la secundaria de los clínicos no ciegos prevista para ajustar el tratamiento (QIDS-SR), los criterios de elegibilidad y de exclusión, y el hecho de categorizar como no remisiones los abandonos tras la primera visita, todos claramente establecidos en el protocolo (36).
El Protocolo de Investigación del STAR*D presenta en su figura 7 unas predicciones paso a paso de los abandonos y del número de pacientes que obtendrían una respuesta satisfactoria y pasarían a la fase de seguimiento. Se declara que “obtuvimos estas estimaciones mediante tres experimentados clínicos (Drs. Fava, Rush y Thase), que, independientemente, llegaron a estimaciones sorprendentemente cercanas unas de otras…, estimaciones hipotéticas procedentes en gran medida de los resultados de los ECA publicados” (36, p. 31). El propósito inicial de estas estimaciones era calcular el número de pacientes que a lo largo del estudio estarían disponibles para su aleatorización en las fases 2-4 con objeto de asegurar un poder estadístico suficiente en las comparativas diseñadas. No obstante, se convirtieron en la hipótesis central del STAR*D, sometiendo a prueba hasta qué punto se podían predecir los resultados agregados “fase a fase” de un tratamiento con antidepresivos óptimamente administrado y basado en un modelo secuencial de “tratamiento hasta la remisión”.
Comparar esta predicción con lo que sucedió es importante, ya que los investigadores del STAR*D no encontraron diferencias significativas entre ninguna de las 11 combinaciones “medicamento versus medicamento” del tratamiento. Ningún análisis post-hoc informó de predictores significativos de los resultados de tratamientos farmacológicamente diferentes. Por ello, el STAR*D no puede ofrecer una guía para el “siguiente paso” que permita confiar en mejorar los resultados tras el fracaso de un tratamiento AD.
Se acepta que las tasas de abandono de un ensayo constituyen una “medición poderosa de la efectividad y aceptabilidad del tratamiento” (42), y los investigadores del STAR*D lo tuvieron presente en su práctica intensa para mantener a los pacientes en tratamiento y maximizar su probabilidad de lograr la remisión (38), pero no para publicar sus resultados, siendo esencial incluir los abandonos para evaluar los mismos.
La Figura 1 muestra fase-a-fase el porcentaje de pacientes que deberían haber sido tratados con éxito y pasar a la fase de seguimiento, la tasa de remisión teórica del STAR*D y lo que realmente ocurrió, según los datos del artículo de resultados (32). Mientras las tasas de predicción (73,8%) y de éxito teórico (67%) son similares, divergen ampliamente con lo ocurrido realmente.
La duración de los efectos del tratamiento es aún más decepcionante. En la fase 1, solo el 17,8% de los pacientes tratados con citalopram logran la remisión y no han padecido recaídas confirmadas en una o más de las 12 evaluaciones mensuales telefónicas con el QIDS-SR. Tras las cuatro rondas de combinaciones de tratamiento, la tasa acumulada de pacientes sin una recaída confirmada mejora únicamente hasta el 23,5%. Si sumamos los abandonos, solo un 2,7% de los pacientes obtienen un QIDS-SR de remisión tras las cuatro rondas de tratamiento AD sin recaer o abandonar, teniendo en cuenta los resultados de los meses del 10 al 12 del periodo de seguimiento.
La Figura 2 presenta las tasas de efectos secundarios intolerables y los abandonos por fases del tratamiento.
Cada cambio en el tratamiento implica un aumento en las tasas de efectos adversos intolerables de la nueva medicación prescrita, comparada con la fase previa, aumentando del 16,3% de la fase 1 al 30,1% en la fase 4. Se observa la misma tendencia al abandono del tratamiento, desde el 28,1% en la fase 1 al 42,3% en la fase 3. Esto constata el aumento del riesgo a medida que se pasa de la fase uno a la cuatro, relacionado con cada variación del tratamiento.
En resumen, de los 1.518 pacientes en remisión que habían entrado en el seguimiento, el 37,6% de los pacientes correctamente reclutados, solo 108 siguen en remisión a lo largo del ensayo durante los doce meses del seguimiento. Todos los demás o abandonaron o recayeron en una depresión como mínimo moderada. Dado que fueron 4.041 los que ingresaron en el estudio, esto representa una tasa de remisión mantenida al finalizar el año de seguimiento del 2,7%, muy lejos del 67 % proclamado por los autores.
El STAR*D fue un ensayo fallido, pero demostró que “los principios teóricos y las creencias que guían en la actualidad el manejo de la depresión resistente al tratamiento” eran totalmente inválidos. El valor sumatorio de las fases 2-4 de combinación de tratamientos medicamento-medicamento para los pacientes “resistentes al tratamiento” de la fase 1 fue mínimo, negativo para un número sustancial y en continuo aumento si incorporamos al análisis la probabilidad de efectos secundarios intolerables y/o los abandonos del tratamiento que acompañan cada cambio de medicación.
“Lecciones aprendidas” del STAR*D
Tras la publicación de las fases 1 a 4 del STAR*D y el resumen de resultados en 2006, sus investigadores publicaron numerosos artículos secundarios, muchos de escasa relevancia clínica (19). Mantienen los resultados presentados en 2006 y se olvidan del carácter especulativo de la “tasa teórica acumulativa de remisión”, basada en la cláusula de que “no se produzcan abandonos de tratamiento, y quienes abandonan el estudio tendrán las mismas tasas de remisión que los que permanezcan”. Afirman que “tras cuatro tratamientos optimizados y bien administrados, aproximadamente el 70% de los pacientes obtienen la remisión” (43), como si en realidad hubiera sucedido eso (cf. Figura 1).
En varios artículos, ofrecen directrices prácticas denominadas “lecciones aprendidas” en línea con las declaraciones del NIMH (20), tanto en lo referente a algoritmos o guías clínicas como a la atención basada en mediciones (44), y, además, en términos de política, organización sanitaria (45) y aplicabilidad a la atención primaria, donde más AD se prescriben (46–48). De hecho, proponen el modelo del STAR*D como el estándar asistencial para la práctica psiquiátrica en el TDM (39).
Pasan de puntillas sobre el fracaso de los algoritmos de potenciación y sustitución del STAR*D, haciendo hincapié en la atención basada en mediciones y en la necesidad de continuar el tratamiento hasta la remisión (46–48): “La depresión puede tratarse con éxito por los médicos de atención primaria en condiciones del ‘mundo real'. Más aún, no es tan importante el medicamento o medicamentos a usar en concreto como seguir un plan racional: prescribir medicación antidepresiva en dosis adecuadas, monitorizar los síntomas del paciente y los efectos secundarios, y ajustar el tratamiento en consecuencia, cambiando de medicamento o añadiendo otros al tratamiento únicamente después de un intento de tratamiento adecuado” (46).
Resulta claro que “el medicamento concreto utilizado no es tan importante”, puesto que el STAR*D no facilita una guía del siguiente paso para mejorar los resultados (39). En cuanto a la atención basada en mediciones, se insiste en su alta calidad: “Se facilitó una atención de alta calidad (atención basada en mediciones). Como consecuencia, los resultados de este informe pueden superar los obtenidos hoy en la práctica cotidiana, en la que ni los síntomas ni los efectos secundarios se miden regularmente y en la que hay gran variabilidad en las dosis y los tiempos de tratamiento utilizados por los clínicos” (46).
Como Pigott et al. observan (38,39), es necesaria una gran cautela al tratar los resultados mediante los sistemas de medición QIDS/HRSD, ya que no ponderan diferencialmente los síntomas nucleares de la depresión —p.ej., estado de ánimo, culpa, ideación suicida o anhedonia— y los accesorios —p.ej., apetito, insomnio, o agitación— ni la autoevaluación del propio paciente sobre la importancia relativa de cada uno de ellos. Estamos muy lejos de la evaluación de síntomas, funcionalidad, satisfacción y carga de efectos secundarios prometida al presentar el estudio (17) y nunca publicada (38).
Se insiste en que el objetivo del tratamiento es la remisión (el completo alivio del episodio depresivo) en lugar de la respuesta (solo mejoría sustancial), puesto que la remisión está asociada a un mejor pronóstico y a una mejor funcionalidad (46): “Aumentar la primera medicación puede ser una manera efectiva para que las personas con depresión se liberen de los síntomas” (20). Como ya se ha dicho, el STAR*D define la remisión como una puntuación HRSD <8. Aunque es un criterio frecuente para tipificar la remisión, esta puntuación no es en absoluto sinónimo de “alivio completo de un episodio depresivo” o de estar ”libre de síntomas”, pues el paciente puede presentar hasta 7 síntomas HDRS, entre ellos el ítem “¿Le parece que la vida no merece la pena de ser vivida?”, y ser considerado de intensidad leve.
Esta atención basada en mediciones puede ser perjudicial para el paciente y llevarle a resultados peores que el tratamiento ordinario si se le anima, basándose en cifras muy simplistas y no en una clínica individualizada, a que entre en el siguiente ensayo (37,39). Al alentar al médico cuyos pacientes obtienen una mejoría “sustancial pero incompleta” con un AD a “cambiar de medicamento o añadir otros nuevos al tratamiento” en su búsqueda de una puntuación HRSD menor de 8, se comete el mismo error, subestimándose los riesgos de cada uno de estos cambios, a saber, las tasas de intolerancia al tratamiento en aumento fase a fase y los abandonos del mismo, evidentes en el STAR *D (39). Respecto al mejor pronóstico a largo plazo de la remisión respecto a la respuesta parcial, en el STAR*D, tanto el grupo de “re-misión” como el de “solo mejoría sustancial” obtuvieron tasas muy altas de recaída confirmada durante el seguimiento (Figura 1).
Afirman que “no se encontraron diferencias estadísticamente significativas en resultados entre los pacientes tratados en atención primaria y en formatos psiquiátricos cuando se practica una atención basada en mediciones… Así, los médicos de atención primaria, que atienden a la mayoría de pacientes deprimidos, pueden encargarse razonablemente del tratamiento de la depresión, al menos en las primeras dos fases del tratamiento” (48). Parecen proponer una clínica “manualizada” basada en algoritmos y en la atención basada en mediciones del STAR*D, criticada más arriba, sin considerar la percepción del paciente, su funcionalidad y su calidad de vida. No parece necesaria una formación especializada para ello y podría practicarse en diferentes niveles de la organización sanitaria. Nada nos dice respecto a la efectividad relativa de los médicos generalistas y los psiquiatras en el tratamiento de la depresión.
Finalmente, dados los decepcionantes resultados de la fase de seguimiento del STAR*D, con sus muy altas tasas de recaídas y/o abandonos de tratamiento, las guías clínicas que fomentan un uso indefinido en el tiempo de los antidepresivos (“en general, el tratamiento que fue efectivo en las fases agudas y de continuidad debe usarse en la fase de mantenimiento” (49)) no pueden basarse en este estudio.
Las tasas en aumento, fase a fase, de la intolerancia a los medicamentos, los abandonos del estudio y las recaídas a lo largo de las fases y el periodo de mantenimiento son los tres elefantes en la habitación del STAR*D, y otras tantas refutaciones de los “principios teóricos y creencias clínicas” que eran las creencias básicas para diseñar este estudio. Realmente, las creencias de la época eran “mitología” (12).
Tras las Críticas de Pigott et al.
Tal como se realizaron los análisis del STAR*D y se comunicaron sus resultados, se creó una narrativa a favor de un modelo agresivo de tratamiento del TDM, cambiando los fármacos y combinándolos, buscando una remisión basada en mediciones, que no concuerda con los resultados reales de este estudio, no superiores al tratamiento habitual (39).
La publicación de dos artículos previos de Pigott et al. (37,38) fue objeto de 2 cartas al director (50, 51) y dos editoriales (52,53). Ninguno defiende los resultados del STAR*D, calificándolo de estudio de baja calidad (51) y fallido en cuanto a sus resultados (52,53). Ninguno de los investigadores del STAR*D ha publicado hasta la fecha una réplica, y el American Journal of Psychiatry, que publicó los principales artículos STAR*D, rechazó publicar las críticas de Pigott (54).
Ninguno de los medios de comunicación generalistas se hizo eco de las críticas de Pigott (22). El Medscape Medical News escribió sobre ello y preguntó su opinión a Maurizio Fava, uno de los principales investigadores del STAR*D, que respondió: “Creo que el análisis [de Pigott] es razonable y no incompatible con lo que nosotros informamos”, reconociendo el fracaso del estudio para identificar “robustas ventajas de los AD respecto al placebo” y “la escasa eficacia a largo plazo de los AD” (55).
Situación actual
Diez años después de la presentación de los resultados, el STAR*D mantiene su influencia.
La prescripción de antidepresivos sigue creciendo y se mantiene la enorme popularidad entre prescriptores y consumidores de ISRS (56); en especial, en atención primaria y ciertos tramos de población, como los mayores (57). En Inglaterra, se dobló la prescripción de AD entre 2005 y 2015, igual que en Australia entre 2000 y 2014, y los AD, frecuentemente en combinación entre sí y con otros fármacos, son la categoría de fármacos más utilizada en los Estados Unidos, donde los usan un 13% de la población (58). Es una tendencia que puede continuar, puesto que se enfatiza la pesada carga social y económica que suponen los TDM (59) y la brecha existente entre la epidemiología y las personas realmente tratadas, abogando por redoblar esfuerzos para su captación y tratamiento (60).
En el último metaanálisis de estudios ECA, los ISRS resultan discretamente superiores al placebo, diferencia de escasa significación clínica, sea cual fuere la gravedad de la depresión. Ningún estudio contra placebo activo fue hallado, y en estos estudios apenas se facilitan datos sobre el comportamiento suicida, la calidad de vida y los efectos a largo plazo. Sus autores afirman: “Los ISRS pueden tener efectos estadísticamente significativos sobre los síntomas depresivos, pero todos los ensayos analizados padecen alto riesgo de sesgos y el significado clínico de los resultados parece cuestionable. Los ISRS aumentan significativamente el riesgo de efectos secundarios graves y menos graves. El potencial efecto beneficioso de los ISRS se ve sobrepasado por sus efectos adversos” (61).
Se siguen autorizando nuevos AD que se muestran menos efectivos que los AD ya disponibles, e incluso menos efectivos que el placebo en un subconjunto sustancial de ensayos (62), y que no aportan nada al tratamiento del TDM (9), salvo quizá mayores riesgos (63).
Respecto a la “alta calidad del tratamiento basado en mediciones”, sigue cuestionada la validez de la HDRS, mayoritariamente utilizada en estos estudios, en particular a la hora de definir una respuesta satisfactoria o la remisión completa (61), o simplemente la translación de los cambios en las puntuaciones HDRS a cambios significativos en la clínica del paciente (64).
La guía de la APA (49) cita más de 15 artículos del STAR*D, entre ellos, todos los de los resultados de las diversas fases. Dedica un apartado propio para describir el estudio (49, p. 97) y es su principal fuente de evidencia para el tratamiento basado en mediciones y estrategias de cambio y potenciación de fármacos, exceptuando las de potenciación con antipsicóticos, no utilizados en el STAR*D.
La guía del National Institute for Health and Care Excellence (NICE) propone una atención en fases del TDM, escalonada según la severidad del cuadro e intensidad de los síntomas, de menor a mayor, con un uso preferente de las psicoterapias y el marco de atención primaria en los casos menos graves y un uso en aumento de los AD y el formato especialista en los más graves. Defiende una secuencia de uso de los AD empezando por los ISRS y deja en manos del especialista en salud mental las estrategias de combinación y potenciación de AD en caso de resistencia al tratamiento. Aconseja, como mínimo, un periodo de mantenimiento de seis meses en caso de respuesta positiva y de dos años en pacientes con antecedentes y pobre funcionalidad. También dedica un apartado a la descripción del STAR*D —12.3.12— y lo utiliza abundantemente como fuente de evidencia en caso de respuesta insatisfactoria, en busca de la remisión. Considera al STAR*D “amplio y naturalístico” y “tan análogo como es posible con la práctica real”, con pacientes “más representativos del mundo real” que los enrolados en los ECA, y con mejores resultados que en estos. Reproduce en una tabla los datos de remisiones fase a fase del artículo de resultados. Reconoce que el ensayo “no facilita evidencias claras respecto a la secuencia adecuada de opciones de tratamiento —en particular, la eficacia de los diversos antidepresivos—, pero ha demostrado que los pacientes obtienen cierto beneficio al incorporarse a un tratamiento secuenciado o por fases” (cursiva de los autores de este artículo). El principal mensaje del STAR*D sería que “hay pacientes que obtienen la remisión en cada cambio de fase, aunque su proporción disminuye en cada fase” (65).
La Guía Maudsley (66), ampliamente inspirada en la NICE, propone un tratamiento en fases similar según la gravedad del trastorno, con estrategias de aumento de dosis, cambios de AD y potenciación como principales estrategias de manejo de AD en caso de respuesta insuficiente. Según esta guía, la principal lección del STAR*D es que existe una pequeña proporción de pacientes no respondedores a los AD que sí lo hacen en cada fase de cambio “aunque el tamaño del efecto es modesto y no existen diferencias claras de efectividad según las estrategias” (66, p. 244). Cita los principales artículos del STAR*D y facilita, en el capítulo acerca de las depresiones resistentes, la tabla de remisiones del STAR*D según un n=2.876, que excluye a los que nunca volvieron tras una primera prescripción de citalopram, con una tasa de respuesta del 47% (66, p. 255), afirmando que informa “hasta cierto punto” de la estrategia a utilizar en esos casos. Considera al STAR*D como evidencia de buena calidad para las estrategias de cambio y potenciación que propone (66, p. 257).
La guía española (67) cita al STAR*D en las estrategias de cambio y potenciación y, sobre todo, afirma que pone de manifiesto “el impacto positivo en el manejo de la depresión y en la práctica clínica de los algoritmos de tratamiento” (p. 188); en particular, el Texas Medication Algorithm Project (TMAP).
En su última versión (68), el TMAP ofrece algoritmos de potenciación y aumentación de AD, paso a paso, buscando siempre la remisión y basándose en mediciones con el QIDS como principal herramienta. No cita evidencias, remitiendo a un artículo “pendiente de publicación” que no hemos encontrado en las bases de datos, firmado, entre otros, por Trivedi y Fava, investigadores principales del STAR*D.
Conclusión
En la cultura de la psiquiatría basada en la evidencia, los ECA se consideran el estándar de oro de la investigación y la mejor fuente probatoria (69). Cuando los resultados ECA de los psicofármacos no coinciden con las creencias y prácticas dominantes, es frecuente apelar al “mundo real”, estudios observacionales, en espejo, de bases de datos… para justificar que se siga manteniendo la práctica dominante (70).
El STAR*D es “el estudio más amplio y de mayor duración (siete años) realizado nunca con objeto de evaluar el tratamiento de la depresión” (18), un estudio probablemente “irrepetible en una generación”, con un coste de más de 35 millones de dólares (39). Muestra que las recomendaciones y las prácticas dominantes de su época en el manejo de los AD, similares a las actuales, no están basadas en pruebas, ni siquiera procedentes “del mundo real”. No puede, de ninguna manera, reivindicarse como el estándar de atención para la práctica psiquiátrica en los TDM3.