INTRODUCCIÓN
La llegada de nuevos medicamentos al mercado exige muchos años de investigación previa junto con la necesidad de evaluar sus resultados durante toda la vida del medicamento y ello justifica la necesidad de la investigación farmacoepidemiológica, entendida como el estudio del uso y los efectos de los medicamentos (beneficiosos o adversos) en grandes poblaciones. En la actualidad, este tipo de investigación parece más factible que nunca por el crecimiento exponencial de las fuentes de datos con potencial uso en investigación biomédica. El concepto "Big data", traducido como "datos masivos" o "datos a gran escala", ha sido acuñado por la ciencia computacional para describir una tecnología basada en la utilización de grandes conjuntos de datos para su conversión en información útil para diversos propósitos1. Los datos a gran escala pueden estar formados por datos genéticos, médicos, ambientales, económicos, geográficos o datos procedentes de las redes sociales y de comunicación que, en su mayor parte, no existían hace una década2. En ciencia, los datos bien estructurados y homogéneos representan una pequeña parte de los datos disponibles ya que existen muchos otros datos no estructurados "de cola larga", es decir innumerables conjuntos dispersos de datos generados a partir de estudios pequeños que representan una parte importante del conocimiento científico (Figura 1)3. La parte mayoritaria de los datos que forman el "Big data" son de tipo observacional, también conocidos actualmente como "datos de la vida real".
REGISTROS DE MEDICAMENTOS
Al albor de la expansión de las fuentes de datos, en nuestro país se están creando múltiples registros de pacientes, sistemas estructurados que utilizan métodos observacionales para la recogida de datos homogéneos (clínicos o de otro tipo) para la evaluación de resultados en una población definida por su enfermedad, condición clínica o exposición, con fines científicos, clínicos o reguladores predefinidos4.
Cuando se diseñan para el estudio de la utilización de medicamentos o sus efectos -beneficiosos o adversos-, podrían ser considerados registros farmacoepidemiológicos. Los registros adoptan la forma de estudios "de campo" para la obtención de datos primarios de manera prospectiva. No es infrecuente que en el momento de su creación los registros no presenten objetivos formales, más allá de la adquisición de datos (o colecciones de muestras) para su exploración por estudios posteriores, por lo que el tamaño muestral o el tiempo de seguimiento puede ser indeterminado. Esto hace que los registros farmacoepidemiológicos puedan ser fácilmente utilizados con fines espurios o promocionales y por este motivo deben ser objeto de mayor regulación por las autoridades sanitarias respecto a otras investigaciones5,6. Cabe destacar que un número creciente de estos registros farmacoepidemiológicos están promovidos por la industria farmacéutica -a veces por requerimiento de las agencias reguladoras- y por tanto su continuidad está sujeta a su interés ya que es quien lo financia. En este tipo de registros se reclutan cohortes de sujetos expuestos al medicamento del que es titular la compañía farmacéutica y frecuentemente no existe un grupo comparador (por ejemplo, cohortes de sujetos expuestos al tratamiento estándar o a otros tratamientos alternativos) lo que imposibilita la inferencia causal. Por este motivo son preferibles los "registros de enfermos" centrados en la enfermedad y que incluyen datos de la totalidad de los tratamientos utilizados en la práctica clínica habitual. La creación de registros requiere recursos económicos notables en relación con las muestras discretas de pacientes que son capaces de reclutar y, si bien pueden recabar datos muy precisos o de gran interés (como los resultados centrados en el paciente), su potencial está limitado al estudio de los efectos más evidentes -de mayor magnitud o más frecuentes-. Además, se debe tener en cuenta las consideraciones legales y éticas para su realización. Los registros deben cumplir la normativa específica vigente en España7,8 y someterse a la consideración del Comité de Ética de la Investigación con medicamentos (CEIm). Se debe velar por el cumplimiento de la normativa vigente en materia de confidencialidad y protección de datos9,10 y, si fuese el caso, con lo dispuesto en la normativa para el tratamiento y almacenamiento de muestras biológicas11,12.
Por tanto, antes de la creación de registros se deberían valorar estos aspectos13, en especial el potencial para la convergencia con otros registros existentes -utilización de conjuntos de variables comunes y métodos de medida equiparables-. Los registros de pequeño tamaño sin capacidad de convergencia con otros sistemas de información generan evidencia transitoria e insuficiente (datos fragmentados y dispersos).
BASES DE DATOS DE HISTORIA CLINICA ELECTRÓNICA
En sanidad, la fuente principal de información asistencial es la historia clínica electrónica que es muy utilizada en estudios farmacoepidemiológicos. Es previsible que a medida que se complete la informatización de las consultas y las historias clínicas, las bases de datos informatizadas que se basan en la historia clínica electrónica, puedan nutrirse de un número cada vez mayor de pacientes. Así, en Estados Unidos, datos recientes indican que se ha duplicado la utilización de la historia clínica electrónica1. En España, a finales del año 2016 se encontraban integradas en el sistema de historia clínica electrónica la totalidad de comunidades autónomas (CCAA) y se disponía de información clínica de más de 35 millones de personas14. Los sistemas basados en historia clínica electrónica de las comunidades autónomas se han utilizado con éxito para la investigación clínica y epidemiológica15,16. Además, existen en nuestro país diversas bases de datos concebidas para la realización de estudios farmacoepidemiológicos a partir de datos de historias clínicas electrónicas. Por ejemplo, la base de datos del Sistema de Información para el Desarrollo de la Investigación en Atención Primaria (SIDIAP)17 y la base de datos del Instituto Aragonés de Ciencias de la Salud (IACS)18, en Cataluña y Aragón respectivamente, son bases de datos con cobertura regional. También se encuentra la Base de datos para la Investigación Farmacoepidemiológica en Atención Primaria (BIFAP). Esta es una una base de datos informatizada financiada por la Agencia Española de Medicamentos y Productos Sanitarios (AEMPS) que cuenta con la participación de 9 CCAA19. Además de la historia clínica electrónica existen otras fuentes de datos de salud que pueden resultar coalescentes y que son de gran importancia en salud pública, como el registro nacional de mortalidad, el registro de altas hospitalarias y los registros regionales cáncer20. No obstante, para la utilización de estos datos con fines de investigación es preciso que esta información sea incorporada a cohortes o bases de datos ya estructuradas para el análisis epidemiológico2. La incorporación además, de otras fuentes de información de carácter no sanitario, como el nivel de renta o el nivel educativo, podría añadir variables de mucho valor para la realización de estudios farmacoepidemiológicos en el futuro.
Por otra parte, cada vez es más frecuente la colaboración entre instituciones para el desarrollo de estudios conjuntos en distintas bases de datos informatizadas de distintos países o regiones de un mismo país, que tienen como resultado estudios con muestras muy grandes que aumentan la potencia estadística del estudio y permiten analizar la consistencia de los resultados21-23. Esta tendencia hacia los estudios en múltiples bases de datos puede que siga una evolución similar a la que, en las últimas décadas, han experimentado los ensayos clínicos, que han pasado de ser mayoritariamente unicéntricos a ser multicéntricos. Además, recientemente se ha propuesto la utilización de las bases de datos de historias clínicas electrónicas para la realización ensayos clínicos pragmáticos aleatorizados. En este tipo de "estudios híbridos" se asigna el tratamiento de forma aleatoria, como sucede en los Ensayos Clinicos Aleatorizados (ECA), pero el seguimiento de los pacientes se lleva a cabo a través de la historia clínica y sigue el curso de la práctica clínica habitual como en los estudios observacionales. Este tipo de estudios es factible cuando existen dos o más tratamientos aceptados de uso común en la práctica clínica pero se desconoce cuál de ellos es más beneficioso. Uno de los primeros estudios de este tipo se realizó en Reino Unido mediante una base de datos de historias clínicas electrónicas de atención primaria para comparar la eficacia de la simvastatina respecto a la atorvastatina en pacientes con hipercolesterolemia y alto riesgo cardiovascular24.
Como factores limitantes para la expansión, implementación y utilización de la información en bases de datos informatizadas se podrían mencionar: 1) la falta de un identificador único reduce la capacidad para enlazar las distintas fuentes de información biomédica; 2) la complejidad de las técnicas para la organización y codificación de datos no estructurados; 3) la necesidad de recursos económicos para sufragar los costes de desarrollo y mantenimiento de los sistemas electrónicos para la gestión clínica; 4) las incertidumbres en torno a la seguridad de los datos y sobre a la cesión o venta de los datos a empresas privadas; 5) los obstáculos de tipo político así como la inexistencia de estructuras a nivel suprarregional (o supranacional) con capacidad para centralizar (y compartir) datos que permitan la investigación conjunta en las regiones (o países).
OTRAS FUENTES DE DATOS. ACCESO Y TRANSPARENCIA
En los últimos tiempos se están llevando a cabo mega-ensayos clínicos (o big trials), que incluyen a decenas de miles de pacientes seguidos durante largos periodos25. Los datos de ECA bien realizados y reportados son una fuente muy valiosa de datos homogéneos estructurados de gran calidad, siempre que sean accesibles. Por ello, se están desarrollando numerosas iniciativas para potenciar el acceso abierto a las publicaciones y a los datos procedentes de estudios científicos26. En este sentido cabría destacar el anuncio reciente de la Agencia Europea de Medicamentos (EMA) para el acceso a los datos de los ensayos clínicos con medicamentos27. Por otra parte, en la última revisión de la declaración de Helsinki se establece que todos los estudios clínicos (ECA y observacionales) deben registrarse en una base de datos con acceso público antes de su inicio y se deben publicar los resultados indicando las filiaciones, financiación y conflictos de interés28. La existencia de bases de datos para el registro de estudios, como el Registro Español de estudios clínicos (REec) en España29 o el registro de estudios farmacoepidemiologicos del European Network of Centres for Pharmacoepidemiology and Pharmacovigilance (ENCePP) en Europa30, pueden ser de utilidad para la localización de estudios clínicos con medicamentos y para la obtención de información resumida, aunque no permiten el acceso a los protocolos completos de los estudios ni a los datos resultantes de la investigación. Por otra parte, las revistas científicas que utilizan procesos rigurosos de revisión por pares, adoptando las guías de publicación31, políticas de transparencia32 y que publican en acceso abierto el texto completo de los artículos facilitan el acceso a la información, contribuyendo a reducir "el límite de la literatura" (Figura 1). Además las revistas que limitan la publicidad o material promocional por parte de las compañías farmacéuticas previenen los posibles conflictos de interés en el proceso editorial para la publicación de estudios farmacoepidemiológicos evitándose, además, otras distorsiones33. También es reseñable la existencia de iniciativas como el proyecto open research data pilot que facilitará el acceso a repositorios de datos procedentes de los proyectos incluidos en el Programa Marco Horizonte 2020 (H2020)34. En España se han puesto en marcha iniciativas similares como la red española sobre datos de investigación en abierto MAREDATA, que promueve la difusión de los datos de investigación y producción científica para que sea compartida y conocida35.
Compartir los datos mejora la transparencia, disminuye los sesgos de publicación y facilita la comprobación de los resultados de investigación a partir de la reutilización de los datos por terceras partes, previniendo fraudes3,36,37.
En conclusión, puede que estemos ante un cambio de paradigma en la investigación en ciencias de la salud, de una investigación clásica basada en la extrapolación de los hallazgos obtenidos en muestras discretas, a la investigación basada en el estudio de grandes muestras poblacionales38. Sin embargo, se debe tener en cuenta el riesgo de sobreinformación, de evidencia fragmentada y, ante el entusiasmo que suscita el "Big Data", es importante subrayar que el petabyte de la vida real no está en condiciones de sustituir a la evidencia experimental que proporcionan los ECA39, que en la actualidad constituye la única manera fiable para la evaluación de las intervenciones de salud. La utilización de los métodos epidemiológicos en este escenario se antoja fundamental para el análisis del "Big Data" cuya naturaleza es mayoritariamente observacional y, por tanto, sujeta al sesgo y la confusión2,40. Además, las técnicas metanalíticas pueden ser cada vez más importantes en la síntesis de la evidencia creciente.
El manejo y aprovechamiento de estas fuentes de información en expansión para generar información útil constituye el próximo desafío para la aplicación de los métodos de investigación en la farmacoepidemiología moderna.