El presente documento de consenso revisa la evidencia sobre evaluación de fármacos biológicos. Las conclusiones principales del grupo son: a) la evidencia actual sobre comparación de biológicos se basa en comparaciones indirectas y es, en general, poco fiable y con importantes limitaciones metodológicas; por ello, b) se considera necesario modificar las directivas regulatorias en el sentido de favorecer decididamente los estudios aleatorizados de no inferioridad comparando cara a cara los nuevos biológicos con los actuales estándares de tratamiento, evitando los ensayos frente a placebo; c) un elemento clave en este proceso será la determinación por consenso entre las agencias reguladoras, las sociedades científicas, la industria farmacéutica y las autoridades sanitarias de las diferencias clínicas que deben considerarse relevantes en cada una de las patologías evaluadas.
This consensus document reviews the evidence on the evaluation of biological drugs. The main conclusions of the group are: a) the current evidence on biological comparisons is based on indirect comparisons and is generally unreliable and with important methodological limitations. Therefore, b) it is considered necessary to amend the regulatory directives in the sense of strongly favoring randomized non-inferiority studies comparing face to face the new biological treatment with current standards, avoiding trials versus placebo, c) A key element in this process will be determined by consensus among regulatory agencies, scientific societies, the pharmaceutical industry and health authorities regarding the clinical differences that should be considered relevant in each of the conditions tested.
Los fármacos biológicos han representado una revolución terapéutica en las enfermedades reumatológicas —artritis reumatoide (AR), espondilitis anquilosante (EA), artritis psoriásica (Aps)—, las enfermedades inflamatorias intestinales (EII) —enfermedad de Crohn y colitis ulcerosa— y en determinadas enfermedades cutáneas —psoriasis moderada o grave1,2. No solamente han demostrado su eficacia sobre los síntomas, sino que también pueden modificar la historia natural de dichas enfermedades, evitando sus complicaciones y la discapacidad asociada3-8.
A diferencia de los fármacos tradicionales obtenidos mediante síntesis química, los biológicos son moléculas generadas por células vivas, de base proteica. Su tamaño y peso molecular resultan variables (desde cadenas peptídicas hasta moléculas completas de anticuerpo), pudiendo ser muy elevados9. Aunque, por definición, no existen 2 moléculas de un mismo biológico idénticas al 100%, las diferencias entre miembros de una familia —p. ej., los anti-TNF que comparten una diana terapéutica pueden ser importantes. Las discrepancias radican en su cadena de aminoácidos o —en el caso de los fármacos biosimilares, que en general presentan una secuencia de aminoácidos idéntica al fármaco original— en las modificaciones —p. ej., glucosilaciones o fucosilaciones— que sufre la cadena de aminoácidos después de su síntesis y que, al condicionar su plegamiento tridimensional, pueden originar variaciones en su afinidad por el sustrato o el grado de inmunogenicidad y ser causa de diferencias en eficacia o seguridad10. De hecho, como ejemplo, se ha descrito una incidencia significativamente más alta de anemia aplásica grave asociada a determinadas formulaciones de eritropoyetina recombinante pero no de otras9; recientemente, también se han demostrado diferencias en el patrón de afucosilación, en la afinidad por el receptor FcγRIIIa, y, en estudios in vitro, la citotoxicidad dependiente de anticuerpos mediada por células entre infliximab y su biosimilar Inflectra®. La Agencia del Medicamento canadiense ha justificado, sobre la base de estos datos, que la aprobación concedida a Inflectra® para enfermedades reumáticas no se extienda a la EII11.
La oferta de fármacos biológicos ha aumentado rápidamente en los últimos años. Además, tras la caducidad de la patente y el final del periodo de protección de datos de los fármacos originales innovadores, han aparecido en el mercado los fármacos biosimilares, término entendido como «las copias de fármacos biológicos ya autorizados en los que se ha demostrado similares características físico-químicas, eficacia y seguridad tras efectuar las comparaciones necesarias»12. La definición hace énfasis en 2 aspectos: a) el hecho de que nunca van a ser iguales al fármaco original, de ahí el término «similar» frente al concepto de «idéntico», que sería aplicable a la comparación de un fármaco genérico respecto de su molécula original, y b) que tratándose de fármacos biológicos la noción farmacológica de bioequivalencia —la demostración de áreas bajo la curva séricas similares entre el fármaco original y la copia que se utiliza para demostrar la equivalencia terapéutica de los fármacos genéricos—, no es un criterio de equivalencia definitivo para considerar que una copia y su biológico original tienen la misma eficacia y seguridad. Se requiere, por tanto, una amplia evaluación de cada nuevo fármaco. No deben analizarse solamente las características físico-químicas, sino que también es necesario realizar una cuidadosa valoración clínica de su eficacia y seguridad para considerar una determinada copia como biosimilar12.
Los parámetros a determinar en dicha evaluación son motivo de debate9,13-19, aunque la orientación general de las agencias reguladoras y, en particular, de la European Medicines Agency ha sido la de requerir ensayos clínicos aleatorizados de equivalencia clínica o no inferioridad comparando la eficacia y la seguridad del biosimilar con la de sus originales10. Esto contrasta con el proceso de aprobación de fármacos biológicos innovadores, donde la mayoría de los estudios comparan el fármaco con un grupo control tratado con placebo. Como norma, los estudios de «equivalencia» o «no inferioridad» pretenden demostrar que estos términos son aplicables para un nuevo fármaco frente a un estándar terapéutico conocido —el nuevo fármaco es «equivalente» o «no inferior al conocido»— y en la mayoría de los casos no se utiliza placebo.
Una dificultad adicional a la hora de comparar fármacos biológicos radica en que, hasta hace poco, no se han publicado ensayos clínicos comparando directamente la eficacia y la seguridad de 2 biológicos. Esta carencia de comparaciones directas ha dado lugar a intentos de contrastarlos utilizando otros métodos de medicina basada en la evidencia, específicamente el análisis mediante comparaciones indirectas20-23. El método indirecto más sencillo son las comparaciones indirectas no ajustadas. Consiste en comparar la eficacia de 2 biológicos —que denominaremos A y B— utilizando la eficacia de A en los estudios que evalúan este fármaco comparándola directamente con la eficacia del fármaco B en sus respectivos estudios en la misma enfermedad, sin efectuar ningún tipo de corrección. Este método da muy a menudo resultados erróneos y, por tanto, se desaconseja totalmente su uso24. Una alternativa más correcta desde el punto de vista metodológico son las comparaciones indirectas ajustadas. En este caso, debemos de disponer de ensayos clínicos aleatorizados comparando A y B frente al comparador común P (en el caso de los biológicos habitualmente se trata del placebo). La eficacia de A y B se compara a través de P con objeto de corregir —al menos parcialmente— las diferencias entre las poblaciones de los distintos estudios. Las comparaciones indirectas pueden complicarse mucho más, por ejemplo, si evaluamos múltiples fármacos (análisis en red o network analysis)24-26. Para estas evaluaciones se utilizan técnicas estadísticas más complejas, como la metarregresión (fig. 1). Sin embargo, si no se utilizan con un extremo rigor metodológico, estas herramientas pueden generar resultados imprecisos. Veremos que un buen ejemplo de ello es la evaluación de los fármacos biológicos.
Comparaciones indirectas, corregidas, no corregidas o en red. Se muestra un ejemplo donde la comparación indirecta no corregida entre 2 fármacos, Ay B, da un resultado probablemente incorrecto y totalmente distinto de la corregida debido a las diferentes características de la población estudiada. En los análisis en red pueden incluirse múltiples comparaciones entre diferentes fármacos (A, B, C) y/o con placebo.RCT: acrónimo inglés para estudios aleatorizados y controlados.
Aunque la complejidad de los fármacos biológicos crea serias dificultades a la hora de compararlos, la demostración de que 2 fármacos son clínicamente equivalentes tiene importantes implicaciones asistenciales y económicas. El presente artículo pretende reflexionar sobre algunos aspectos relevantes para facilitar la evaluación de fármacos biológicos: a) la utilidad y las implicaciones éticas del diseño de determinados estudios, y en especial, del uso de placebo; b) la utilización de estudios de no inferioridad, las variables de evaluación a considerar y la importancia de establecer qué diferencia (δ) en eficacia o seguridad puede considerarse clínicamente no significativa, y c) la utilidad de los métodos de medicina basada en la evidencia y especialmente de las comparaciones indirectas. Todo ello se ha realizado a través de un abordaje multidisciplinar mediante una revisión no sistemática de la literatura y un posterior debate y consenso en el que han participado especialistas en reumatología, dermatología, gastroenterología, farmacólogos clínicos y expertos en estadística.
MétodoLa elaboración del documento se realizó a partir de una revisión no sistemática realizada y consensuada por dos de los autores (XC y JVE). El resto de los participantes en el foro recibieron el documento por correo electrónico, revisaron el documento y realizaron aportaciones que se recogieron en un documento inicial. En una única reunión presencial, se discutieron los puntos de debate, se consensuaron la estructura y el contenido final del documento, y se distribuyeron la responsabilidad a cada uno de los participantes. Así, los respectivos especialistas elaboraron las bases para proponer un valor de delta en cada una de las indicaciones de los fármacos biológicos. Una vez elaborada esta parte, los coordinadores (XC y JVE) integraron las distintas aportaciones elaborando un segundo documento, que se discutió a través del correo electrónico. Finalmente, todos los participantes en el foro dieron su aprobación al contenido final del documento.
Conclusiones del consensoAspectos éticos: el uso de placebo es actualmente inaceptable en la comparación de fármacos biológicosLa mayoría de los estudios en curso contienen un grupo tratado con placebo a pesar de que incluyen a pacientes con enfermedad moderada/grave en los que los biológicos son el estándar de tratamiento3-8. Los riesgos inherentes a dejar a pacientes con enfermedad grave sin tratamiento efectivo durante periodos que pueden alcanzar las 12 semanas en EII, las 16 semanas en dermatología o hasta 54 semanas en reumatología resultan, en opinión de los miembros del foro, inaceptables desde el punto de vista ético. Parece difícilmente justificable que las agencias reguladoras acepten, propongan e incluso exijan todavía estudios contra placebo para los nuevos fármacos biológicos. Más si se tiene en cuenta que para evaluar fármacos biosimilares las agencias solicitan estudios de no inferioridad comparando el biosimilar con su molécula original sin necesidad de incluir un grupo placebo. También parece poco razonable que los comités éticos acepten estudios frente a placebo cuando el estándar de tratamiento en pacientes con enfermedad moderada a grave es un fármaco biológico y el uso de un tratamiento subóptimo puede tener consecuencias negativas sobre la evolución de la enfermedad.
Características de los estudios de equivalencia y no inferioridadClásicamente, los ensayos clínicos comparativos han utilizado la superioridad como criterio de comparación estadística directa entre distintos fármacos. Sin embargo, este planteamiento puede no ser el óptimo para la comparación entre biológicos o para nuevos biosimilares. En muchas ocasiones —y por definición, en el caso de los biosimilares—, los nuevos fármacos no pretenden ser más eficaces que el fármaco estándar con el que se comparan y a lo que se aspira es a demostrar que su eficacia o seguridad son comparables con los fármacos disponibles. Además, los estudios de no inferioridad no requieren un brazo de tratamiento con placebo, lo que reduce el riesgo que asume el paciente que participa en el estudio. La publicación de unas recomendaciones específicas dentro del CONSORT statement27,28 muestra la importancia creciente29 de los estudios de no inferioridad.
Una característica fundamental de los estudios de no inferioridad es la necesidad de establecer «a priori» qué diferencia (δ) en eficacia o seguridad puede considerarse clínicamente relevante o significativa, y solo después se puede realizar el análisis estadístico30. Así, en los estudios de no inferioridad no ocurre lo mismo que en los estudios comparativos convencionales, puesto que cuando estos incluyen un número muy elevado de pacientes, pequeñas diferencias en eficacia pueden resultar a la vez estadísticamente significativas e irrelevantes desde un punto de vista práctico. Un ejemplo es lo que sucedió con el estudio CAPRIE, que comparó los efectos de clopidogrel con ácido acetil-salicílico (AAS) en 19.185 pacientes seguidos durante 2 años. Se observó una tasa de eventos cardiovasculares del 5,83% por persona y año con AAS y del 5,32% con clopidogrel. La reducción del riesgo de eventos cardiovasculares fue del 0,51% por persona y año, estadísticamente significativa (p = 0,043) pero de una relevancia clínica cuestionable31. Utilizaremos este estudio como ejemplo a lo largo de este apartado.
En los estudios de no inferioridad, debe calcularse la diferencia de eficacia entre el tratamiento evaluado y el tratamiento estándar, y se determina el intervalo de confianza del 95% (IC del 95%) de dicha diferencia. Si el IC de la diferencia está dentro del intervalo definido por ± δ, se considera que ambos tratamientos son equivalentes. Si el límite inferior del IC de la diferencia está por encima del valor de –δ, consideramos que el fármaco evaluado cumple criterios de no inferioridad. Por ejemplo, imaginemos que en el caso del estudio CAPRIE consideramos clopidogrel como tratamiento estándar y AAS como tratamiento evaluado (fig. 2). Podemos utilizar una calculadora online para establecer el IC del 95% de la diferencia entre los 2 fármacos32, que es de –0,51% ± 0,48%. Por tanto, el IC del 95% iría del –0,99% al –0,02%. Si asumimos que la máxima diferencia no significativa desde un punto de vista clínico es, por ejemplo, del ±1% o superior, el AAS cumpliría criterios tanto de equivalencia clínica como de no inferioridad. Si, por el contrario, disminuimos el valor δ a 0,5%, la aspirina no cumpliría criterios ni de equivalencia clínica ni de no inferioridad. Vemos, por tanto, una de las características de los estudios de no inferioridad: es fundamental seleccionar adecuadamente el intervalo numérico de la «relevancia» clínica, ya que el resultado de la comparación dependerá totalmente del intervalo δ que elijamos33.
Márgenes de no inferioridad y equivalencia clínica. La figura muestra los intervalos de no inferioridad y equivalencia para 2 valores de la diferencia en eficacia entre aspirina y clopidogrel que puede considerarse clínicamente relevante (δ) en líneas discontinuas. El cuadrado y la línea gruesa horizontal muestran la diferencia entre aspirina y clopidogrel en el estudio CAPRIE y su IC del 95%. Así con un δ de ± 1% podríamos considerar que aspirina es tanto no inferior como equivalente a clopidogrel (líneas gruesas discontinuas). Por el contrario, con una estimación de δ más restrictiva (0,5%, líneas finas discontinuas verticales), aspirina no cumpliría ni criterios de equivalencia ni de no inferioridad.
Sin existir una fórmula para el cálculo de δ aceptada universalmente33, sí hay una serie de factores definidos que deben tenerse en cuenta a la hora de determinar la mínima diferencia clínicamente relevante en un determinado parámetro de eficacia o seguridad. En el caso de los biológicos estos serían:
- a.
El tipo de parámetro de eficacia evaluado: así, si se evalúa mortalidad, las diferencias que se han considerado clínicamente relevantes en los distintos estudios son habitualmente muy pequeñas, entre el 0,4 y el 1%, en porcentajes absolutos. En otros parámetros menos «duros» —p. ej., la remisión o la respuesta clínica en el caso de la EII o la tasa de pacientes con respuesta moderada en AR se considerarían razonables márgenes más amplios.
- b.
La tasa de respuesta y la diferencia observada entre el tratamiento estándar y el placebo: en ocasiones, se ha recomendado la mitad del efecto del tratamiento estándar vs. placebo. También se ha recomendado determinar el intervalo δ en función de la dispersión de los resultados de los fármacos a comparar, por ejemplo, mediante el uso de 0,5 desviaciones estándar de la variable que se evalúa. Finalmente, también se han establecido porcentajes variables del intervalo δ en función del grado de eficacia del fármaco29. En cualquier caso, el intervalo δ debe ser suficientemente restrictivo para que el placebo no se incluya como no inferior o equivalente.
- c.
En caso de comparaciones múltiples, los valores δ deben calcularse respecto del mismo tratamiento estándar, que debe ser el más efectivo en términos absolutos. En caso contrario, podría producirse lo que se denomina como un efecto de arrastre, de modo que la comparación sucesiva 2 a 2 de fármacos progresivamente menos efectivos podría llevar a la aceptación de fármacos no superiores al placebo como equivalentes al estándar inicial.
Actualmente, existen 9 agentes biológicos con indicaciones en la ficha técnica para el tratamiento de diversas artropatías inflamatorias crónicas. Para la AR, se ha aprobado un antagonista del receptor de interleucina (IL)-1 (anakinra), 5 agentes inhibidores del TNF-α (adalimumab, certolizumab, etanercept, golimumab e infliximab), un agente deplecionante de células B CD20+ (rituximab), un inhibidor del receptor soluble de IL-6 (tocilizumab) y un inhibidor de moléculas de coestimulación (abatacept).
En la AR, la eficacia terapéutica se evalúa habitualmente mediante el uso de índices combinados de respuesta que incluyen recuentos articulares, reactantes de fase aguda y valoraciones globales de la actividad de la enfermedad por parte del paciente y del médico. Los índices de respuesta y actividad más utilizados son las respuestas American College of Rheumatology (ACR) 20, 50 y 70, que miden el porcentaje de mejoría respecto a la situación basal, sin tener en cuenta la actividad final de la enfermedad, el índice Disease Activity Score (DAS) 28 y el Simplified Disease Activity Index (SDAI). Estos últimos son medidas absolutas de la actividad de la enfermedad definiendo la respuesta como el porcentaje de pacientes que alcanzan un determinado estado de la enfermedad (baja actividad o remisión). Los desenlaces en los ensayos clínicos se cuantifican como el porcentaje de pacientes que alcanzan una determinada respuesta; en el caso del ACR, el porcentaje de pacientes que alcanzan un determinado estado de la enfermedad (baja actividad o remisión) o como el descenso medio en el valor del DAS28 o el SDAI.
No existe un valor de δ universalmente aceptado como clínicamente relevante ni para el porcentaje de pacientes que alcanza una determinada respuesta, por ejemplo, un ACR20 o un DAS28 inferior a 3,2 (que se considera un estado de baja actividad de la AR) ni para la reducción mínima clínicamente relevante del valor del DAS28 o del SDAI. No obstante, recientes ensayos clínicos de elevada calidad metodológica pueden orientar hacia qué δ sería razonable elegir como dintel en las comparaciones entre agentes biológicos. En el estudio ADACTA, un ensayo clínico aleatorizado de comparación directa entre adalimumab y tocilizumab en monoterapia en pacientes con AR con respuesta inadecuada a metotrexato (MTX), los autores consideraron que la diferencia relevante entre grupos debería ser de al menos 0,6 unidades en el DAS2834. Por otra parte, en el estudio AMPLE, un ensayo clínico aleatorizado de comparación directa entre adalimumab y abatacept combinados con MTX, también en pacientes con AR con respuesta inadecuada a MTX, los autores asumieron —sin una base científica clara— que el margen de no inferioridad en el porcentaje de pacientes que alcanzaran una respuesta ACR 20 se situaría en el 12% entre grupos35. Sin embargo, no se puede utilizar un delta válido en ACR20 para comparar ACR50 y ACR70. El porcentaje de respuesta ACR 50 suele ser del 40% de los pacientes en tratamiento combinado respecto al 20% de los pacientes con placebo o MTX, utilizar un 15% de diferencia en la tasa de respuesta, puede incluir la respuesta placebo y, por tanto, no sería un valor de δ válido. En el caso de ACR70 el margen es todavía más estrecho, 20% vs. 5%-10%, por lo que los valores de δ tendrían que ser aún inferiores.
Para la EA y la Aps, se ha aprobado el uso de 4 agentes inhibidores del TNF-α (adalimumab, etanercept, golimumab e infliximab). En el caso de la EA, como variable de desenlace en los ensayos clínicos se utiliza habitualmente el porcentaje de pacientes que alcanzan un índice combinado ASDAS de enfermedad inactiva (≤ 1,3) o de enfermedad con actividad baja (≤ 2,1) y se considera que un δ ≥ 1,1 es un cambio clínicamente relevante36, por lo que este valor podría considerarse una referencia. Otro índice de actividad utilizado ampliamente en la EA es el BASDAI. Se considera que un BASDAI ≤ 2 refleja actividad mínima, mientras que un BASDAI ≤ 4 es considerado como de baja actividad37. Se ha propuesto que un δ clínicamente relevante sería una variación superior a una unidad absoluta o al 22,5% del valor basal del BASDAI38.
En las formas axiales de la Aps, se asumen los índices de respuesta que se utilizan en la EA39, mientras que en las formas periféricas poliarticulares se asumen los índices de respuesta utilizados en la AR39. Actualmente, no existe un índice de respuesta comúnmente aceptado para valorar la respuesta al tratamiento de las formas oligoarticulares periféricas de la Aps, por lo que es difícil indicar recomendaciones sobre qué δ sería el más adecuado en estos casos.
¿Cuál debe ser el valor δ en psoriasis?En dermatología, los fármacos actualmente autorizados para psoriasis son 3 fármacos anti-TNF: adalimumab, etarnercept e infliximab, y un inhibidor de la p40, proteína que comparten la IL-12 y la IL-23, ustekinumab. La variable principal de evaluación más comúnmente utilizada en ensayos clínicos en psoriasis es la respuesta Psoriasis Area and Severity Index (PASI)-75, y como variables secundarias PASI-90 y PASI-100, valores estos últimos que se consideran indicativos de remisión40,41.
Respecto de cuál puede ser el valor del incremento de estos parámetros que puede considerarse clínicamente irrelevante, hay que tener en cuenta, en primer lugar, la eficacia sobre placebo de los diversos fármacos. Así, en distintos metaanálisis que incluyeron los estudios pivotales, las diferencias en el PASI-75 respecto a placebo del fármaco menos efectivo, etanercept a dosis bajas, fueron del 31 al 45%42. Para el resto de los fármacos, las diferencias con placebo oscilaron entre el 40 y el 78%.
No existen datos en la literatura sobre la diferencia mínima clínicamente relevante en la variable PASI-75 entre 2 medicamentos biológicos para el tratamiento de pacientes con psoriasis en placas. El único dato disponible hasta el momento viene del único ensayo clínico comparando 2 biológicos publicado. El estudio ACCEPT43 comparó ustekinumab con etanercept en el tratamiento de la psoriasis moderada/severa; en este estudio, aunque no se estableció un valor δ, el cálculo de la muestra se realizó sobre una diferencia esperada en términos de PASI-75 entre ustekinumab y etanercept del 14%. El estudio detectó una diferencia entre ustekinumab a dosis bajas y etanercept del 10,7%. Los autores interpretan esta diferencia como claramente relevante desde el punto de vista clínico. Finalmente, en otro ensayo clínico que comparó adalimumab con MTX44, la diferencia esperada en términos de PASI-75 entre ambos tratamientos fue del 20% de pacientes que alcanzaban dicho grado de respuesta.
Por tanto, cuando se utiliza la respuesta PASI-75 como variable principal de evaluación, los escasos datos disponibles indican que un valor δ apropiado debería moverse entre el 5 y el 15%, y es probable que debiera estar ligeramente por debajo del 10% observado en el estudio ACCEPT. Sin embargo, faltan argumentos sólidos para defender una cifra concreta.
¿Cuál debe ser el valor δ en la enfermedad inflamatoria intestinal?Las escalas que se han empleado más a menudo en los ensayos clínicos más recientes son el Crohn's Disease Activity Index (CDAI) para la enfermedad de Crohn45 y el índice de Mayo para la colitis ulcerosa46. En el caso del CDAI, se considera que el paciente está en remisión cuando los valores disminuyen por debajo de 150 y como respuesta un descenso de entre 70-100 puntos47. En el caso del índice de Mayo, se considera remisión valores de 2 o inferiores y respuesta un descenso de al menos 3 puntos y un 30% de los valores iniciales48.
En el caso de la EII, las características de la enfermedad y el diseño de los estudios condicionan que las diferencias respecto de placebo en los estudios pivotales sea menor que en otras patologías. De hecho, en los estudios iniciales de los fármacos aprobados para enfermedad de Crohn y colitis ulcerosa, esta oscila entre el 33 y el 7,2%48, siendo menor en los pacientes que ya habían recibido tratamiento previo con un fármaco biológico49.
En el estudio SONIC50, se compararon azatioprina, infliximab y la combinación de ambos en pacientes con enfermedad de Crohn que no habían recibido previamente inmunosupresores. Las tasas de remisión clínica a la semana 26 fueron del 30% para azatioprina, el 44,4% para infliximab y el 56,8% para el tratamiento combinado. Se interpretaron como claramente significativas las diferencias entre azatioprina e infliximab, así como las diferencias con el tratamiento combinado. Finalmente, un consenso internacional que realizó una revisión sistemática de todos los índices para la evaluación de la colitis ulcerosa46 indica un valor de δ para no inferioridad del 10%, aunque, sorprendentemente, no especifica para qué variable de evaluación.
En conclusión, en el caso de la EII, teniendo en cuenta el menor beneficio sobre placebo que se ha observado generalmente en los ensayos pivotales, se podría indicar como orientativos unos valores de δ de aproximadamente un 10% para respuesta clínica y valores ligeramente inferiores, entre el 5 y el 10%, para el caso de la remisión clínica.
Uso de revisiones sistemáticas, meta-análisis y comparaciones directas e indirectas para establecer equivalenciaComparaciones directasEvidentemente, el método más eficaz para comparar 2 fármacos biológicos es la comparación directa dentro de un ensayo clínico aleatorizado. Sin embargo, como estos ensayos comparativos son, hasta el momento, excepcionales, no es posible realizar revisiones sistemáticas y metaanálisis clásicos.
Comparaciones indirectasAunque son el único recurso disponible en ausencia de comparaciones directas, estos estudios tienen importantes limitaciones metodológicas.
En primer lugar, una asunción fundamental de los estudios indirectos es la consistencia de la evidencia o la comparabilidad de los estudios incluidos. Diferencias en el diseño o en la población evaluada pueden causar importantes sesgos y condicionar que los resultados de los estudios no puedan ser comparados con estas técnicas51. Un problema importante y habitual es el cambio de la población de los estudios a lo largo del tiempo, Así, los pacientes que entran en estudios recientes tienen mayor probabilidad de haber fracasado a varios tratamientos biológicos previos, lo que los hace más refractarios a cualquier nuevo tratamiento y condiciona una peor respuesta. Por ello, se recomienda que en toda comparación indirecta se expliciten y discutan extensivamente todas aquellas diferencias en el diseño de estudios incluidos que puedan sesgar los resultados del análisis52. También existe la posibilidad de intentar controlar estas diferencias entre estudios mediante técnicas de metaregresión53. Sin embargo, en la práctica, esta posibilidad está limitada por el reducido número de estudios y por el riesgo a incurrir en sesgos ecológicos.
En segundo lugar, las comparaciones indirectas reducen marcadamente la potencia de las comparaciones y requieren muestras mucho mayores que las comparaciones directas24,54. Así, una reciente revisión comparando métodos directos e indirectos55 evaluó 39 comparaciones entre intervenciones terapéuticas en las que las comparaciones directas encontraban una diferencia estadísticamente significativa. En 14 de las 39 comparaciones la significación estadística desaparecía cuando se realizaba un análisis combinando las estimaciones directas e indirectas. De manera similar, en una evaluación previa, los mismos autores evaluaron 19 comparaciones directas que encontraban diferencias significativas entre 2 intervenciones terapéuticas; únicamente en 9 de ellas las comparaciones indirectas detectaron diferencias significativas24,56.
Las consecuencia práctica de esta limitada potencia es que es muy difícil que, a través de estudios indirectos, 2 fármacos resulten significativamente distintos24,54-56. Si esto ocurre (esto es, si un fármaco es significativamente superior al otro), el resultado es razonablemente fiable. Sin embargo, el hecho de que no se detecten diferencias no demuestra la equivalencia entre fármacos. Debido a la naturaleza acentuadamente conservadora de los análisis indirectos, estos requieren diferencias muy marcadas entre tratamientos y un número muy elevado de pacientes para detectar una diferencia significativa. Este aspecto es muy importante, ya que algunos estudios comparando fármacos biológicos han interpretado erróneamente esta falta de potencia estadística de las comparaciones indirectas como prueba de que los fármacos son equivalentes20.
Al intenso debate sobre la fiabilidad de las comparaciones indirectas contribuye, y no poco, el hecho de que estudios que valoran el efecto de comparaciones indirectas sobre determinadas enfermedades lleguen a conclusiones divergentes. Como ejemplo, en el caso de la psoriasis, el estudio de Signorovitch et al.57 concluye que adalimumab es superior a etanercept, mientras que un estudio recientemente publicado que plantea la misma comparación concluye que todos los biológicos son equivalentes21. De hecho, la significación estadística e incluso la dirección del efecto pueden variar en función del método que se emplee para la comparación indirecta. Así, O’Regan et al. estudiaron a 51 comparaciones indirectas entre fármacos mediante 2 métodos estadísticos de análisis diferentes. De las 51 comparaciones, encontraron 3 en que con un método la diferencia era significativa y con el otro no, 6 en los que la dirección del efecto era distinta dependiendo del método utilizado y 9 donde los IC variaban ampliamente en función del método58. Por este motivo, se considera recomendable en las comparaciones indirectas analizar no solamente la variable principal, sino también las variables secundarias de manera conjunta (p. ej., ACR20, ACR50 y ACR70 en estudios sobre AR). Los resultados de un análisis serán más consistentes si las diferencias a favor de un fármaco se mantienen en los distintos parámetros de medida.
Finalmente, se han detectado importantes deficiencias en la calidad de los estudios indirectos52,59; Donegan et al.52 propusieron una serie de parámetros específicos para evaluar la calidad de estos estudios. Adicionalmente, sería recomendable que, como cualquier otra revisión sistemática o metaanálisis, las comparaciones indirectas se realicen de acuerdo con las recomendaciones PRISMA60,61.
Vistos los riesgos de sesgo, resulta comprensible que muchos autores desconfíen de la fiabilidad de las comparaciones indirectas. Todo esto ha llevado a que la International Society for Pharmacoeconomic and Outcomes Research, en un intento de mejorar la fiabilidad de estos estudios, designara un grupo de trabajo específico que ha realizado recomendaciones para la evaluación, la interpretación y la realización de comparaciones indirectas62,63. En todo caso, debido a las importantes limitaciones del método, los resultados obtenidos mediante comparaciones indirectas deberán considerarse como datos exploratorios, útiles para generar hipótesis susceptibles de posterior confirmación pero nunca como una prueba definitiva ni de superioridad ni, mucho menos, de equivalencia52,55. De hecho, las agencias reguladoras en ningún momento han considerado las comparaciones indirectas como métodos adecuados para evaluar fármacos biosimilares.
ConclusionesLa presente revisión aporta elementos de juicio para la comparación de fármacos biológicos. Las conclusiones principales del foro han sido:
- –
Tanto desde el punto de vista científico como desde el punto de vista ético, consideramos recomendable modificar las directivas regulatorias en el sentido de favorecer decididamente los estudios aleatorizados de no inferioridad, comparando cara a cara los nuevos biológicos con los actuales estándares de tratamiento, evitando los ensayos frente a placebo.
- –
Estos estudios aportarán datos fiables sobre la eficacia y la seguridad comparativas de los distintos fármacos de los que actualmente carecemos, dada la escasa fiabilidad y las importantes limitaciones metodológicas de las comparaciones indirectas.
- –
Un elemento clave en este proceso será la determinación por consenso con la participación de las agencias reguladoras, las sociedades científicas, la industria farmacéutica y las autoridades sanitarias de las diferencias clínicas que deben considerarse relevantes en cada una de las patologías evaluadas.
Los autores declaran que para esta investigación no se han realizado experimentos en seres humanos ni en animales.
Confidencialidad de los datosLos autores declaran que en este artículo no aparecen datos de pacientes.
Derecho a la privacidad y consentimiento informadoLos autores declaran que en este artículo no aparecen datos de pacientes.
Conflicto de interesesLos autores declaran no tener ningún conflicto de intereses en el contenido de este artículo.
Dermatología: Carlos Ferrandiz, Servicio de Dermatología, Hospital Universitario Germans Trias i Pujol, Universidad Autónoma de Barcelona; Hugo Vázquez Veiga, Servicio de Dermatología, Hospital de Conxo, Complexo Hospitalario Universitario de Santiago de Compostela, A Coruña. Farmacología clínica: Juan Vicente Esplugues. Reumatología: José Luís Andreu, Servicio de Reumatología. Hospital Universitario Puerta de Hierro, Majadahonda, Madrid; Antoni Gómez, Servicio de Reumatología, Hospital de Sabadell, Institut Universitari Parc Taulí, Universitat Autònoma de Barcelona. Gastroenterología: Fernando Gomollón, Servicio de Aparato Digestivo, Hospital Clínico «Lozano Blesa», Zaragoza; Xavier Calvet. Estadística: David Suarez, Unidad de Epidemiología y Evaluación, Fundació Parc Taulí, Hospital Parc Taulí, Universitat Autònoma de Barcelona.