Determinar que índices compuestos serían los más apropiados para la evaluación de la actividad o el daño estructural en pacientes con lupus eritematoso sistémico (LES).
MétodosSe realizó una revisión sistemática para identificar estudios de validación de índices de actividad y daño en pacientes con LES. De cada instrumento se recogió información sobre cada aspecto de la validación, como la viabilidad, la fiabilidad, la validez y la sensibilidad al cambio utilizando un formulario ad hoc.
ResultadosSe incluyeron 38 estudios de validación de 6 índices compuestos para la evaluación de actividad (BILAG, ECLAM, SLAM, SLEDAI, LAI y SLAQ) y 3 índices para la evaluación de daño (SLICC/ACR-DI, LDIQ y BILD). De estos instrumentos, solo el SLAQ, el LDIQ y el BILD son autoadministrados. En relación con los parámetros de fiabilidad, solo se evaluó la consistencia interna de 3 índices (BILAG, SLAQ y SDI); con resultados para el α de Cronbach de 0,35 a 0,87. La fiabilidad intraobservador fue examinada mediante el coeficiente de correlación intraclase para el BILAG, con un resultado de 0,48 (IC del 95%, 0,23-0,81) y mediante análisis de variancia para el SLAM-R (0,78), SLEDAI (0,33) y el LAI (0,81). La fiabilidad interobservador fue evaluada mediante coeficientes de correlación para el ECLAM (0,90-0,93), el SLAM (0,86) y el MEX-SLEDAI (0,87-0,89). Respecto a las dimensiones de validez, la validez de constructo se evaluó mediante medidas de convergencia con otros instrumentos, en concreto con la valoración global del medico, mostrando resultados similares entre todos los índices (0,48-0,75). Por último, la sensibilidad al cambio se evaluó en todos los índices, excepto el LAI, SDI y LDIQ, obteniendo resultados de respuesta media estandarizada de 0,12 a 0,75.
ConclusionesA pesar de los múltiples índices validados para la evaluación de pacientes con LES, no se ha encontrado suficiente evidencia para determinar cuál es el más apropiado. Los índices BILAG y SLEDAI, con moderada fiabilidad y poca sensibilidad al cambio, son los 2 índices con una validación más completa y los más empleados.
To determine the most appropriate indices to evaluate the disease activity and damage in patients with sytemic lupus erythematosus (SLE).
MethodsA systematic literature search was performed to identify validation studies of indices used to evaluate disease activity and damage. We collected information for each instrument on every aspect of validation including feasibility, reliability, validity and sensitivity to change using ad hoc forms.
ResultsA total of 38 articles were included addressing the validation of 6 composite indices to evaluate disease activity (BILAG, ECLAM, SLAM, SLEDAI, LAI and SLAQ); and 3 indices to evaluate damage (SLICC/ACE-DI, LDIQ and BILD). Only the SLAQ, LIDIQ and the BILD were self-administered. Feasibility and internal consistency was only studied in 3 indices (BILAG, SLAQ and SDI) with a Cronbach's α ranging from 0.35 to 0.87. The intra-observer reliability was examined by the intraclass correlation coefficient for BILAG with a result of 0.48 (95%CI: 0,23-0,81) and using analysis of variance for SLAM-R (0,78), SLEDAI (0,33) and the LAI (0,81). The inter-observer feasibility was evaluated using the correlation coefficient for ECLAM (0,90-0,93), the SLAM (0,86) and MEX-SLEDAI (0,97-0,89). The construct validity was examined by means of convergence with other instruments, specifically with global assessment by the physician, with similar results between indices (0,48-0,75). Lastly, responsiveness was tested in all indices except LAI, SDI and LDIQ, with a standardized response mean ranging from 0.12 to 0.75.
ConclusionsAlthough multiple instruments have been validated for use in SLE it was not possible to find direct evidence of which is the most appropriate. BILAG and SLEDAI, with moderate feasibility and low responsiveness, are the 2 indices with a most complete validation and more extensively used
Medir la actividad de la enfermedad y el daño irreversible en pacientes con lupus eritematoso sistémico (LES) es de vital importancia para evaluar las medidas de desenlace del paciente y su pronóstico, las diferencias entre grupos de pacientes y las respuestas a nuevos tratamientos. Existen diferentes índices validados, disponibles desde principios de los 80, aunque ninguno ha demostrado una clara superioridad y, por tanto, no tienen una aceptación universal.
Evaluar a los pacientes con LES supone un reto por diferentes motivos. Por un lado, la compleja afectación multisistémica que produce la enfermedad y, por otro, su curso fluctuante, que hace que los pacientes tengan una evolución y una afectación muy diferentes entre sí. Además, la ausencia de un estándar de oro o variable única que permita evaluar la actividad de la enfermedad hace precisa la utilización de índices o escalas compuestas. La valoración global de la enfermedad por el médico (VGM) puede estar muy influida por la experiencia clínica del médico y, por tanto, producir una amplia variabilidad interobservador que dificulta la comparación entre pacientes1.
El objetivo de esta revisión es evaluar los aspectos de la validación de los índices empleados para medir tanto la actividad de la enfermedad como el daño acumulado en pacientes con LES.
MétodosComo parte del consenso de la Sociedad Española de Reumatología para el uso de terapias biológicas en pacientes con LES, se realizó una revisión sistemática para examinar la validez de los índices compuestos utilizados para evaluar actividad de la enfermedad y el daño acumulado.
Estrategia de búsquedaSe diseñó una estrategia de búsqueda en las siguientes bases de datos bibliográficas: MEDLINE, EMBASE y la biblioteca central Cochrane hasta marzo del 2012. La búsqueda incluyó términos MeSH y texto libre. Las estrategias de búsqueda para MEDLINE, EMBASE y la biblioteca Cochrane han sido incluidas en el anexo 1 (disponible en la web). La búsqueda se limitó a estudios en seres humanos y a estudios publicados en inglés, francés y español. Además, se realizó una búsqueda manual en la bibliografía de los artículos incluidos.
La búsqueda se limitó a estudios en seres humanos y a estudios publicados en inglés, francés.
Selección de estudiosSe incluyeron estudios de validación, cohortes, metaanálisis y revisiones sistemáticas. Respecto al tipo de participantes, se seleccionaron estudios con pacientes con una edad igual o superior a 18 años y con diagnóstico de LES siguiendo los criterios del colegio americano de reumatología (CAR)2,3. Se consideró intervención cualquier índice, instrumento o escala empleado para evaluar actividad de la enfermedad o daño estructural. El comparador fue cualquier índice comparado consigo mismo o con otros índices. Por último, las medidas de desenlace evaluadas fueron aspectos de la validación como sensibilidad, especificidad, viabilidad, fiabilidad, validez y sensibilidad al cambio. En la tabla 1 se incluye una información más detallada sobre los aspectos de validación para una fácil interpretación de los resultados.
Guía para interpretar los resultados sobre los aspectos de la validación
Término | Aspectos | Técnica de análisis |
Viabilidad (feasibility) | Tiempo empleado. Claridad de elementos (sencillo). Aceptado por pacientes y usuarios | Estudio piloto (30 pacientes) |
Fiabilidad (reliability). Grado con el que el instrumento mide con precisión: sin error. Fiable, preciso y libre de error (error sistemático/sesgo y error aleatorio) | Consistencia interna: evalúa si los ítems que miden un mismo atributo presentan homogeneidad entre ellos. Depende del número de ítems y su correlación entre ellos | α de Cronbach (0-1): se interpreta como un coeficiente de correlación |
F. intraobservador o test-retest; mide la estabilidad de las puntuaciones otorgadas por el mismo evaluador en los mismos sujetos | CCI (coef. de correlación intraclase): cuantitativas kappa de Cohen: cualitativas | |
F. interobservador o error de medición: mide el grado de acuerdo entre 2 o más evaluadores | Error estándar de medida, mínimo cambio detectable límites de acuerdo | |
Validez (validity). Capacidad para medir aquello para lo que se ha diseñado | Lógica o aparente (face validity): grado en que parece que un índice mide lo que quiere medir | Opinión de expertos sobre la relevancia y comprensibilidad: redacción de preguntas |
De contenido: si contempla todos los aspectos relacionados con el concepto de estudio. Muestra representativa de los ítems | Panel de expertos | |
De constructo: refleja el concepto a medir o la capacidad del instrumento para medir adecuadamente | Estructural: análisis factorial. Test de Ho: correlaciones. Validación transcultural | |
V. de criterio: comparando con un método de referencia ya descrito y validado | Estándar de oroV. continuas: correlaciones o curvas ROC. V. dicotómicas: sensibilidad y especificidad | |
Sensibilidad al cambio (responsiveness) | Capacidad para medir cambios. Intrínseca y extrínseca | Múltiples métodos |
Un revisor (IC) realizó la selección de los artículos por título y resumen, siguiendo los criterios de inclusión. En la tabla 2 se exponen las características de los estudios incluidos. La información referente a la validación de cada índice compuesto fue recogida usando formularios estandarizados. Se generaron tablas de evidencia para resumir cada aspecto de la validación, así como el método empleado para su evaluación.
Características de los estudios incluidos
Primer autor y año | Tipo de estudio y participantes | INDICE | Aspectos de la validación evaluados | Comentarios |
Symmons 19884 | Estudio multicéntrico (5 centros de Reino Unido e Irlanda) sobre síntomas que precisan tratamiento | BILAG | Validez aparente: se comparó la puntuación con decisiones reales de tratamiento | Descripción y validación preliminar |
Hay 19935 | Estudio multicéntrico con 82 pacientes | BILAG versión 3 (glosario explicativo) | Fiabilidad; validez de criterio (EO=decisión de tratamiento); validez de constructo (ESR, dsADN) | La mayoría de los pacientes inactivos o poco activos |
Stoll 19966 | Estudio transversal de 141 pacientes | BILAG | Consistencia interna y validez de constructo | BILAG vs. VGM |
Isenberg 200011 | Descripción narrativa | Programa informático sobre el BILAG | Utilización del British Lupus Integrated Program | Presentación del programa informático |
Gordon 20037 | 250 pacientes con LES en consulta de rutina | BILAG para definir «brote lúpico» | Validez de criterio para la definición de «brote» (EO=decisión de tratamiento) | Buena validez para evaluar brote severo |
Isenberg 200512 | 2 tandas de ejercicios con pacientes reales (8 pacientes/8 médicos) | BILAG 2004, actualización de versiones previas | Fiabilidad: CCI entre médicos por órgano/sistema y grado de acuerdo entre médicos | Todos los evaluadores fueron miembros del BILAG |
Yee 200713 | Estudio multicéntrico y transversal de 369 pacientes | BILAG 2004 | Validez de criterio y de constructo | EO: cambio en el tto |
Cresswell 200915 | Estudio multicéntrico y transversal de 369 pacientes | Escala numérica para el BILAG | Comparación entre 3 escalas mediante curvas ROC | Estudio transversal: no tiene en cuenta actividad previa |
Yee 200910 | Estudio longitudinal multicéntrico | BILAG 2004 | Sensibilidad al cambio | Difícil diferenciar actividad y daño |
Nasiri 20109 | Estudio transversal de 100 pacientes | BILAG | Validez de constructo Hipótesis: si ↑ BILAG entonces ↑ VSG, dsADN y ↑ complemento | Algunos pacientes con LES tienen un perfil serológico normal |
Vitali 199218 | Estudio multicéntrico con 704 pacientes | ECLAM | Validez aparente y de contenido | Validación inicial |
Bencivelli 199219 | Estudio multicéntrico de 75 pacientes | ECLAM | Validez de constructo y de criterio (EO: VGM) | La VGM mostró poca fiabilidad |
Vitali 199921 | Comparación: sistema manual/computarizado | ECLAM | Validez de criterio | Correlaciones entre los 2 sistemas |
Mosca 200020 | Revisión de 64 historias clínicas | ECLAM | ECLAM directo vs. calculado revisando historias clínicas | Los médicos sabían que se revisarían |
Petri 199237 | 150 pacientes con LES. Subgrupo de 6 evaluados por 9 médicos (fiabilidad) | UCSF/JHU LAI | Fiabilidad y validez de constructo (VGM) | Estudio transversal |
Bombardier 199224 | 574 historias evaluadas por 14 reumatólogos | SLEDAI | Desarrollo inicial del índice, fiabilidad y validez aparente | Validación inicial |
Guzmán 199227 | 39 pacientes en un centro (3 visitas) | MEX-SLEDAI | Comparación con SLEDAI. Fiabilidad y validez de constructo | Sin variables de laboratorio, menor coste |
Chang 200229 | Post hoc análisis de un ECA multicéntrico | SLEDAI y SLAM-R | Sensibilidad al cambio | Cambios relevantes para médico y paciente |
Gladman 200226 | Cohorte de 960 pacientes | SLEDAI-2K | Validez de constructo | Referencia: SLEDAI |
Uribe 200433 | 93 pacientes (3 hospitales) | SLAM-R, MEX-SLEDAI y SLEDAI modificado | Validez de constructo y de criterio (EO=SLEDAI-2K) | Ref. V. constructo: VGM (↑ variabilidad) |
Touma 201132 | Estudio transversal de 298 pacientes | Respuesta del 50% del SLEDAI | Validez aparente, de contenido y de constructo | Estudio transversal |
Bae 200123 | 30 pacientes evaluados por 2 médicos/2 visitas | SLAM-R | Fiabilidad y validez de constructo | Médicos inexpertos con SLAM-R |
Karlson 200338 | 93 pacientes evaluados en una consulta de LES | SLAQ | Validez de constructo | Pacientes asintomáticos con alteraciones de lab. |
Yazdany 200839 | Cohorte observacional | SLAQ | Fiabilidad, validez de constructo y sensibilidad al cambio | Cohorte con alto nivel educativo vs. población general |
Gladman 199642 | 42 casos por 19 médicos | SDI | Validez aparente y de contenido | Validación inicial |
Gladman 199743 | 10 pacientes por 6-10 médicos de 5 países | SDI | Fiabilidad interobservador | Variabilidad entre observadores mediante ANOVA |
Stoll 199714 | 141 pacientes en un solo centro | SDI | Consistencia interna y validez de constructo | Compara SDI con BILAG y puntuación de medicación |
Gladman 200045 | 1.297 pacientes en estudio multicéntrico | SDI | Validez aparente | Evalúa asociación a mortalidad |
Costenbader 201047 | Estudio multicéntrico con 569 pacientes y 14 reumatólogos | LDIQ | Validez aparente, de contenido, de criterio y de constructo | EO: respuesta de los médicos en el SDI |
Yazdany 201149 | 81 pacientes de 2 hospitales universitarios | BILD | Validez aparente, de criterio y de constructo | Alta aceptación por los pacientes |
Gladman 199257 | 7 pacientes evaluados por 4 a 7 reumatólogos de distintos países | Comparación entre BILAG, SLAM y SLEDAI | Validez de constructo | Médicos de distintos países evalúan la actividad similar a pesar del índice |
Gladman 199428 | 8 pacientes con 3 visitas evaluados por 8 médicos | Comparación entre BILAG, SLAM y SLEDAI | Validez de constructo y sensibilidad al cambio | Sensibilidad al cambio basada en el cambio medio de cada índice |
Liang 198922 | 25 pacientes evaluados por 2 reumatólogos | Compara: SLAM BILAG y SLEDAI | Fiabilidad y validez de constructo | Los 2 evaluadores del mismo centro |
Fortin 200040 | 96 pacientes | Comparación entre SLAM y SLEDAI | Sensibilidad al cambio | Utilizan 5 métodos distintos |
Ward 200041 | Estudio prospectivo con 20 pacientes | SLAM, BILAG, SLEDAI, LAI, y ECLAM | Validez de constructo y sensibilidad al cambio | Baja correlación entre los índices y VGP |
Wollaston 20041 | 80 casos evaluados por 20 expertos en LES (miembros de SLICC) | BILAG y SLEDAI vs. la valoración del médico | Fiabilidad y validez de constructo | Comparación con la VGM, que mostró gran variabilidad |
Griffiths 200551 | Revisión narrativa | Descripción de la mayoría de índices | – | – |
Isenberg 20118 | 16 pacientes evaluados por 16 reumatólogos | Comparación:BILAG2004, SELENA y la VGM en la evaluación de brote | Fiabilidad intraobservador | Peor concordancia en el brote moderado |
Romero-Diaz 201117 | Revisión narrativa | Descripción que incluye la mayoría de índices | – | Actualización de la versión de 2003 |
BILAG: British Isles Lupus Assessment group; C: complemento; CCI: coeficiente de correlación intraclase; ECLAM: European Consensus Lupus Activity Measurement; EO: estándar de oro; LDIQ: Lupus Damage Index Questionnaire; SDI: Systemic Damage Index; SLAM: Systemic Lupus Activity Index; SLAQ: Systemic Lupus Activity questionnaire; SLEDAI: Systemic Lupus Erythematosus Disease Activity Measure; tto: tratamiento; VGM: valoración global del médico; VGP: valoración global del paciente.
En el diagrama de la figura 1 se detallan los resultados de la búsqueda. En la estrategia de búsqueda se identificaron un total de 704 artículos, de los cuales 50 fueron seleccionados para una revisión en detalle tras la exclusión de 519 referencias por título y resumen. Un total de 38 artículos fueron incluidos y 11 fueron excluidos al no cumplir los criterios de inclusión. En la tabla 3 se detallan los estudios excluidos y los motivos de su exclusión.
Estudios excluidos y razones de exclusión
Estudio | Razones de exclusión |
Liang, 1991 | Descripción narrativa sobre los índices validados hasta el momento |
Stoll, 1996 | Evaluación del SLICC como predictor de mortalidad |
Gladman, 1999 | Descripción narrativa del desarrollo del SLICC/ACR Damage Index |
Silvestris, 1999 | Revisión en italiano |
Ward, 2000 | Escala para valorar el estado de salud deseado por el paciente |
Mosca, 2006 | Revisión narrativa sobre las implicaciones de remisión en pacientes con LES |
Mattson, 2008 | Validación de una escala de fatiga en LES |
Ruperto, 2011 | Encuesta tipo Delphi entre expertos para llegar a un consenso para la definición de brote lúpico |
Lai, 2011 | Validación de una escala de fatiga para pacientes con LES |
Jolly, 2012 | Instrumento para medir la calidad de vida en pacientes con LES |
Julian, 2012 | Evaluación de una herramienta para valorar el deterioro cognitivo en pacientes con AR y LES |
Los artículos incluidos abordan la validación de 6 índices compuestos de actividad de la enfermedad: British Isles Lupus Assessment group (BILAG), European Consensus Lupus Activity Measurement (ECLAM), Systemic Lupus Activity Index (SLAM), Systemic Lupus Erythematosus Disease Activity Measure (SLEDAI), UCSF/JHU Lupus Activity Index (LAI) y Systemic Lupus Activity questionnaire (SLAQ), y 3 índices para evaluar daño acumulado: Systemic Lupus International Collaborating clinics/American College of Rheumatology-Damage Index (SLICC/ACE-DI [SDI]), Lupus Damage Index Questionnaire (LDIQ) y Brief Index of Lupus Damage (BILD).
A continuación, se revisarán en detalle las características de cada índice, así como su validación. En la tabla 4 se resumen los aspectos de la validación de todos estos índices para permitir una sencilla comparación entre ellos.
Aspectos de validación para índice de actividad de la enfermedad y daño
Nombre del instrumento | ViabilidadTiempo empleado, claridad y aceptación | Fiabilidad | Validez | Sensibilidad al cambio | Aplicabilidad | ||||
Consistencia interna: α Cronbach | Intrao test-retest: CCI/Cohen kappa | Intero. error de medición: ESM/MDC/LA | Validez aparente: relevante y comprensible | Validez de constructo:1. Estructural2. Test de Ho3. Cross-cultural | Validez de criterio: Estándar de oro (correlaciones/AUC: variables continuas y S/E: dicotómicas) | Capacidad para detectar cambios: múltiples métodos | |||
Índices para evaluar actividad de la enfermedad | |||||||||
British Isles Lupus Assessment Group (BILAG) BILAG 200412 | Precisa una HC y EF completa. 5-20min | α = 0,356 | kappa=0,79-0,975 CCI=0,48 (IC del 95%, 0,23-0,81)12Kappa evaluación brote lúpico8BILAG=0,54SELENA=0,21VGM=0,18 | NE | Se comparó la puntuación con decisiones reales de tratamiento en un grupo de pacientes4 | Asociación con ↑ VSG, dsADN, SLEDAI y ↓ C3/C49VGP rho=0,50 y VGM rho=0,436↑ VSG: OR=2,9, ↑ dsADN: OR=2,7 SLEDAI > 4: OR=20 ↓ C3: OR=5 ↓ C4: OR=4,213 | BILAG «A» score: S=87% y E=99%VPP=80% (> dosis de esteroides e IS)5 EO/cambio medicación: OR=19,3, p<0,01S=81%, E=91,9%, VPP=56,8% y VPP=93,6%13 | RME (VGM)=0,6841Un aumento en el BILAG se asocia a un aumento del tratamiento10 | EntrenamientoRecomendaciones específicas para ECA y multicéntricos |
European Consensus Lupus Activity Measurement (ECLAM)18,20,41 | Precisa una HC y EF 5-10 minSencillo de calcular | NE | NE | Coef. de correlación=0,90-0,9320 | Variables que mejor se correlación con la VGM | Correlación con SLAM, SLEDAI y BILAG =0,72 a 0,7841 | EO/VGM: r=0,69Similar a: BILAG=0,63SLAM=0,61SLEDAI=0,66 | RME (VGM)=0,7541 | Precisa cierto entrenamiento |
Systemic Lupus Activity Measure (SLAM)22,23,28,40 | Precisa una HC y EF 10-15min | NE | NE | =0,86 22 | NE | SLE índices=0,81-0,97VGM=0,76-0,9622BILAG=0,7950 | NE | RME (VGM)=0,6241RME (LS)Mejor: –0,88Peor: 0,6140 | Precisa entrenamiento |
SLAM-R23 | NE | NE | =0,78 mediante ANOVA | =0,78 mediante ANOVA | NE | VGM r=0,87dsADN r=0,51C3 r=–0,60C4 r=–0,29 | EO: SLEDAI-2K33: S=73%E=33% | RME (VGM) M: –0,47; p = 0,65RME (VGP): M: –0,31; p = 0,4829 | Incluye manifestaciones subjetivas: fatiga, artralgia y mialgias |
Systemic Lupus Erythematosus Disease Activity Measure (SLEDAI)24,28 | Requiere HC, EF y análisis. 10 a 20 min | NE | Análisis de variancia, coef. correlación=0,3337 | Intrao=0,66-0,99 Intero=0,60-0,8024Intero=0,4737 | NE | VGM r=0,64-0,7924VGM rho=0,5537BILAG rho=0,76SLAM rho=0,7357 | NE | RME (VGM)=0,4841RME (VGM)=0,66RME (VGP)=0,0529RME (LS)=0,5740 | |
SLEDAI-2K26 | Ídem | NE | NE | NE | NE | SLEDAI rho=0,9726 SLAM-R rho=0,59 VGM rho=0,6833 | NE | NE | |
MEX-SLEDAI27 | Se completa en 16,9 min | NE | NE | Spearman Intero=0,87-0,89 | NE | VGM rho=0,68SLEDAI rho=0,7727SLAM-R rho=0,75VGM rho=0,5433 | EO: SLEDAI-2K33S=58% y E=93% | Método de Guyatt (gráfica) | |
UCSF/JHU Lupus Activity Index (LAI)37 | 1 min | NE | Análisis de variancia, coef. correlación=Intrao=0,8137 | Intero=0,8937 | NE | LAI/VGM=0,6437 | NE | NE | |
Systemic Lupus Activity questionnaire (SLAQ)a38,39 | Lo completa el propio paciente | α = 0,87 | NE | NE | NE | SLAM (no lab) rho=0,62, p<0,001VGM rho=0,73SF-36 rho=0,66 | NE | RME=0,12 | Desarrollado para estudios epidemiológicos |
Índices para evaluar daño acumulado | |||||||||
Systemic Lupus International Collaborating Clinics Damage Index (SLICC-DI; SDI)42,43,45,58 | Se necesita una HC y EF. Aprox. 15min (según complejidad) | α = 0,4114 | CCI=0,553 | 10 pacientes y 6-10 médicos de 5 países43 | NE | BILAG rho=0,19Tratamiento rho=0,3314 | NE | NE | Seguir recomendaciones de algún miembro del SLICC |
Lupus Damage Index Questionnaire (LDIQ)a47 | Lo completa el paciente | NE | NE | NE | Variables incluidas en SDI | LDIQ/SDI rho=0,48 | EO: SDI: S=53,3% y E=94,6% | NE | |
Brief Index of Lupus Damage (BILD)a49 | Lo completa el paciente | NE | NE | NE | Variables incluidas en SDI | Características demográficas y clínicas por cuartiles | BILD/SDI rho=0,64LDIQ/SDI rho=0,54 | NE | Alta aceptación por los pacientes |
AUC: área debajo la curva; CCI: coeficiente de correlación intraclase; ECA: ensayo clínico aleatorizado E: especificidad; EF: exploración física; EO: estándar de oro; ESM: error estándar de medida; HC: historia clínica; Intero: interobservadores; Intrao: intraobservadores; LA: límites de acuerdo; LHR+: razón de verosimilitud positiva; LHR–: razón de verosimilitud negativa; LS: escala Likert; MCD: mínimo cambio detectable; NE: no evaluado; r: coeficiente de correlación Pearson; rho: coeficiente de correlación Spearman; RME: respuesta media estandarizada; S: sensibilidad; VGM: valoración global por el médico; VGP: valoración global por el paciente; VPN: valor predictivo negativo; VPP: valor predictivo positivo.
El grupo de las Islas británicas para la valoración del lupus (BILAG) se empezó a reunir de forma regular en 1984 y en 1988 elaboró, por primera vez, un índice para medir la actividad de la enfermedad en pacientes con LES4. Este índice fue desarrollado basándose en la intención de tratar por el médico y evalúa manifestaciones específicas que precisan tratamiento en un total de 8 órganos o aparatos: general, mucocutáneo, neurológico, musculoesquelético, cardiorrespiratorio, vasculitis, renal y hematológico. Al contrario de otros índices que proporcionan una valoración global de la enfermedad, el BILAG proporciona una valoración por órgano o sistema.
Posteriormente, se realizaron ciertas modificaciones menores de este índice y se evaluaron tanto su fiabilidad como su validez. En un estudio de Hay et al. de 19935, se evalúa la versión 3 del BILAG que incluye un glosario con recomendaciones y explicaciones para facilitar su uso. El BILAG mostró una buena fiabilidad intraobservador, con un kappa que osciló entre 0,79 y 0,97, dependiendo del sistema evaluado. Para evaluar la validez de criterio el BILAG, se comparó con un estándar de oro definido como el inicio o aumento de tratamiento, bien con prednisona u otro tratamiento inmunosupresor. La sensibilidad del BILAG para el grado A en cualquier órgano o sistema fue del 87% y la especificidad del 99%. El coeficiente α de Cronbach del BILAG, calculado para evaluar la consistencia interna y, por tanto, la asociación entre los componentes del BILAG, es de 0,35, por debajo de lo que se recomienda para comparaciones fiables. El BILAG mostró una correlación moderada con la evaluación global del médico (ρ = 0,43) y con la valoración del paciente (ρ = 0,50)6.
El BILAG también se utiliza para evaluar la aparición de brotes en pacientes con lupus. La presencia de un brote severo se define como una puntuación de A de nueva aparición y un brote moderado se define con una puntuación de B, si previamente era de D o E. Un estudio publicado en 2003 por Gordon et al. evaluó el grado de acuerdo entre la definición de brote mediante BILAG y la actitud real en cuanto a tratamiento de los reumatólogos en práctica clínica rutinaria7. El 92% de los pacientes con un brote severo (A) recibió una intensificación del tratamiento por su médico y tan solo el 41% en el caso de brote moderado (B). No solo el BILAG es útil para evaluar la presencia de un brote lúpico. En un estudio de Isenberg et al. se compararon 3 métodos para evaluar el brote: BILAG 2004, un índice de brote generado para el Safety of Estrogens in Lupus Erythematosus National Assessment (SELENA), denominado SELENA.SLEDAI Flare Index (SFI) y la VGM8. El BILAG 2004 presentó el CCI más alto (0,54 [IC el 95%, 0,32-0,78]) comparado con el SFI (0,21 [IC del 95%, 0,08-0,48]) y la VGM [0,18 (IC 95%: 0,06-0,45)].
La validez del BILAG ha sido evaluada en numerosos estudios. En un estudio de 2010 se evaluó la validez de constructo9 mediante la hipótesis de que pacientes con puntuaciones más altas en el BILAG presentarían niveles más altos de velocidad de sedimentación globular (VSG), anti-ADN de doble cadena y SLEDAI, y por el contrario, presentarían niveles más bajos de complemento. La asociación entre estas variables fue la esperada con un OR=2,6 (1,2-4,3) para una VSG > 60mm/h, OR=2,5 (1,4-3,6) para un anti-ADN de doble cadena superior a 5 veces el valor normal, OR=4,8 (1,4-15,1) para un C3 por debajo de la mitad del valor normal, OR=4,1 (2,3-5,8) para un C4 por debajo de la mitad del valor normal y una OR=215,6 (99,8-387,6) para un valor del SLEDAI por encima de 6.
Solo un estudio ha sido específicamente diseñado para evaluar la sensibilidad al cambio del BILAG10. En este estudio multicéntrico y longitudinal, se evaluó la relación entre el cambio en el BILAG 2004 y el cambio en el tratamiento entre 2 visitas consecutivas. El aumento del BILAG se asoció a un aumento en el tratamiento (coeficiente de la regresión logística multinomial: 1,35; IC del 95%, 1,01-1,70). En el sentido opuesto, también se encontró esta asociación.
El BILAG se puede calcular manualmente, aunque existe un software informático conocido como British Lupus Integrated Prospective System (BLIPS) que incorpora variables demográficas y la información clínica necesaria para calcular no solo el BILAG, sino otros índices compuestos como el SLAM, SLEDAI, SDI y el SF-3611.
Una versión actualizada del BILAG ha sido publicada en 2005 por Isenberg et al. en un intento de mejorar las características del índice12. En este estudio, donde se describe el BILAG 2004, se evaluó su viabilidad o capacidad para ser aplicado mediante 2 ejercicios con pacientes reales que fueron examinados por 8 médicos pertenecientes al grupo BILAG. Se calculó el CCI para el BILAG total (0,48; IC del 95%, 0,23-0,81) y para cada uno de los 9 sistemas. El sistema que mostró un CCI más alto fue el renal (0,98; IC del 95%, 0,96-0,99) y el que mostró un CCI más bajo fue el musculoesquelético (0,17; IC del 95%, 0,01-0,56). Otra medida empleada en este estudio para evaluar la viabilidad fue la ratio entre la desviación estándar atribuible a los médicos y la misma medida atribuible al paciente consigo mismo, mostrando un acuerdo alto en el sistema mucocutáneo, nervioso, renal, oftalmológico y hematológico. En ambos ejercicios, el sistema musculoesquelético mostró una baja fiabilidad en términos de CCI y nivel de acuerdo entre los médicos.
El BILAG 2004ha sido desarrollado a partir del índice original e incluye 9 sistemas: general, mucocutáneo, sistema nervioso, musculoesquelético, cardiovascular/respiratorio, gastrointestinal, renal, oftalmológico y hematológico. Se compone de varios ítems o preguntas que son evaluadas en una escala de 0 a 4, donde 0 corresponde a «no presente», 1 equivale a «mejorando», 2 es «similar», 3 es «peor» y 4 es «acontecimiento nuevo». Las respuestas se combinan para formar 5 posibles estados de actividad por sistema: A, el paciente está muy activo y, por tanto, precisaría tratamiento con inmunosupresores, corticoides a dosis media o alta (> 20mg de prednisolona o equivalente) o anticoagulación a dosis alta; B, cierta actividad y, por tanto, plantea la necesidad de tratamiento con dosis moderada de corticoides (< 20mg de prednisolona), antimaláricos, antidepresivos, o AINE; C, poca actividad con necesidad solo de tratamiento sintomático; D, no actividad en este momento, aunque sí previamente, y E, nunca ha presentado actividad en este sistema.
Otros intentos de validación del BILAG 2004 fueron llevados a cabo por Yee et al. en 2007. Se evaluó la validez de criterio utilizando como estándar de oro el cambio de tratamiento y la validez de constructo intentando corroborar la hipótesis de que pacientes con valores más altos en el BILAG 2004 tendrían valores más altos de VSG, anticuerpos anti-ADN de doble cadena y valores más bajos de complemento13. Valores del BILAG 2004 que indican actividad alta o moderada de la enfermedad (A y B) se asociaron de forma significativa con un aumento en la medicación (OR=19,3, p<0,01). Además, el BILAG 2004 tuvo una sensibilidad del 81%, una especificidad del 91,9%, un valor predictivo positivo del 56,8% y un valor predictivo negativo del 93,6% respecto al cambio de tratamiento. Las puntuaciones más altas del BILAG 2004 se asociaron a una VSG mayor de 60mm/h (OR=2,9), una elevación en el anti-ADN de doble cadena (OR=2,7), una elevación en el SLEDAI por encima de 4 (OR=20) y una disminución a la mitad de C3 (OR=5) y C4 (OR=4,2).
Aunque el BILAG es una escala ordinal que permite dar una evaluación global de la enfermedad, algunos autores han propuesto su transformación en una escala numérica para facilitar los análisis estadísticos. Inicialmente, se propuso el siguiente esquema: A=9 puntos, B=3 puntos, C=1 punto y tanto D como E equivaldrían a 0 puntos, con un rango de 0 a 7214. En 2009, Cresswell et al. presentaron un estudio que tenía como objetivo validar una puntuación numérica para el BILAG15. Describieron 3 métodos distintos de puntuación mediante modelos de regresión logística y, posteriormente, los comparan mediante curvas ROC. La transformación finalmente seleccionada fue A=12, B=5, C=1 y D/E=0.
El BILAG es el único instrumento validado que da una idea de la actividad del lupus en cada órgano de un simple vistazo en lugar de combinar la información en una puntuación global16. Se recomienda familiarizarse con el glosario donde se define cada ítem y seguir las pautas y recomendaciones establecidas por el grupo BILAG, especialmente las recomendaciones específicas para su uso en ECA y estudios multicéntricos5,17.
European Consensus Lupus Activity MeasurementEl ECLAM fue descrito por el grupo de trabajo europeo para el consenso de medición de actividad en LES en 199218. Es un índice diseñado para medir la actividad de la enfermedad en el último mes en pacientes con lupus.
Este índice fue desarrollado a partir de una cohorte que incluía a un importante número de pacientes reales. En un análisis inicial, se desarrolló el índice y se evaluaron su viabilidad y validez, tanto aparente como de contenido18. Para ello se seleccionaron aquellas variables clínicas y de laboratorio que mejor se correlacionaran con la VGM como estándar de oro, tanto en una escala cuantitativa (0-10) como en una escala cualitativa (de inactivo a muy activo). Mediante un análisis univariable, se seleccionaron un total de 15 variables capaces de predecir la actividad de la enfermedad. Posteriormente, mediante un análisis multivariable se definió el peso de cada una de estas variables, a las que se les asignó una puntuación específica. El ECLAM no solo permite clasificar correctamente a los pacientes según su nivel de actividad de la enfermedad, es, además, un índice fácil de calcular. En un segundo estudio, se evaluó la validez de constructo, siendo el estándar de oro la VGM y la validez de criterio, comparando el ECLAM con otros índices compuestos19. La correlación del ECLAM con el SLAM, BILAG y SLEDAI fue mayor de 0,72. Estos 4 índices se correlacionaron de forma similar con la VGM.
El ECLAM incluye la evaluación de 10 órganos y/o aparatos y 2 valores de laboratorios que son la VSG y los niveles de complemento. Se compone de un total de 33 ítems que se evalúan de 0,5 a 2, según el tipo de afectación, y suman una puntuación global que va de 0 a 17,5.
El ECLAM es un índice sencillo que se puede usar en estudios retrospectivos, ya que existe una buena correlación entre el ECLAM calculado de forma inmediata y aquel calculado con los datos recogidos en la historia clínica (rho=0,871)20. Además, se puede calcular mediante un sistema informatizado con resultados muy similares a su cálculo manual (r=0,90-0,92)21.
Systemic Lupus Activity IndexEste índice mide el grado de actividad de forma global en el último mes. La primera publicación en la que se describe fue en 198622. Dos años después, fue revisado por los residentes de la Universidad de Harvard, que modificaron el apartado de manifestaciones cardiovasculares y «otras» para mejorar la claridad y la reproductibilidad, dando como resultado una nueva versión, el SLAM-R. En 2001, Bae et al. presentan un estudio de 30 pacientes para evaluar la viabilidad y la validez de constructo de esta nueva versión23. Se estimó la fiabilidad mediante análisis de variancia, siendo la fiabilidad interobservador de 0,78 y la intraobservador de 0,61. Respecto a la validez de constructo, se calcularon correlaciones de Pearson del SLAM-R con la VGM (0,87), niveles de anti-ADN de doble cadena (0,51), C3 (–0,60) y C4 (–0,29)
El SLAM evalúa manifestaciones específicas en 9 órganos e incluye 7 medidas de laboratorio. Algunos ítems se puntúan de 0 a 3, según el grado de severidad, y otros solo se evalúan de 0 a 1. La máxima puntuación es 84, siendo la parte de laboratorio un máximo de 21 puntos. Una puntuación de 7 o más se considera relevante, ya que el paciente va a precisar un cambio en el tratamiento en el 50% de los casos.
El SLAM es considerado por algunos expertos el índice menos adecuado, ya que incluye medidas subjetivas, como la fatiga y las artralgias; sin embargo, estas variables deben ser puntuadas por el médico siempre y cuando considere que son debidas a la actividad del lupus8. Se necesita entrenamiento, ya que es necesario alcanzar un consenso para evaluar los aspectos subjetivos, especialmente en estudios multicéntricos17.
Systemic Lupus Erythematosus Disease Activity MeasureEl SLEDAI es un índice global que fue desarrollado por un grupo de expertos de Toronto en 1986 y descrito con detalle por Bombardier et al. en 199224. Fue modificado por el grupo SELENA durante un estudio para evaluar el uso de estrógenos y progesterona en mujeres con LES25 y, posteriormente, fue actualizado por Gladman et al. en el 200026. Además, existe una versión desarrollada por investigadores mexicanos que, para disminuir los costes del uso de este índice, excluyeron algunos valores de laboratorio27.
Por lo tanto, actualmente existen 4 versiones de este índice: SLEDAI, SELENA-SLEDAI, SLEDAI 2000 y MEX-SLEDAI.
Para desarrollar la primera versión del SLEDAI se identificaron 24 variables que podrían ser factores importantes para evaluar la actividad de la enfermedad en pacientes con LES. Con estas variables, se generaron 574 perfiles de posibles pacientes y se presentó esta información a 14 reumatólogos expertos en LES para que evaluaran el grado de enfermedad en una escala de 0 a 10. Se utilizaron modelos de regresión múltiple para estimar la importancia relativa de cada una de estas 24 variables clínicas según la valoración de los expertos y de esta forma se generó este índice global24.
El SLEDAI, por tanto, es un índice global que evalúa la actividad de la enfermedad en los últimos 10 días y se compone de 24 ítems que recoge manifestaciones específicas en 9 órganos o sistemas con una puntuación máxima de 105.
En un estudio de 1992 de Guzmán et al. se compararon varios aspectos de la validación del MEX-SLEDAI con el SLEDAI original27. La correlación entre 2 evaluadores calculando estos índices osciló entre 0,87 y 0,89. El acuerdo para la valoración de la enfermedad entre los médicos fue moderado, con un kappa de 0,43 (p=0,17). La validez de constructo se evaluó usando como comparador la VGM (en una escala de 0 a 10), con una correlación prácticamente idéntica para ambas versiones de 0,68; la correlación entre ambas versiones fue de 0,77.
EL SLEDAI se puede utilizar tanto en investigación como en práctica clínica. Y ha demostrado ser una herramienta sensible al cambio28. Para evaluar la sensibilidad al cambio del SLEDAI comparándolo con el SLAM-R, Chang et al. realizaron un análisis secundario de los datos obtenidos de un ECA multicéntrico canadiense donde se evaluó la eficacia de metotrexato en pacientes con LES29. Se compararon los cambios en estos 2 índices respecto a los cambios en la valoración del médico y del paciente. Respecto a la evaluación del médico, la respuesta estandarizada media de control (C-SRM) para el SLAM-R y el SLEDAI fue de –0,47 vs. –0,42 para mejoría y 0,65 vs. 0,66 para empeoramiento. Respecto a la evaluación del paciente, la C-SRM para el SLAM-R y el SLEDAI fue de –0,31 vs. –0,18 para mejoría y 0,48 vs. 0,05 para empeoramiento. Solo el SLAM-R mantuvo el 0 fuera del IC del 95% para detectar mejoría o deterioro. Ambos índices exhiben una sensibilidad al cambio relevante para los médicos pero solo el SLAM-R exhibe una sensibilidad al cambio relevante para los pacientes, posiblemente por la inclusión de variables más subjetivas evaluadas por el propio paciente.
En 2002 se introdujo una versión revisada y actualizada del SLEDAI, el SLEDAI 2000 (SLEDAI-2K), en el cual se puntúan el rash, la alopecia, las úlceras o la proteinuria persistente, y no solo de nueva aparición, como ocurría en la versión previa26. El SLEDAI-2K fue validado frente al SLEDAI original con una evaluación en los 10 días previos a la visita y además fue validado con un espacio temporal de 30 días para su utilización en ECA30,31. El SLEDAI-2K y la versión previa tuvieron una alta correlación (r=0,97) y ambos índices predicen mortalidad de forma similar26.
El SLEDAI-2K recoge los aspectos de la enfermedad como presentes o ausentes y no puede reflejar mejoría parcial, lo cual limita su utilización en ECA. Por este motivo, en 2011 Touma et al. desarrollaron un índice de respuesta del 50% (SRI-50) para documentar un 50% de mejoría en SLEDAI32. En este estudio, evaluaron la validez de constructo utilizando como comparador externo una valoración de la respuesta al tratamiento por el médico en una escala tipo Likert (LS) que va de 7 (mejoría importante) a 1 (mucho peor). Un 50% de mejoría en esta escala sería un cambio mayor o igual a 6. En pacientes con una mejoría ≥ 6 en la LS se produjo una disminución del SRI-50 de 4,15 ± 3,01 (p<0,0001).
En 2004, Uribe et al., en un intento de profundizar más en la validación de las versiones disponibles del SLEDAI, presentaron un estudio en el que se analizó la validez de constructo del SLAM-R, el MEX-SLEDAI y el SLEDAI-2K usando como criterio externo la VGM en una escala visual analógica (EVA) de 0 a 1033. Las correlaciones de Spearman de estos índices con la VGM oscilaron entre 0,54 para el MEX-SLEDAI y 0,67 para el SLEDAI-2K. En un intento de evaluar la validez de criterio usando como estándar de oro el SLEDAI-2K, se constató que la sensibilidad del SLAM-R fue del 73%, mientras que la del MEX-SLEDAI fue del 58%. En cuanto a la especificidad, fue del 63% para el SLAM-R y el 93% para el MEX-SLEDAI.
UCSF/JHU Lupus Activity IndexEl índice LAI se utilizó inicialmente en estudios de infecciones graves y afectación renal en pacientes con LES34-36. Se trata de una escala con 5 dominios que reflejan la actividad de la enfermedad en la 2 semanas previas y se completa por el médico en aproximadamente un minuto. Como en el resto de los índices, solo se evalúan aquellas manifestaciones atribuibles al LES. Incluye una VGM en una EVA de 0 a 3, e incluye 4 EVA para fatiga, rash, articulaciones y serositis, y una parte que cuantifica la afectación en 4 órganos: neurológico, renal, pulmonar y hematológico, en EVA de 0 a 3. Además, esta última parte asigna distintas puntuaciones según la necesidad de medicación y valores de laboratorio.
En un estudio de Petri et al.37, se evaluaron la fiabilidad y la validez de constructo de este índice comparado con el SLEDAI utilizando como referencia la VGM. La VGM tuvo una correlación más alta con el LAI (r=0,64) que con el SLEDAI (r=0,55). En cuanto a la fiabilidad, el LAI mostró mayor fiabilidad, tanto intra como interobservador.
Systemic Lupus Activity questionnaireEl SLAQ se desarrolló como herramienta de medida por el propio paciente para ser utilizada en estudios epidemiológicos y grandes cohortes de pacientes. Fue descrito y validado por Karlson et al. en 200338. Fue desarrollado en una cohorte clínica de 93 pacientes y se comparó con el SLAM (sin incluir datos de laboratorio), mostrando una buena correlación (r=0,62, p<0,001). La correlación individual de cada ítem entre paciente-médico osciló entre 0,06 para la evaluación de linfadenopatías y vasculitis y 0,7 para la evaluación de síndrome de Raynaud.
Posteriormente, Yazdany et al. evaluaron otros aspectos de la validación en una cohorte de 982 pacientes39. El SLAQ mostró una buena consistencia interna, con un α de Cronbach de 0,87. Para evaluar la validez de constructo, los autores examinaron la correlación del SLAQ con la VGP (r=0,73) y con el SF-36 (r=0,66). El índice mostró una baja sensibilidad al cambio con una SRM de 0,12, aunque cuando fue comparado con el cambio en otras medidas la puntuación del SLAQ cambió en la dirección adecuada.
Estudios que comparan los índicesEl primer estudio en el que se comparan varios índices compuestos se presenta en 1989 por Liang et al.22. En este estudio se analiza la fiabilidad del SLAM, SLEDAI y BILAG, y su validez de constructor; por un lado, se calculó la correlación entre cada índice y los demás (que osciló entre 0,81 y 0,97) y, por otro, calculando la correlación de cada uno de ellos con la VGM en una EVA de 0 a 10 (r=0,76-0,96). En un intento de evaluar no solo la validez de constructo, sino también la sensibilidad al cambio, Gladman et al. diseñan un estudio en el que 8 pacientes, con 3 visitas por paciente, son evaluados por 8 reumatólogos28. La correlación entre estos 3 índices osciló entre 0,35 y 0,61. Respecto a la sensibilidad al cambio, solo el SLEDAI fue capaz de diferenciar entre visitas mediante el análisis de variancia. Estos resultados están basados en el cambio medio de cada índice y, por tanto, es difícil evaluar la relevancia clínica de este cambio observado en cada paciente. Unos años más tarde, Fortin et al. realizan un estudio para valorar la sensibilidad al cambio mediante distintos métodos y utilizando como criterio externo la valoración del cambio realizada por el médico en una LS de 5 puntos, que va de «mucho mejor» a «mucho peor»40. Los 3 índices mostraron ser sensibles al cambio, el SLAM con mejores resultados. Los autores interpretan que esta pequeña diferencia puede ser debida a que el SLAM permite dar valores crecientes según la gravedad mientras que el SLEDAI tiene una puntuación fija para cada ítem.
En otro estudio del mismo año, Ward et al. evaluaron la validez de constructo y la sensibilidad al cambio del SLAM, SLEDAI, LAI, BILAG y el ECLAM41. Todos estos índices resultaron válidos para medir la actividad de la enfermedad en pacientes con LES. El SLAM es el que capturaba mejor la percepción del paciente (r=0,22; p<0,0001). La correlación entre el cambio en cada uno de los índices y el cambio en la valoración del médico fueron en orden decreciente: LAI r=0,75; ECLAM r=0,65; BILAG r=0,61; SLAM r=0,54 y el SLEDAI r=0,52, todos con una p<0,0001. El índice que mostró mayor sensibilidad al cambio medido por la SRM y usando la VGM como referencia fue el LAI (SRM=0,74) y el más pequeño, el SLEDAI (SRM=0,48).
En un intento por desarrollar un índice que evaluara la respuesta al tratamiento, en 2004 Wollastron et al. compararon el cambio en 2 índices validados, el BILAG y el SLEDAI, con el cambio en la actividad de la enfermedad evaluado por un médico experto en lupus usando una LS de 7 puntos (1=mejoría importante y 7=empeoramiento respecto a actividad basal)1. El CCI de la valoración del médico en los 4 grupos de evaluadores osciló entre 0,25 y 0,46. El cambio de basal a 3 meses del SLEDAI tuvo una buena correlación con el cambio del BILAG (r=0,75, IC del 95%, 0,63-0,83). La conclusión de este estudio fue que, mientras los índices compuestos son comparables entre ellos, existe una gran variabilidad en la valoración realizada por los médicos, incluso entre médicos con gran experiencia con pacientes con lupus.
Índices para evaluar daño en el lupus eritematoso sistémicoSystemic Lupus International Collaborating clinics/American College of Rheumatology-Damage IndexDesarrollado en 1996 por un grupo de colaboración internacional (grupo SLICC) y adoptado por el CAR42. En este primer estudio, se desarrolló el índice y se evaluó su validez aparente y de contenido. Se generó una lista de variables que podrían reflejar daño en pacientes con LES y se llegó a un consenso sobre qué variables debían ser incluidas en un índice para evaluar daño irreversible. En otro estudio del mismo año y por los mismos autores, se evaluó la fiabilidad interobservador mediante 10 pacientes a los que reumatólogos de 5 países distintos aplicaron este índice43. Los autores concluyeron en este estudio que médicos de distintos países evalúan el daño en pacientes con LES de forma muy similar.
El SDI evalúa daño irreversible en pacientes con lupus sin tener en cuenta la causa que lo produce. Incluye 42 ítems que miden la afectación de 12 dominios con una puntuación máxima de 46 puntos. Cada ítem es evaluado como presente o ausente con la posibilidad de puntuar un 2 o 3 en caso de eventos recurrentes, como por ejemplo puede ser el caso de un accidente cerebrovascular.
La definición de daño en pacientes con LES es un cambio irreversible en un órgano o sistema que ha ocurrido desde el inicio del LES y está presente al menos durante los últimos 6 meses. En el momento del diagnóstico, la puntuación debería ser 0 por definición.
El SDI lo completa el médico en la visita basal al entrar en un ECA. Tiene una consistencia interna moderada (α de Cronbach=0,41). En un intento por evaluar la validez de constructo, Stoll et al. compararon el SDI con el BILAG y con una puntuación de la medicación del pacientes, en ambos casos con muy baja correlación (0,19 para el BILAG y 0,33 para el índice de medicación)14.
Cuando el SDI es completado por otro médico al revisar de forma retrospectiva la historia clínica del paciente, también muestra buena fiabilidad interobservador44. Los valores de SDI aumentan con la evolución de la enfermedad de forma similar en pacientes de distintos países y, además, es una herramienta que predice mortalidad en pacientes con LES45,46.
Lupus Damage Index QuestionnaireEl LDIQ fue descrito por Costenbader et al. en 2010, en un intento de desarrollar una medida de daño irreversible basada en el SDI pero completada por el propio paciente para ser utilizada en práctica clínica o en estudios epidemiológicos47. En este estudio hay una primera etapa de desarrollo del índice donde se evalúa la validez aparente y de contenido con un grupo de 37 pacientes y 7 reumatólogos, y posteriormente, una validación más elaborada a nivel multicéntrico. Para evaluar la validez de criterio se utiliza como estándar de oro el SDI, dando como resultado una sensibilidad del 53,3%, una especificidad del 94,6% y un grado de acuerdo entre las 2 medidas del 93,2%. Para evaluar la validez de constructo, se calculó la correlación entre LDIQ y SDI (coeficiente de correlacion de Spearman=0,48, p<0,001).
El LDIQ consta de 56 preguntas para evaluar cada dominio incluido en el SDI y está diseñado para ser administrado como una encuesta. Sus versiones en español, portugués y francés han sido validadas48.
Brief Index of Lupus DamageEl BILD fue descrito en 2011 por Yazdany et al. como una medida de daño en pacientes con LES para ser usada en estudios poblacionales49. Al igual que el LDIQ, lo completa el propio paciente pero es una versión más corta que incluye solo 28 preguntas. La validez de criterio del BILD se examinó mediante su correlación con otro instrumento que también mide daño, como es el SDI, y que se puede considerar como el estándar de oro (r=0,64, p<0,001). La validez de constructo se evaluó comparando las características demográficas y clínicas de los pacientes divididos en los 4 cuartiles del BILD. Los pacientes con valores más altos para el BILD fueron mayores, con mayor duración de la enfermedad y con mayor actividad de la enfermedad.
DiscusiónPara medir la actividad de la enfermedad y el daño irreversible en pacientes con LES necesitamos una medida compuesta cuantitativa que tenga una aceptable validación. Diseñar estas medidas compuestas supone un reto, dada la afectación multisistémica en el LES y su extensa variabilidad. En el momento actual, existen múltiples herramientas con mayor o menor grado de validación, aunque ninguna ha sido aceptada como la única medida recomendada a nivel internacional. La elección de la medida más apropiada en cada caso dependerá fundamentalmente del contexto en el que se vaya a utilizar y la pregunta que se quiera responder en términos de evaluación de la enfermedad.
A grandes rasgos, existen 2 tipos de índices de actividad, los que funcionan como medidas globales (como el ECLAM, SLAM, SLEDAI y LAI) y los que dan una puntuación específica para cada órgano o sistema (BILAG).
Los índices globales se consideran útiles para comparar cohortes de pacientes con LES, ya que son más sencillos de aplicar y, por tanto, más útiles en estudios poblacionales. También se pueden utilizar para definir criterios de inclusión en ECA o criterios de respuesta a un tratamiento. Pero estos índices no dan información sobre el grado de actividad en un órgano específico, para lo que serían más útiles los índices por órgano/sistema.
En cuanto a su viabilidad, la mayoría de estos índices son complejos y requieren información de la historia clínica y la exploración física. El índice que requiere más tiempo es el BILAG y los más sencillos de aplicar, el LAI y el SLAQ. La consistencia interna fue solo evaluada en el BILAG y el SLAQ, siendo mayor en este último. Respecto a la fiabilidad interobservador, el índice que mostró un mayor CCI fue el SLEDAI (ICC=0,79). La fiabilidad interobservador fue evaluada de una forma muy heterogénea entre los distintos estudios, haciendo muy difícil la comparación entre los índices. Este aspecto de la validación no es necesario en los índices realizados por el paciente.
La validez de constructo fue la parte de la validación más estudiada para la mayoría de los índices con similares resultados. Es difícil establecer un estándar de oro que sirva de referencia para evaluar la actividad de la enfermedad. Para evaluar la validez de criterio, en algunos estudios se describe como estándar de oro el cambio de tratamiento y en otros la VGM. Utilizar la VGM como estándar de oro tiene ciertos problemas, ya que diversos estudios han demostrado que existe un grado de acuerdo entre médicos muy bajo a la hora de valorar la actividad de la enfermedad en pacientes con LES1,27. Otros estudios emplean como estándar de oro otro índice ya descrito en la literatura, con el que se compara el nuevo índice evaluado. La mayoría de los índices se correlacionan de forma aceptable entre sí22.
Por último, el índice que muestra una mayor sensibilidad al cambio es el ECLAM.
Algunos aspectos importantes que se deben tener en cuenta es que en los índices de actividad solo se deben puntuar aspectos que están directamente relacionados con la enfermedad. El SLAM y el BILAG recogen manifestaciones que aparezcan en el último mes, mientras los demás recogen manifestaciones ocurridas en los últimos 10 días. Algunos índices incluyen variables de laboratorio y es importante tener en cuenta que hay pacientes con LES activo que no presentan alteraciones analíticas. Por ejemplo, solo el 60% de los pacientes tendrán anticuerpos anti-dsADN positivos durante la evolución de su enfermedad50.
Una crítica sobre estos índices podría ser que la mayoría de ellos han sido validados en el contexto de cohortes de larga duración en lugar de en ECA51. Aun así, en 1998, uno de los objetivos de trabajo de OMERACT fue definir de forma preliminar las variables mínimas que debían incluirse en la evaluación de los pacientes con LES, tanto en ECA como en cohortes longitudinales de larga duración, y estas fueron actividad de la enfermedad, daño, calidad de vida y toxicidad/efectos adversos52.
El concepto de daño en el LES se ha convertido en una medida de desenlace importante, ya que no solo predice mortalidad, también capacidad funcional y utilización de recursos sanitarios53-55. En esta revisión, 3 medidas de daño han sido identificadas, una que completa el médico, el SDI, y 2 que completa el paciente, LDIQ y BILD. Las 2 medidas de daño autoadministradas mostraron una buena correlación con la medida del médico considerada como estándar de oro.
En conclusión, la mayoría de los índices compuestos para valorar la actividad de la enfermedad en pacientes con LES han sido validados y son comparables entre sí. Aunque son complejos a la hora de ser aplicados en la práctica clínica, estos índices facilitan la recogida de información clínica relevante de forma cuantitativa y EULAR recomienda su uso para monitorizar a los pacientes56. El uso de índices compuestos para evaluar tanto la actividad, como el daño estructural, ayudaría en práctica clínica a guiar las decisiones terapéuticas de la forma más objetiva posible51. Por otro lado, la VGM exhibe una gran variabilidad, incluso entre médicos con una larga experiencia tratando a pacientes con LES, con lo cual no es una herramienta ideal para valorar la actividad.
Tanto el BILAG como el SLEDAI son los índices que tienen una validación más completa y los que más se usan en ECA y estudios de cohortes. El ECLAM tiene la ventaja de ser el más sencillo de calcular y el SLAM es el más sensible al cambio, ya que es el único que permite dar una puntuación mayor a mayor gravedad. El SLAQ es un índice que completa el paciente y exhibe una buena correlación con el SLAM, del que deriva, por lo puede suponer una buena alternativa para consultas en las que se puede dedicar menos tiempo por paciente o para estudios poblacionales.
Responsabilidades éticasProtección de personas y animalesLos autores declaran que para esta investigación no se han realizado experimentos en seres humanos ni en animales.
Confidencialidad de los datosLos autores declaran que en este artículo no aparecen datos de pacientes.
Derecho a la privacidad y consentimiento informadoLos autores han obtenido el consentimiento informado de los pacientes y/o sujetos referidos en el artículo. Este documento obra en poder del autor de correspondencia.
FinanciaciónEste estudio ha sido financiado por la Fundación Española de Reumatología.
Conflicto de interesesIñigo Rúa-Figueroa ha tenido contratos con GSK y ha asistido a cursos/congresos patrocinado por GSK y MSD.
Los demás autores declaran no tener ningún conflicto de interés.