DRG-LLaMA : tuning LLaMA model to predict diagnosis-related group for hospitalized patients
L'article presenta DRG-LLaMA, un model de llenguatge gran (LLM) avançat que ha estat ajustat (fine-tuned) utilitzant notes clíniques per millorar l'assignació del Grup Relacionat amb el Diagnòstic (DRG) en el sistema de pagament hospitalari dels Estats Units. L'assignació de DRG és fonamental per al sistema de pagament prospectiu d'hospitalització (inpatient prospective payment system) establert per Medicare el 1983. Tradicionalment, aquesta tasca és manual, intensiva en mà d'obra i la realitzen especialistes en codificació, generalment després de l'alta del pacient.
Context i Objectiu
L'objectiu principal és aconseguir una predicció precisa i primerenca dels DRG durant l'hospitalització per permetre una planificació i assignació de recursos eficaç. La predicció de DRG es considera una tasca de classificació multi-classe (s'assigna un codi DRG per ingrés), la qual cosa la diferencia de la codificació de la Classificació Internacional de Malalties (ICD), que és una classificació multi-etiqueta (diversos codis poden aplicar-se a un sol ingrés).
Metodologia del Model DRG-LLaMA
- Model Fundacional i Entrenament: DRG-LLaMA deriva del model LLaMA, que és un LLM fundacional robust i obertament accessible. El model va ser optimitzat mitjançant l'ús de l'adaptació de baix rang (LoRA), que permet incorporar matrius de descomposició de rang entrenables a l'arquitectura del transformador, congelant els pesos pre-entrenats per estalviar costos computacionals.
- Conjunt de Dades: DRG-LLaMA va ser entrenat amb 236.192 resums d'alta (discharge summaries) del conjunt de dades MIMIC-IV.
- Preparació de les Dades: Es va utilitzar la secció "brief hospital course" (curs hospitalari breu) del resum d'alta com a text d'entrada. Es van filtrar els resums de baixa qualitat (amb menys de 40 paraules o contingut duplicat) i els DRG rars (amb menys de 2 ocurrències). Tots els codis MS-DRG (Medicare Severity-DRGs) es van consolidar a la versió 34.0 per millorar la coherència.
- Enfocaments de Classificació: Es van investigar dos enfocaments per a la predicció de DRG:
- 1) Classificació d'etiqueta única (Single-label): Predicció directa del codi DRG (738 etiquetes úniques al conjunt de proves).
- 2) Classificació de dues etiquetes (Two-label): Predicció separada de l'etiqueta de DRG base (340 etiquetes) i l'estat de CC/MCC (Complicació o Comorbiditat / Complicació o Comorbiditat Major) (5 etiquetes). Posteriorment, s'aplica una regla de mapatge per inferir el DRG final.
Resultats de Rendiment (Etiqueta Única)
El model DRG-LLaMA-7B (amb una longitud màxima de token d'entrada de 512) va superar consistentment el rendiment dels models capdavanters anteriors, ClinicalBERT i CAML.
Mètrica (Tots els DRGs) | DRG-LLaMA-7B (max 512) | ClinicalBERT | CAML |
---|---|---|---|
Macro-averaged F1 score | 0.327 (0.004) | 0.233 (0.003) | 0.241 (0.003) |
Top-1 prediction accuracy (ACC@1) | 52.0% (0.003) | 50.2% (0.003) | 44.7% (0.002) |
Macro-averaged AUC | 0.986 (0.001) | 0.979 (0.001) | 0.976 (0.001) |
- Millora Relativa: DRG-LLaMA va mostrar una millora relativa del 40.3% en la puntuació macro-F1 en comparació amb ClinicalBERT i del 35.7% en comparació amb CAML.
- ACC@5: L'exactitud de les prediccions top-5 per a DRG-LLaMA-7B va ser del 84.8%.
- Impacte de la Freqüència: El rendiment va ser millor per als DRG més freqüents. Quan es consideren només els 30 DRG més freqüents, la precisió top-1 va augmentar fins al 69.4%.
Impacte de la Mida del Model i el Context
Els resultats van indicar que el rendiment de DRG-LLaMA es correlaciona amb l'augment dels paràmetres del model i les longituds del context d'entrada.
- La configuració òptima provada (utilitzant el model LLaMA de 13B i una longitud màxima de token d'entrada de 1024) va assolir una precisió top-1 del 54.6% i una puntuació macro-F1 de 0.361.
Resultats de la Classificació de Dues Etiquetes
En l'enfocament de dues etiquetes (amb DRG-LLaMA-7B, max 512 tokens), la precisió top-1 va ser del 67.8% per al DRG base i del 67.5% per al CC/MCC. La predicció del diagnòstic principal o procediment (DRG base) per separat va resultar ser una tasca significativament més fàcil.
- Després d'integrar una regla de mapatge per inferir el DRG final a partir de les dues prediccions de components, la precisió top-1 per a tots els DRG va ser del 51.5%. Aquest rendiment va ser comparable a la precisió del 52.0% aconseguida amb l'enfocament d'etiqueta única.
Anàlisi d'Errors i Limitacions
- Correlació amb Dades d'Entrenament: Es va observar una forta correlació entre el nombre de casos d'entrenament i el rendiment. Els DRG amb una alta precisió (ACC@5 superior al 80%) tenien una mitjana de 309 casos d'entrenament, mentre que aquells amb una precisió baixa (ACC@5 inferior al 20%) només tenien una mitjana de 17 casos.
- Tipus d'Errors: Els errors es van classificar principalment com: extracció inadequada de conceptes clínics (4/10), dificultat en seleccionar el DRG base correcte (3/10), CC/MCC erroni (1/10), informació correcta necessària no disponible (1/10) i una etiqueta DRG plausiblement incorrecta (1/10).
- Debilitats i Restriccions: Alguns errors, com la dificultat en seleccionar el DRG base, probablement es deriven de les complexitats de les regles d'assignació de DRG. A més, el fet de dependre exclusivament dels resums d'alta limita les prediccions de DRG, ja que la informació crucial podria no estar disponible fins al final de l'hospitalització.
- Limitacions de l'Estudi: L'estudi es va limitar a utilitzar resums d'alta (disponibles només després de l'alta), la qual cosa impedeix una predicció primerenca. A més, les restriccions de recursos computacionals van limitar l'experimentació a models LLaMA de fins a 13.000 milions de paràmetres i van impedir una cerca exhaustiva d'hiperparàmetres.
Conclusions i Recerca Futura
Els resultats subratllen el potencial d'adaptar els LLM per a finalitats mèdiques, especialment en la predicció de DRG. La investigació futura hauria d'incloure la col·laboració amb sistemes de salut i l'ús de notes d'ingrés (com les notes HPI o de l'ED) per permetre la predicció primerenca de DRG. També s'ha de considerar l'ús dels LLM més recents i grans, com LLaMA-2 (70.000 milions de paràmetres i context de 4096 tokens). Finalment, caldrà explorar les implicacions pràctiques de la integració d'aquesta predicció de DRG en els fluxos de treball de codificació hospitalària existents.