21 d’octubre 2025

La IA arriba als DRGs (2)

NORDDRG AI BENCHMARK FOR LARGE LANGUAGE MODELS 

Aquest article presenta el NordDRG-AI-Benchmark, el primer banc de proves públic i complet per avaluar la capacitat dels Models de Llenguatge Grans (LLMs) per raonar sobre els Grups Relacionats amb el Diagnòstic (DRG), que són crucials per al finançament hospitalari.

Problema i Objectiu Central

Els LLMs s'estan provant per a la codificació clínica i el suport a la decisió en l'àmbit de la salut. Tanmateix, no existia cap banc de proves obert que s'orientés a la capa de finançament hospitalari on els DRG determinen el reemborsament. Els sistemes DRG medien una part substancial de la despesa sanitària global, cosa que fa que la transparència i l'auditabilitat de la seva lògica siguin preocupacions de primer ordre, no simples detalls d'implementació.

L'objectiu de la recerca és abordar aquesta bretxa de mesura mitjançant l'alliberament d'un banc de proves que reflecteixi el graf complet de regles del NordDRG i reprodueixi el comportament governat del grouper (programari que assigna els DRG).

Contribucions del NordDRG-AI-Benchmark

El NordDRG-AI-Benchmark és una eina completa que uneix la codificació clínica, el raonament multilingüe i les finances sanitàries. Consisteix en cinc parts clau:

  1. Taules de Definició i Manuals Experts (Artefactes A1–A2): S'alliberen taules de definició NordDRG llegibles per màquina (unes 20 fulls interconnectats) que codifiquen la lògica completa del grouper, incloent regles de diagnòstic/procediment, propietats i activació per país. També s'inclouen manuals experts i plantilles de registre de canvis que capturen els fluxos de treball de governança real.
  2. Dos Conjunts de Benchmarks amb Puntuació d'Igualtat Estricta (Exact-Match):
    • NordDRG Logic Benchmark (13 tasques): Avalua habilitats a nivell de regla, com la cerca de codis, la inferència entre taules, la terminologia multilingüe (finès i finès-anglès), i les auditories de Qualitat/Auditoria (QA) de validació CC/MCC.
    • NordDRG Grouper Benchmark (13 tasques): Requereix l'emulació completa del grouper de l'especificació, retornant una coincidència exacta tant en el DRG resultant (drg_nat) com en l'identificador de la lògica de DRG desencadenant (drg_logic.id).
  3. Agents de Referència Lleugers (A6): S'ofereixen agents agnòstics al proveïdor (LogicAgent i GrouperAgent) que operen exclusivament amb els artefactes alliberats (sense cerca web o RAG), permetent una avaluació basada només en els artefactes (artefact-only).
  4. Disponibilitat i Reproduïbilitat: Tots els artefactes, scripts i respostes d'or estan disponibles en un repositori públic, amb identificadors estables que permeten actualitzacions anuals drop-in.

Metodologia i Resultats

La metodologia segueix el paradigma de la Recerca en Ciència del Disseny (DSR), enfocant-se en la construcció d'un artefacte per resoldre un problema pràctic, mitjançant un cicle de sis passos (identificació del problema, definició d'objectius, disseny, demostració, avaluació i comunicació). L'avaluació es va realitzar sota una configuració sense accés a la web (artefact-only).

1. Resultats del Logic Benchmark (Raonament a Nivell de Regla)

Aquestes tasques van ser més abordables per als models de gamma alta:

  • Models Top Tier: GPT-5 Thinking i Opus 4.1 van obtenir un 13/13 (100%), i o3 un 12/13.
  • Models Mitjans: GPT-5 Thinking Mini, o4-mini, i GPT-5 Fast van aconseguir entre 6 i 8/13.
  • Models Baixos: La resta de models (incloent 4o, 4.1, Sonnet 4, i Gemini) van puntuar 5/13 o menys.
  • Aïllament de Fallades: Les fallades es van concentrar en tasques que requerien encadenament entre diversos fulls i un raonament complex sobre les propietats de diagnòstic i procediment, i la gestió de les exclusions dels grups "sobrants" (left-over).

2. Resultats del Grouper Benchmark (Emulació Completa del Grouper)

Aquest conjunt de tasques és molt més estricte, exigint una coincidència exacta tant en el DRG final com en el drg_logic.id desencadenant. El rendiment va ser notablement inferior, subratllant la dificultat d'emular fidelment el flux de control governat:

  • Millors Resultats: GPT-5 Thinking va resoldre 7/13 casos (54%), o3 6/13 (46%), i o4-mini 3/13 (23%).
  • Restants: GPT-5 Thinking Mini va resoldre 1/13, i la resta de models provats van obtenir 0/13.
  • Significat: Aquesta és la primera vegada que es reporta públicament que un LLM emula parcialment la lògica completa del grouper NordDRG amb traçabilitat de grau de governança.

Conclusions

El NordDRG-AI-Benchmark proporciona un criteri reproducible i auditable per avaluar els LLMs en el context crític del finançament hospitalari. Els resultats mostren que, tot i que els models més potents poden gestionar el raonament a nivell de regla (Logic Benchmark), l'emulació completa i traçable del flux de control del grouper (Grouper Benchmark), que inclou prioritats d'execució (ORD), avaluació de CC/MCC i banderes nacionals, segueix sent un repte significatiu.

A més, l'estudi va observar que, en subscripcions de consum, les quotes limitades d'alguns proveïdors (com Anthropic) van afectar el rendiment operatiu i el temps necessari per completar les proves, suggerint que la previsibilitat de la quota i el temps de resultat són consideracions importants per als usuaris.