14 d’agost 2025

Les proves diagnòstiques i la decisió clínica

How to Request a Test: A Clinician’s Guide to the Interpretation and Evaluation of Medical Tests

Llibre resumit amb IA.

 El llibre "How to Request a Test: A Clinician’s Guide to the Interpretation and Evaluation of Medical Tests" de Tom Boyles, publicat el 2023 per Oxford University Press, és una guia per a metges, especialment estudiants de medicina i residents (junior doctors), sobre com interpretar i sol·licitar proves mèdiques de manera eficient i efectiva. L'autor va escriure el llibre amb la voluntat de transmetre el coneixement de la manera en què li hauria agradat aprendre'l des del principi, com el llibre que "desitjaria haver tingut a la butxaca" quan era estudiant.

El llibre aborda la sol·licitud de proves mèdiques com una tasca omnipresent i extremadament costosa en la medicina, sovint delegada als membres més joves de l'equip. L'autor destaca que una actitud de "laissez-faire" envers les proves pot portar a una sobre-dependència de les proves o a una sobreestimació del seu valor, sovint sol·licitant una àmplia gamma de proves sense una comprensió completa de les seves fortaleses i febleses, especialment quan el diagnòstic és incert.

1. Què és una prova mèdica? El llibre utilitza una definició molt àmplia de prova mèdica: "Qualsevol procediment(s) que obté nova informació sobre un pacient amb la intenció de millorar la seva atenció mèdica". Això inclou des de la presa d'història clínica i l'examen físic fins a anàlisis de laboratori i imatges.

2. Per què i quan es sol·liciten proves? Tradicionalment, el model d'estudi de medicina comença amb la història clínica, l'examen físic i la definició d'un diagnòstic diferencial, per després sol·licitar proves per refinar-lo. No obstant això, estudis seminals mostren que la majoria de diagnòstics es consoliden amb la història clínica i l'examen físic. La raó unificadora per realitzar proves en individus és respondre a preguntes rellevants per al pacient. Tota sol·licitud hauria de formular-se amb un "Què?" (Què vull saber?) i un "Per què?" (Per què vull saber-ho?), pensant si la prova canviarà la gestió del pacient.

3. Costos de les proves El llibre subratlla la necessitat d'optimitzar les proves a causa dels seus enormes costos, que es divideixen en:

  • Costos financers: Són vastos i inclouen el pressupost per a serveis de patologia. S'estima que entre el 25% i el 40% de les proves de laboratori són innecessàries, generant un considerable malbaratament. La variabilitat regional en la sol·licitud de proves suggereix un ús inapropiat.
  • Costos clínics directes: Són autoevidents, com la radiació ionitzant en estudis radiològics o els riscos invasius de procediments com una biòpsia cerebral.
  • Costos clínics indirectes: Resulten de la mala interpretació dels resultats o de trobar anomalies inesperades de significat incert ("incidentalomes"). L'autor il·lustra això amb un cas on la mala interpretació d'una prova (Xpert MTB/RIF negativa) per part d'un clínic inexpert va conduir a la mort del pacient amb meningitis tuberculosa (TBM).

4. Avaluació de la precisió de les proves (Capítols 2-5) El llibre dedica una part substancial a desglossar els conceptes d'avaluació de la precisió de les proves:

  • Estudis de precisió diagnòstica: Avaluen la capacitat d'una prova (prova índex) per classificar correctament els participants com a portadors o no d'una condició diana, comparant-la amb un estàndard de referència ("gold standard"). Es destaquen les definicions clares de la condició diana, la prova índex (binària o contínua), els estàndards de referència (que no sempre són perfectes) i la població/entorn de l'estudi. Els estudis de cas-control són més barats però ofereixen evidència feble, mentre que els estudis de cohort observacional són preferibles.
  • Taula 2x2: És la base per a calcular totes les mesures de precisió quan els resultats són binaris [62, 69t].
  • Precisió total (Accuracy): Percentatge de resultats correctes [(A+D)/(A+B+C+D)]. L'autor adverteix que pot ser molt enganyosa, ja que una prova inútil per a una malaltia rara pot tenir una precisió molt alta (p. ex., 99,9% per a un càncer rar si sempre dona negatiu).
  • Sensibilitat i Especificitat:
    • Sensibilitat: "En pacients que definitivament tenen la condició, quina és la probabilitat que la prova sigui positiva?" (A/(A+C)).
    • Especificitat: "En pacients que definitivament NO tenen la condició, quina és la probabilitat que la prova sigui negativa?" (D/(B+D)).
    • Limitacions: Són les més mal enteses i sobrevalorades. No responen a preguntes rellevants per al pacient (p. ex., "donada una prova positiva, quina és la probabilitat que tingui càncer?"). Són altament dependents del context clínic; una sensibilitat/especificitat del 96% és inacceptable per diagnosticar la mort, però acceptable per a un refredat. Són estadístiques "inestables" i poden variar àmpliament entre estudis a causa de diferències subtils en la població o el disseny, i també es veuen afectades per la prevalença de la malaltia.
    • Utilitat: Només són realment útils si s'apropen al 100% (per a "descartar" o "confirmar" una condició, tot i que amb cautela sobre les regles SpIN/SnOUT) o per comparar proves noves amb antigues.
  • Valors Predictius (Positiu i Negatiu):
    • Valor Predictiu Positiu (VPP): "En pacients amb una prova positiva, quina és la probabilitat que tinguin la condició?" (A/(A+B)) [109, 111t].
    • Valor Predictiu Negatiu (VPN): "En pacients amb una prova negativa, quina és la probabilitat que no tinguin la condició?" (D/(C+D)) [109, 112t].
    • Avantatge: Responen directament a preguntes rellevants per al pacient.
    • Limitació clau: Varien dràsticament segons la prevalença de la malaltia en la població de l'estudi. Citar un valor predictiu sense la prevalença és "sense sentit". Un VPP pot ser molt baix en prevalences baixes, fins i tot amb alta sensibilitat i especificitat.
  • Ràtios de Probabilitat (Likelihood Ratios - LR):
    • LR+ve (per a prova positiva): "Probabilitat de positiu en malalts / probabilitat de positiu en no malalts" (Sensibilitat / (1 - Especificitat)) [125b].
    • LR-ve (per a prova negativa): "Probabilitat de negatiu en malalts / probabilitat de negatiu en no malalts" ((1 - Sensibilitat) / Especificitat) [125b].
    • Utilitat: Són la mesura de precisió més útil, ja que es combinen amb la probabilitat pre-test per actualitzar la probabilitat d'una condició (probabilitat post-test). Els LR s'utilitzen en el Teorema de Bayes.
    • Càlcul de la Probabilitat Pre-Test: Sovint es fa intuïtivament, però hi ha enfocaments formals com els criteris de Wells o models de predicció de risc [122, 123, 124, 126t, 127].
    • Actualització de la Probabilitat Post-Test: Es pot fer amb calculadores web, aplicacions de smartphone o el nomograma de Fagan. L'autor destaca que és més difícil moure la probabilitat quan ja és extrema (molt alta o molt baixa).
    • Exemple de cribratge del càncer de pròstata (PSA): Il·lustra que amb una probabilitat pre-test molt baixa (0,1%), fins i tot un LR+ve de 5,5 (considerat "bo") només augmenta la probabilitat post-test al 0,5%. Això condueix a moltes biòpsies innecessàries i falses tranquil·litats, posant en qüestió la utilitat del cribratge amb PSA.
  • Resultats continus (Corbes ROC): Per a proves amb resultats numèrics (p. ex., TSH), la precisió es representa amb corbes de característica operativa del receptor (ROC) i l'àrea sota la corba (AUROC o C-statistic) [63, 66, 67f, 67, 92, 93, 94, 95]. Un AUROC de 0.5 és aleatori i 1.0 és perfecte. Tot i que hi ha convencions per a "bon" AUROC, la interpretació és altament dependent del context i les corbes ROC no capturen la prevalença, la qual cosa pot inflar els valors de l'AUROC en poblacions desequilibrades. Les corbes de precisió-recall són més informatives en aquests casos.
  • Condicions no binàries i rangs de referència: Moltes proves donen resultats continus amb rangs de referència. L'autor adverteix que els valors fora del rang de referència poden ser normals o de poca importància, i els valors dins del rang poden ser anormals per a un pacient individual.

5. Llindars de decisió (Capítol 6) Aquest capítol aborda la qüestió de si val la pena fer una prova:

  • Llindar terapèutic (Therapeutic threshold): És la probabilitat d'una condició a partir de la qual és beneficiós intervenir (tractar) i per sota de la qual la intervenció causaria més dany que benefici. Es calcula tenint en compte els costos i beneficis del tractament i de no tractar.
  • Factors que influeixen en els llindars de tractament: Morbilitat (efectes secundaris, ansietat), estat clínic del pacient (pacients molt malalts tenen llindars més baixos), costos financers i, crucialment, la preferència del pacient.
  • Llindar de prova (Test threshold) i Llindar de prova-tractament (Test-treatment threshold): Amb la disponibilitat d'una prova, es introdueixen dos nous llindars que defineixen el rang de probabilitats pre-test en què la prova és útil.
    • Llindar de prova-tractament: Probabilitat per sobre de la qual el tractament s'hauria d'iniciar encara que la prova sigui negativa (tractar sense fer la prova).
    • Llindar de prova: Probabilitat per sota de la qual el tractament no s'hauria d'iniciar encara que la prova sigui positiva (excloure el diagnòstic sense fer la prova).
    • Les proves són principalment "desempatadors". En els extrems de la probabilitat pre-test, les proves (la majoria) no són útils.
  • Diagnòstics competitius: El llibre també aborda situacions on hi ha múltiples diagnòstics possibles que requereixen tractaments diferents, i com les proves poden reduir la probabilitat d'un i augmentar la de l'altre.

6. Marc per a l'avaluació de proves mèdiques (Capítol 7) Aquesta secció aborda l'avaluació de proves des d'una perspectiva de salut pública:

  • Objectiu principal: La introducció d'una prova hauria de millorar els resultats de salut o proporcionar altres beneficis (reduir costos, simplificar l'atenció) sense comprometre el benestar del pacient.
  • Contrast amb els fàrmacs: A diferència dels fàrmacs (amb fases I-IV d'assajos clínics i una regulació estricta), no existeix un marc estandarditzat i universalment acceptat per avaluar proves mèdiques. Els requisits de l'aprovació reguladora per a les proves són molt menys estrictes i variables, el que significa que sovint les proves només requereixen "investigació bàsica de la prova" abans d'entrar al mercat, sense assajos d'impacte en resultats.
  • Fases de l'avaluació de proves: L'autor proposa tres fases àmplies:
    1. Investigació de la prova: Determina la precisió diagnòstica.
    2. Investigació diagnòstica: Desenvolupa estratègies diagnòstiques (algoritmes o regles de predicció) combinant múltiples fonts d'informació.
    3. Investigació d'intervenció diagnòstica: Avalua si les estratègies diagnòstiques milloren els resultats reals dels pacients i a quin cost.

7. Investigació diagnòstica i prognòstica (Capítol 8)

  • Es centra en els models de predicció multivariables (MPM), com el Framingham Risk Score, que integren múltiples predictors per estimar probabilitats de malaltia o risc.
  • Els MPM s'avaluen per la seva discriminació (capacitat de distingir entre malalts i no malalts, mesurada per l'AUROC/C-index) i la seva calibració (acord entre probabilitats predites i freqüències observades).
  • La validació (interna i externa) és crucial per evitar l'sobreajustament del model.
  • Es discuteixen les tècniques d'aprenentatge automàtic (Machine Learning - ML) per al desenvolupament de MPMs, especialment la seva promesa en l'anàlisi d'imatges mèdiques.

8. Estudis d'impacte (Capítol 9)

  • Aquests estudis són el pas final i ideal per determinar si una prova o estratègia diagnòstica millora els resultats del pacient i redueix els costos.
  • Es poden utilitzar diversos dissenys d'assaig, des de simples estudis transversals fins a assajos aleatoritzats controlats, considerats el "gold standard".
  • S'aborda la distinció entre enfocament assistencial (proporcionar probabilitats sense recomanar decisions) i enfocament directiu (recomanar o prescriure decisions).
  • Es discuteixen les dificultats dels assajos aleatoritzats de proves, com el biaix d'aprenentatge (on els metges poden aplicar coneixements de la intervenció al grup control) o la complexitat del disseny quan les proves influeixen en el tractament.

9. Cas pràctic: Xpert MTB/RIF per al diagnòstic de la tuberculosi (Capítol 10) L'autor utilitza l'exemple de la prova Xpert MTB/RIF per a la tuberculosi (TB) per il·lustrar molts dels conceptes del llibre.

  • La TB va ser declarada una emergència de salut global per l'OMS. Els mètodes tradicionals (microscòpia d'esput, cultiu) tenen limitacions importants, especialment amb la pandèmia de VIH, que va canviar la presentació de la TB i va reduir dràsticament la sensibilitat de les proves existents.
  • La introducció de Xpert MTB/RIF el 2010 va ser un "avenç aparent" amb una alta precisió diagnòstica (sensibilitat del 97,6% i especificitat del 98,1%) i rapidesa (2 hores), sent immediatament avalada per l'OMS.
  • La gran paradoxa: Malgrat la millora de la precisió diagnòstica i el desplegament massiu, assajos controlats aleatoritzats (RCTs) posteriors van demostrar que la implementació de Xpert MTB/RIF no va tenir "cap impacte discernible en els resultats del tractament" (morbilitat o mortalitat) en comparació amb la microscòpia convencional.
  • L'autor argumenta que l'error va ser assumir que una millora en la precisió diagnòstica es traduiria automàticament en una millora dels resultats sense realitzar una investigació diagnòstica i d'intervenció adequada. L'OMS va basar la seva recomanació en la precisió diagnòstica, no en l'impacte en el pacient, i els seus perfils de producte objectiu (TPP) per a noves proves continuen centrant-se en sensibilitat i especificitat, en lloc de resultats clínics rellevants.

10. Conclusions i consells pràctics (Capítol 11) El llibre conclou amb un pla de quatre punts per a la sol·licitud de proves:

  1. Formular una pregunta rellevant per al pacient: Què vull saber i per què, amb l'objectiu de millorar la salut física i/o mental del pacient o reduir costos.
  2. Calcular si la prova pot respondre a aquesta pregunta: Estimar la probabilitat pre-test i determinar si la prova pot canviar la probabilitat de manera significativa (p. ex., creuant el llindar terapèutic).
  3. Considerar els costos: Incloent els financers, de temps, oportunitats (retard de teràpia efectiva) i danys físics o psicològics al pacient.
  4. Parar i pensar: Pesar els beneficis i els costos abans de prendre una decisió final.

L'autor també detalla trampes comunes que els metges han d'evitar:

  • "Simplement vull saber la resposta" no és una raó vàlida.
  • La mentalitat de "marcar caselles" a les sol·licituds de proves.
  • "Double dipping": Sol·licitar múltiples proves per a la mateixa pregunta quan una sola és suficient (p. ex., ALT i AST, urea i creatinina innecessàriament).
  • Repetició innecessària de proves.
  • Posar el carro davant dels bous: Presentar resultats de proves abans del quadre clínic del pacient.
  • Utilitzar proves de monitorització (amb baixa especificitat) per intentar fer un diagnòstic (p. ex., PCR per a diagnòstic d'infecció òbvia, marcadors tumorals sense un diagnòstic segur).

El llibre tanca tornant a la història de la "professora astuta" i el resident inexpert (el mateix autor) amb el cas de l'amenorrea i la prolactinoma, il·lustrant com l'experiència i el pensament bayesià implícit permeten una diagnosi ràpida i precisa, mentre que la manca d'aquesta comprensió pot portar a confusió i a la sol·licitud innecessària de proves. L'autor encoratja els metges joves a aprendre dels més experimentats analitzant les seves decisions a través de la lent del pensament bayesià.