Precisione e predizione… i limiti della nostra intuizione

Image for post
Image for post

Immaginate che una malattia infettiva si stia diffondendo nel mondo, e che sia disponibile un test, con ad esempio una precisione dimostrata del 90%. Fatevi la seguente domanda:

Qual è a probabilità che io sia infetta/o, se il test è positivo?

Solitamente le persone rispondono che la probabilità è del 90%, cioè uguale alla precisione del test. Questa risposta però è sbagliata e tradisce la nostra difficoltà nel ragionare in modo corretto con le probabilità.

In realtà, la probabilità in questione potrebbe essere un numero qualsiasi tra 0% e 100%!

Adesso vi spiego. Prima di farlo però, è necessaria una precisazione. Un test ha due tipi di precisione. Quella che gli permette di rilevare le persone infettate, che si chiama ‘sensibilità’, e quella che gli permette di rilevare le persone non infettate, che si chiama ‘specificità’. Possiamo però qui considerare, per semplificare la discussione, che la precisione del 90% del test in questione significhi che sia la sua sensibilità che la sua specificità sono del 90%.

Bene, com’è possibile allora che con un test preciso al 90%, la probabilità che una persona sia infetta, quando il responso del test è positivo, possa essere un numero qualsiasi, tra 0% e 100%?

È semplice. È possibile perché ci si dimentica che tale probabilità dipende da quanti infetti ci sono nella popolazione.

Per capire perché, dobbiamo prima ricordarci che la probabilità in questione è una probabilità condizionale. Stiamo infatti cercando la probabilità che la persona sia infetta (in), condizionalmente al fatto che il risultato del test sia positivo (+). Denotiamo questa probabilità P(in|+), come si è soliti fare in teoria delle probabilità:

P(in|+) = probabilità di essere infetti quando il test è positivo.

Bene, ora bisogna ricordarsi che la probabilità condizionale dell’evento “in” (di essere infetti), sapendo che l’evento “+” (di essere positivi) è realizzato, è data dal prodotto della probabilità che “in” e “+” siano contemporaneamente realizzati, moltiplicata per la probabilità che “in” sia realizzato. Con notazione matematica, abbiamo pertanto la seguente formula:

P(in|+) = P(in & +) * P(in).

In altre parole, la probabilità che cerchiamo è data dal prodotto di due probabilità. Una di queste due probabilità è P(in), che è la probabilità che la persona sia infetta, e questa probabilità, ovviamente, non dipende in nessun modo dalla precisione del test.

Se nella popolazione c’è un numero insignificante di persone infette, questa probabilità sarà uguale a zero, quindi P(in|+), essendo il prodotto di due numeri, di cui uno è zero, sarà a sua volta uguale a zero!

Morale: anche se un test è molto preciso, non avrà nessun potere predittivo se nella popolazione il numero di persone infette è troppo basso.

Cosa succede se invece il numero di persone infette nella popolazione è molto alto, cioè se P(in), la probabilità di essere infetti, tende a 1, cioè al 100%? In questo caso, è evidente, e non c’è bisogno di matematica per comprenderlo, la probabilità P(in|+) di essere infetti, sapendo che il test è positivo, sarà uguale a 1, cioè sarà del 100%, indipendentemente dall’efficacia del test!

Morale: anche se un test è molto impreciso, avrà comunque un grande potere predittivo se il numero di persone infette è estremamente alto nella popolazione.

Detto questo, è chiaro che per determinare P(in|+) in modo esatto, data una percentuale di infetti nella popolazione, è necessario derivare una formula più specifica. A proposito, nella letteratura, la probabilità P(in|+) ha un nome: si chiama “valore predittivo positivo” (spesso indicato con l’acronimo PPV = Positive Predictive Value).

Ok, proviamo a derivare la formula assieme. L’idea è di scomporre ulteriormente la probabilità congiunta P(in & +), osservando che possiamo scrivere:

P(+|in) = P(in & +) * P(+).

Quindi:

P(in & +) = P(+|in) / P(+),

e inserendo questa espressione nella precedente, otteniamo:

P(in|+) = P(+|in) * P(in) / P(+).

A questo punto, possiamo scompone ulteriormente P(+), scrivendo:

P(+) = P(+|in) * P(in) + P(+|nin) * P(nin),

dove “nin” sta per “non infetto”.

La scomposizione che ho appena usato si chiama ‘teorema’ delle probabilità totali’, ma a parte questo nome altisonante, è qualcosa di assai intuitivo. Esprime semplicemente il fatto che la somma delle probabilità di eventi incompatibili è uguale alla probabilità totale dell’evento in questione.

Ora, la probabilità di non essere infetti, P(nin), è semplicemente 1 meno la probabilità di essere infetti, quindi:

P(nin) = 1 - P(in).

Inoltre, la probabilità di risultare positivi quando si è infetti, P(+|in), altro non è che la ‘sensibilità’, che per comodità denoteremo ‘Se’.

Invece, la probabilità P(+|nin), di essere positivi quando non si è infetti, è uguale a 1 meno la probabilità di essere negativi quando non si è infetti, che è ciò che abbiamo definito con il termine di ‘specificità’, e che denoteremo ‘Sp’. Dunque:

P(+|nin) = 1 - Sp.

In altre parole, abbiamo giustificato i seguenti passaggi:

P(in|+) =

= P(in & +) * P(in)

= P(+|in) * P(in) / P(+)

= P(+|in) * P(in) / [P(+|in) * P(in) + P(+|nin) * P(nin)]

= Se * P(in) / [Se * P(in) + (1 - Sp) * (1 - P(in))].

Ecco, questa è la formula generale che volevamo ottenere.

Supponiamo per semplificare che Se = Sp, cioè che la precisione nel rilevare gli infetti sia la stessa che nel rilevare i non infetti, che denoteremo S. E per semplificare ulteriormente la notazione, scriviamo semplicemente P per la probabilità P(in), che ovviamente, in assenza di altre informazioni, sarà data dal rapporto tra il numero di persone infette e il numero totale di persone nella popolazione in questione. Possiamo allora scrivere:

P(in|+) = S * P / [S * P + (1 - S) * (1 - P)].

È ora facile verificare che se P tende verso zero, il numeratore della formula qui sopra tenderà anch’esso verso zero, quindi P(in|+) tenderà verso 0, conformemente a quanto abbiamo già osservato, vale a dire che (contrariamente alla nostra intuizione) il test è inutile (poco predittivo), a prescindere dalla sua precisione, se il numero di infetti nella popolazione è troppo basso.

Se invece P tende verso 1, il numeratore tenderà verso S, e il denominatore tenderà anch’esso verso S, quindi P(in|+) tenderà verso 1, conformemente a quanto abbiamo già osservato, vale a dire che (contrariamente alla nostra intuizione) il test diventa altamente predittivo, a prescindere dalla sua precisione, se il numero di infetti è molto alto.

Ok, ma visto che abbiamo derivato una formula specifica, possiamo ora usarla per chiederci quale debba essere la percentuale di infetti nella popolazione, affinché un test, diciamo preciso al 90%, sia in grado di dare la risposta positiva corretta almeno il 90% delle volte.

Ebbene, è facile dedurre dalla formula che abbiamo derivato che almeno il 50% della popolazione dovrà essere infetta!

Se invece, ad esempio, solo il 10% della popolazione è infetta, la predittività del test scende al 50%, e questo malgrado il fatto che la sua precisione sia del 90%! In questa situazione, se vogliamo una predittività del 90%, la precisione del test dovrà salire fino al 98,8%.

Insomma, quando si ha ache fare con le probabilità, e con il ragionamento scientifico in generale, la nostra intuizione è scarsamente di aiuto.

Bisogna infatti attivare un ragionamento lento e verificarne con attenzione tutti i passaggi logici.

E in quest’epoca dove tutti “danno i numeri” (in tutti i sensi), forse per la prima volta alcuni cominceranno a dare una risposta a quella fatidica domanda che ogni professore di matematica si è sentito porre, innumerevoli volte: “A che diavolo serve la matematica?”

PS: vedi anche il video: https://youtu.be/7wPf4U1LrGQ

Physicist, writer, editor, researcher and self-researcher. For more info: www.massimilianosassolidebianchi.ch

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store