Un po’ di cose che ho capito sulle probabilità bayesiane

Sto leggendo un po’ di cose sulla probabilità bayesiana.
È un tema interessante – oserei dire persino: importante – che non riguarda solo la matematica ma in generale il modo in cui ragioniamo e quello che potremmo chiamare “scetticismo sensato”.

Ma restiamo sulle probabilità bayesiane.
Di risorse in italiano ne ho trovate poche; in inglese c’è un bel video introduttivo di 3Blue1Brown e due libri: il primo è un’introduzione con diversi esempi e metodi (Bayes’ Theorem Examples: A Visual Introduction For Beginners di Dan Morris), il secondo è una interessante storia del teorema e delle sue alterne fortune nella storia (The Theory That Would Not Die di Sharon Bertsch McGrayne).

La mente bayesiana

Una cosa che mi ha colpito è un’apparente contraddizione.

Di per sé il teorema di Bayes spiega come dovremmo aggiornare una credenza iniziale alla luce di nuove informazioni. Credo che le chiavi di casa siano nella tasca del cappotto e non nello zaino; infilo la mano nella tasca del cappotto e non le trovo; correggo la mia ipotesi iniziale e penso che siano nello zaino; non le trovo neanche lì e allora penso di non aver controllato bene in tasca; solo alla fine concludo di aver verosimilmente perso le chiavi.

È normale ragionare così. Vero che non facciamo valutazioni numeriche tipo “al 90% le chiavi sono in tasca” (o “sono pronto a scommettere 1 a 9 che le chiavi sono in tasca”), “il 5% delle volte che non trovo le chiavi è perché non le ho cercate bene” (o “sono pronto a scommettere 1 a 19 che non sono lì visto che non le ho trovate”), “le probabilità di perdere le chiavi sono inferiori all’1%” (o “sono pronto a scommettere 1 a 99 che non le ho perse”) e non ci mettiamo a fare i calcoli che poi ho riassunto alla fine di questo articolo, ma tutti noi facciamo un secondo controllo in tasca prima di convincerci che potremmo aver perso le chiavi.

Secondo vari studi, citati nell’ultimo capitolo del saggio di Sharon Bertsch McGrayne, la nostra mente è bayesiana: riduce in continuazione l’incertezza grazie a nuove osservazioni.

Eppure il teorema di Bayes porta spesso a risultati controintuitivi, spesso presentati come dei paradossi. Quello più famoso riguarda la probabilità di avere una malattia relativamente poco diffusa (diciamo una persona su mille) se un test diagnostico affidabile al 99% risulta positivo (e non abbiamo altri motivi di sospettare di essere malati, ovviamente).

Un altro riguarda un indovinello apparso su questo sito una decina di anni fa:

Una cassa contiene diecimila monete. Una di queste è truccata, e lanciandola in aria esce sempre testa, mentre tutte le altre sono normali, con eguali probabilità per testa e croce.
Prendo una moneta a caso e la lancio otto volte, ottenendo sempre testa.
È ragionevole concludere che abbia trovato la moneta truccata? Più in generale, dopo quanti lanci è ragionevole pensare di avere in mano la moneta truccata?

Intuitivamente pensiamo che il risultato positivo di un test così affidabile equivalga a una diagnosi quasi certa e che otto teste di fila siano possibili solo con una moneta truccata. Ma solo in un caso su dieci chi ha ricevuto un test positivo è ammalato. Nel caso delle monete, invece, con otto lanci c’è un misero 2,5% di probabilità di aver preso la moneta truccata.

Come è possibile che questi risultati ci sorprendano se la nostra mente è bayesiana?

Una prima risposta è che un conto è rivedere le nostre ipotesi iniziali, un altro è farlo correttamente. Il ragionamento in entrambi i casi è infatti corretto: è vero che il test positivo aumenta la probabilità di essere malati, è vero che ottenere otto volte testa aumenta le probabilità di aver preso la moneta truccata, ma non così tanto da farci cambiare l’ipotesi iniziale. Un secondo test risultato positivo, o qualche altra testa ottenuta lanciando la moneta, e avremmo valide ragioni per cambiare idea.

Tuttavia sospetto che possa esserci anche un altro problema. La formulazione del problema ci porta a trascurare le probabilità iniziali. Pensiamo che o siamo sani o siamo malati, che la moneta che abbiamo in mano o è truccata o è normale. Ma se partiamo dal fatto che c’è una probabilità su mille di essere malati, è abbastanza scontato che un test che sbaglia in un caso su cento non ci darà alcuna certezza (ma certamente ridurrà l’incertezza che infatti passa dallo 0.1% al 10%). E se pensiamo che avevo una possibilità su diecimila di aver preso la moneta truccata, l’aver ottenuto otto volte testa è insolito – ci sono altre 255 possibilità – ma non così determinante.

Siamo bayesiani quando non troviamo le chiavi in tasca; ci dimentichiamo di esserlo quando abbiamo test affidabili al 99% o monete truccate. E qui interviene un sistema di calcolo che ho trovato nel libro di Dan Morris e che potrebbe essere utile a orientarsi.

Il diagramma ad albero

L’idea è realizzare uno schema ad albero di quello che potrebbe accade, indicando per ogni ramo quante volte può capitare (posso farlo come numero di casi o come probabilità).

Prendiamo il caso delle monete. Quello che faccio è prendere una delle diecimila monete dalla cassa e poi lanciarla ottenendo 8 volte testa.

Il primo passaggio sarà quindi “prendo una moneta”: in un caso sarà quella truccata, negli altri 9’999 sarà una normalissima moneta.

Il secondo passaggio sarà invece lanciare la moneta 8 volte. Se la moneta è truccata, non posso che ottenere 8 volte testa. Se ho preso una moneta normale, ci sono 256 possibili sequenze, ognuna delle quali ha circa 39 possibilità su 9’999.

Una volta tracciato lo schema completo, cancello quello che non mi serve. So di aver ottenuto 8 volte testa, ma non so se con una moneta truccata o normale: posso quindi ignorare i rami in cui ho ottenuto altre sequenze e concentrarmi solo sui due che prevedono 8 teste.

Ho 40 scenari, in uno ho la moneta truccata, negli altri 39 una normale.

Il calcolo che mi ritrovo a fare è lo stesso previsto dal teorema di Bayes, ma senza dovermi ricordare la formula o calcolare le probabilità condizionali.

Per i test diagnostici ho realizzato lo schema mettendo nei rami le probabilità come frazioni e calcolando i totali a parte.

La probabilità a posteriori di essere malati se il test è risultato positivo è di 99/(999+99)=9%.

Il bello di questo schema è che permette di calcolare anche altre probabilità a posteriori; se ad esempio sono paranoico mi rincuorerà sapere che mentre un test positivo mi lascia sostanzialmente nell’incertezza, un test negativo è invece rassicurante: le probabilità di essere malati nonostante un test negativo sono infatti dello 0.001% (1/98’902).

Posso anche facilmente aggiornare i numeri: mettiamo che, avendo qualche sintomo, la stima iniziale di essere malato passi da una su mille a una su venti. In questo caso il test positivo mi dà una sicurezza di oltre l’80% di essere malato.

Il teorema di Bayes e le chiavi

Per un confronto, vediamo di applicare il teorema di Bayes al caso delle chiavi.

Ricapitolando: sono abbastanza sicuro (al 90%) di avere le chiavi in tasca; possibilista sul fatto che potrebbero invece essere nello zaino (9%) scettico sul fatto di averle perse (1%).
Se le chiavi non sono in tasca sono ovviamente certo (probabilità del 100%) di non trovarle; ma se ci sono ho comunque un 5% di probabilità di non trovarle.

Mettiamo il tutto in formule. La probabilità di avere le chiavi in tasca è P(T), quella di averle nello zaino è P(Z) e di averle perse è P(P).
La probabilità di non rinvenirle in tasca (o nello zaino) è [latex]P(\neg RT) (rispettivamente P(\neg RZ)).
Infine, la probabilità condizionale è indicata con una barra verticale |. Quindi (P(\neg RT|T) indica la probabilità di non trovare le chiavi in tasca sapendo che sono lì mentre (P(T|\neg RT) è la probabilità che le chiavi siano in tasca sapendo di non averle trovate.

Ecco quindi le probabilità iniziali (in notazione decimale: 1=100%).

P(T) = 0.9 P(Z) = 0.09 P(P) = 0.01 P(\neg RT|T)=P(\neg RB|B)=0.05

La probabilità di non rinvenire le chiavi in tasca se sono nello zaino (e viceversa) oppure se sono andate perse è banalmente 1.

Ecco adesso il teorema di Bayes:

P(A|B) = \dfrac{P(A)\cdot P(B|A)}{P(B)}

Proviamo a calcolare la probabilità a posteriori che le chiavi siano in tasca sapendo che non le ho trovate:

P(T|\neg RT) = \dfrac{P(T)\cdot P(\neg RT|T)}{P(\neg RT)}

Come calcolo P(\neg RT), la probabilità di non trovarle in tasca?
È sufficiente sommare la probabilità che siano nello zaino o perse – e in questi casi è certo che non le troverò in tasca – con la probabilità che siano in tasca e non le ho trovate:

P(\neg RT)=P(Z) + P(P) + P(T)\cdot P(\neg RT|T)

Quindi le probabilità a posteriori che le chiavi siano in tasca, nello zaino o perse:

P(T|\neg RT) = \dfrac{P(T)\cdot P(\neg RT|T)}{P(\neg RT)}=\dfrac{0.05\cdot 0.9}{0.09+0.01+0.05\cdot 0.9} = 0.31 P(Z|\neg RT) = \dfrac{P(\neg RT|Z)\cdot P(Z)}{P(\neg RT)}=\dfrac{1\cdot 0.09}{0.09+0.01+0.05\cdot 0.9}=0.62 P(P|\neg RT)=\dfrac{P(\neg RT|P)\cdot P(P)}{P(\neg RT)}=\cfrac{1\cdot 0.01}{0.09+0.01+0.05\cdot 0.9}=0.07

In altre parole: se non trovo le chiavi in tasca, la probabilità che siano in tasca scende a circa il 30%, quella che siano nello zaino sale a circa il 60% mentre c’è un 7% di probabilità di averle perse.

Cosa succede se adesso le cerco nello zaino e non le trovo?
Le probabilità che ho appena calcolato diventano le mie nuove probabilità a priori dalle quali ripartire per fare i calcoli.

P(T|\neg RZ)=\dfrac{P(\neg RZ|T)\cdot P(T)}{P(\neg RZ)}=\dfrac{1\cdot 0.31}{0.31+0.05\cdot 0.62+0.07}=0.75 P(Z|\neg RZ)=\dfrac{P(\neg RZ|Z)\cdot P(Z)}{P(\neg RZ}=\dfrac{0.05\cdot 0.65}{0.31+0.05\cdot 0.62+0.07}=0.08  P(P|\neg RZ)=\dfrac{P(\neg RZ|P)\cdot P(P)}{P(\neg RZ)}=\dfrac{1\cdot 0.07}{0.31+0.05\cdot 0.62+0.07}=0.17

La possibilità di aver perso le chiavi è sempre più consistente (17%), ma è ancora più probabile che non abbiamo guardato bene in tasca.
Cosa succede, quindi, se faccio una seconda, infruttuosa ricerca delle chiavi in tasca?

P(P|\neg RT)=\dfrac{P(\neg RT|P)\cdot P(P)}{P(\neg RT)}=\dfrac{1\cdot 0.17}{0.05\cdot 0.75+0.08+0.17}=0.59.

La probabilità di aver perso le chiavi è ormai del 60% e (vi risparmio i calcoli) arriva a superare l'80% se faccio un'altra infruttuosa ricerca in borsa.

La supercazzola

Il testo che segue non è stato scritto per questo sito, pertanto lo stile è, rispetto agli altri articoli, un po’ insolito. Tenetene conto nei commenti.

Iniziamo da una domanda: che cosa è un cerchio? Domanda bizzarra, e tra poco andremo ad affrontare la bizzarria di questo interrogativo. Prima, però, la risposta: il cerchio è il luogo geometrico dei punti del piano che hanno distanza uguale o inferiore a un certo valore (il raggio) da un determinato punto (il centro). Così lo definiscono i matematici; gli altri non è che abbiano una diversa definizione di cerchio: semplicemente ne fanno a meno. Non c’è bisogno di una definizione per riconoscere che la ruota della bicicletta, prima di schiantarsi contro il palo della luce, era un cerchio, mentre dopo l’impatto non lo è più. Per questo la domanda ‘che cosa è un cerchio’ è così bizzarra. Continua a leggere “La supercazzola”

La moneta truccata

Una cassa contiene diecimila monete. Una di queste è truccata, e lanciandola in aria esce sempre testa, mentre tutte le altre sono normali, con eguali probabilità per testa e croce.
Prendo una moneta a caso e la lancio otto volte, ottenendo sempre testa.
È ragionevole concludere che abbia trovato la moneta truccata? Più in generale, dopo quanti lanci è ragionevole pensare di avere in mano la moneta truccata?

Cervello strapagato

Claudio Mésoniat, direttore del Giornale del Popolo, mostra nel suo editoriale odierno l’importanza di studiare matematica.
Nel riassumere i risultati di una ricerca – ricerca sulla cui bontà scientifica non mi pronuncio per mancanza di informazioni –, il direttore di uno dei tre quotidiani ticinesi scrive che “i cervelli strapagati del PNR 58 affermano…”.
I ricercatori che hanno lavorato a questo PNR 58 sono dunque, secondo Mésoniat, strapagati. Quanto? Lo scrive lui stesso all’inizio dell’editoriale:

Vi racconto una barzelletta. Crearla è costato un occhio della testa. Non a me, ma al “Fondo nazionale per la ricerca” che per ben 5 anni ha foraggiato 135 ricercatori, autori di 28 “progetti”, costati al contribuente la tonda cifra di 10 milioni di franchi.

Dieci milioni sono tanti. O no? Beh, facciamo due conti… in cinque anni ci sono sessanta mesi che corrispondono, senza contare le tredicesime, a sessanta stipendi. Dieci milioni diviso sessanta diviso centrotrentacinque (il numero di ricercatori) fa… è un calcolo difficile, di quelli che richiedono la calcolatrice e magari in redazione non ne hanno. Semplifichiamo: facciamo che i ricercatori sono 100 e le mensilità 50. Dieci milioni diviso cinquecento è un calcolo che tutti dovremmo riuscire a fare a mente: fa duemila. Duemila franchi al mese, arrotondati – di molto – per eccesso: in realtà saranno millecinquecento, probabilmente anche meno 1 franchi al mese. Questi sono, secondo Mésoniat, i cervelli strapagati.

  1. 1.234,57, per la precisione.[]

Altalena con pioggia

Sono al parco con mio figlio, quando scoppia un temporale.
Il pargolo si trova sull’altalena e si dondola felice, trasformandosi in una sirena di allarme per bombardamento atomico se provo a farlo scendere.
Decido, per minimizzare i danni della pioggia al piccolo e delle urla alle mie orecchie, di lasciarlo sull’altalena e di coprirlo, il più possibile, con un ombrello.
Ovviamente l’ombrello non è abbastanza ampio per coprire tutta la corsa dell’altalena: riesco infatti a proteggere circa un terzo del percorso che il pargolo compie avanti e indietro, ridendo beato.

Mi chiedo, mentre spero che smetta di piovere, se convenga coprire il terzo centrale oppure uno dei due estremi.

Un poliedro per zar

Leggendo un vecchio Urania 1 trovato in una bancarella, mi sono imbattuto in questo passaggio (spero si riesca a leggere):

20120415-085839.jpg

20120415-085845.jpg
Un nuovo poliedro per zar e il suo Geomag.

  1. Cronomacchina molto lenta, una raccolta di racconti di Ian Watson.[]

Googol


Charles M. Schulz ha disegnato questa striscia nel gennaio del 1963.
Googol (10100) è stato scoperto inventato battezzato così dal matematico Edward Kasner in un libro divulgativo del 1940, con l’importante contributo del nipote di nove anni Milton Sirotta.

Non mi sorprende che Schulz abbia letto quel libro – mi lascia invece a bocca aperta la semplicità con cui è riuscito a mettere questo numero in un fumetto.

Ordinamenti parziali

La matematica è una bestia nera per molte persone. La difficoltà a operare con i numeri è, secondo me, un problema sociale e politico non da poco, vista l’importanza delle scienze matematiche nella nostra vita.
Ma non è questo il tema del post, bensì cercare di riflettere su un aspetto del dibattito sulla misurabilità della qualità, di cui ha recentemente scritto su Moralia on the web Michele Loi.

Vi sono cose che non si possono misurare – argomenta Giorgio Israel. Non è vero, misuriamo continuamente la qualità – ribatte Giorgio Allulli.

Che la misura di qualcosa abbia a che fare con i numeri, e quindi con la matematica, è abbastanza scontato. Credo quindi che sia utile conoscere quello che la matematica ha da dire sull’ordinamento di elementi di un insieme. Ma, come dicevo, la matematica è una bestia nera per molte persone. Molto meglio lo sport. Continua a leggere “Ordinamenti parziali”

Un milione e un miliardo

Quale è la differenza tra un milione e un miliardo?
Quando leggiamo un articolo sul debito pubblico italiano, o sul numero di persone che ogni anno prendono un aereo, o sul numero di litri di acqua consumati in un mese da una città come Milano, ci accorgeremmo se, per un errore di stampa, la parola “miliardi” venisse sostituita da “milioni”?
Io, in tutta sincerità, non me ne accorgerei.

Eppure la differenza è notevole: “un milione di secondi” significa circa undici giorni, mentre “un miliardo di secondi” significa circa trentatre anni. 1

Se ci penso, rimango un attimo senza fiato.

  1. Paolo, in un commento al blog di .mau..[]