Dai dadi ai dati: il potere “nascosto” delle informazioni

Di A. De Lucia

Prendete una coppia di dadi a sei facce, lanciateli su un tavolo e calcolate la somma risultante. È uscito sette? Riprovate, stavolta ci sarò almeno andato vicino. Durante lo sviluppo delle civiltà, la scienza ha superato la fede nel suo ruolo di guida nelle cose della natura, battendola nella specialità che più catturava le passioni umane: la capacità di predire il futuro. Superando la branca delle cosiddette “scienze esatte” basate su modelli matematici che descrivono sistemi estremamente semplici (“ideali”), sono stati sviluppati strumenti teorici in grado di osservare fenomeni più complessi, che per limiti concettuali o tecnici non possono essere studiati dalle scienze esatte, per dare informazioni affidabili (e per misurare l'affidabilità delle informazioni) su alcuni aspetti semplificanti di un sistema molto più complesso. Studiare il lancio di due dati in maniera esatta, affrontandolo dunque come un problema di dinamica, tenendo conto dell'elasticità del materiale di cui sono composti i dati, dell'attrito che su di essi esercitano l'aria e il tavolo, degli urti reciproci per qualsiasi possibile combinazione delle posizioni e velocità iniziali, è un problema la cui soluzione non può essere calcolata analiticamente, ovvero a mano, per limiti intrinseci alla stessa teoria. Potrebbe essere risolto tuttavia, seppur con tempi di calcolo di gran lunga superiore allo stesso lancio del dado, da un moderno computer, restituendo una quantità di informazioni enorme, ma di scarso interesse, considerando l'aleatorietà delle condizioni iniziali del lancio. Se rinunciamo all’idea di prevedere esattamente la traiettoria dei dadi, limitandoci a cercare di prevedere soltanto il risultato del lancio, il problema diventa molto più semplice. Assumendo che i dadi non siano truccati, ciascuno di essi restituirà un numero compreso tra 1 e 6, dunque il risultato della somma sarà necessariamente compreso tra 2 e 12. Questo significa che le 36 (6x6) combinazioni equiprobabili delle facce dei due dadi saranno distribuite su 11 risultati possibili. Definiamo la probabilità come un valore pari ad uno, per un evento che si verificherà sicuramente, e a zero per un evento che non può essere verificato (ad esempio tutte le combinazioni di numeri che non compaiono sulle facce dei due dadi). Ogni combinazione dei lanci del dado avrà dunque una probabilità di 1/36 (un trentaseiesimo). Se, e solo se, dopo il lancio sia il dado A che il dado B mostreranno la faccia con il numero uno, allora il risultato sarà due. Diremo dunque che il risultato “2” ha una probabilità di 1/36, giacché corrisponde alla probabilità della singola combinazione la cui somma corrisponde a due. Se il dado A mostra il numero 2 e il dado B mostra il numero 1, la somma sarà pari a 3, allo stesso modo se il dado A mostra il numero 2 e il dado B il numero 1. La probabilità di avere come risultato 3, sarà dunque 1/18 (un diciottesimo), il doppio di quella per il numero due, giacché è doppio il numero di combinazioni che la restituiscono. La tabella in basso mostra tutte le possibili combinazioni con le relative somme, una gradazione più scura di grigio corrisponde a un maggior numero di combinazioni, dunque a una maggiore probabilità, mentre sull'istogramma è possibile visualizzare la probabilità di ciascun risultato.

Probabilità della somma del tiro di 2 dadi

La teoria della probabilità fornisce i risultati migliori, quando le si affianca un’altra disciplina, molto più empirica, ovvero la statistica. La statistica può essere considerata l’inverso della teoria della probabilità, in quanto permette di misurare la probabilità di ciascun evento, basandosi sulla frequenza con cui questi vengono realizzati. Se dopo tanto parlarne, prendiamo una coppia di dadi e la lanciamo sul tavolo, il risultato potrebbe davvero essere quello più probabile, ovvero 7, ma potrebbe anche capitare un molto più raro 2, proprio come a volte capita di incontrare per caso un amico in un luogo inaspettato, o di vincere alla lotteria. Se però lanciamo la stessa coppia di dadi dieci volte, noteremo come i risultati capitano più frequentemente quanto più sono vicini al 7. Se poi lanciamo il dado cento volte, ci accorgeremo di come il numero di volte in cui il risultato è stato 7, si avvicina via via a un sesto (1/6) del numero dei lanci, e così anche per gli altri risultati.

Tiro di 2 dadi 100 volte e somma a coppie

Dopo mille lanci, la distribuzione dei risultati somiglierà così tanto all’istogramma delle probabilità, da soddisfare ogni possibile curiosità teorica.

Tiro di 2 dadi 1000 volte e somma a coppie

A chi fosse scettico, può lanciare i dadi diecimila volte, o centomila, finché non distinguerà più il dato sperimentale dalla previsione teorica.

Tiro di 2 dadi 10000 volte e somma a coppie

Questa, non è altro che la ben nota legge dei grandi numeri, che stabilisce che per un evento casuale, i risultati si distribuiscono secondo la propria probabilità quanto più è grande il numero di eventi. Questo è il potere della statistica: poter prevedere su larga scala eventi casuali, quando la quantità di dati a disposizione é sufficientemente grande.

Chi è entrato in un casinò avrà notato come puntando alla roulette, lo zero non sia considerato né pari né dispari, così come non è considerato né rosso né nero. Di più, puntando su un numero compreso tra 0 e 36, si vince esattamente trentasei volte la somma giocata, mentre la probabilità di vittoria è 1/37 così come la probabilità di vittoria giocando su pari o dispari, o su rosso e nero non é esattamente ½, bensì 18/37 (0.486, non lontanissimo da 0.5, cioè la metà). Questa piccola differenza assicura ai gestori del casinò di guadagnare sempre dalla propria attività, finché il casinò viene frequentato. Se ad esempio decido di puntare 37 milioni di volte un euro sul mio numero preferito, avrò puntato 37 milioni di euro, e per la legge dei grandi numeri avrò vinto circa un milione di volte (questa è la legge dei grandi numeri: parlando di milioni si può trascurare un euro in più o in meno). Da questo milione di vittorie avrò incassato però soltanto 36 milioni di euro, mentre il milione risultante che ho perso sarà finito dritto nelle casse del casinò. È chiaro dunque perché questo discorso vale su “grandi numeri”: se decidessi di puntate una sola volta, potrei anche vincere, e tornerei a casa con 36 euro in tasca, ma a meno che non abbia truccato la roulette non posso aspettarmi di vincere sistematicamente. Difatti, questo è proprio il modo in cui le autorità preposte si assicurano che i giochi di probabilità non siano truccati, misurando, su un grande numero di eventi, che i risultati si distribuiscano secondo probabilità. Non è un caso che questo articolo compaia in un numero del bollettino, dedicato a un tema chiamato “big data”. L’intento di questo articolo è quello di aiutare a comprendere quali segreti possono essere nascosti dietro un’enorme quantità di dati, come quella che regaliamo ai colossi di internet ogni giorno. Questi, raccolti e analizzati su scala sufficientemente grande, permettono di prevedere in maniera assolutamente precisa, l’esito di comportamenti di massa. Quello che fa ancora più paura, è che questi risultati ignorano la volontà del singolo essere umano. Ciascuno di noi è libero di essere un lancio di dadi che dà sempre due, ma non importa: quando i padroni sanno che indirizzando la propria propaganda sui lanci che danno un risultato compreso tra 6 e 8 raggiungono quasi la metà della popolazione. Essere “massa” in questo caso si rivela uno svantaggio, giacché è proprio sulla massa che il comportamento del singolo individuo perde ogni valore (come un euro in più o in meno su milioni di puntate), mentre chi possiede i dati, e i computer con cui elaborarli, e le menti con cui analizzarli, può mettere appunto modelli sempre più precisi con cui, ad esempio, identificare possibili membri di movimenti politici rivoluzionari tramite le parole che usano più spesso, o dalla musica che ascoltano, o dai siti che frequentano. In un futuro distopico non troppo lontano, potrebbero essere microscopici cambiamenti della nostra espressione, o del respiro, o del battito cardiaco, a incasellarci in un istogramma in cui veniamo identificati e disinnescati in maniera quasi individuale. Chiudo, dicendo che non si può fare di questo colpa alla scienza o alla tecnologia. Se gli stessi sforzi e gli stessi strumenti venissero investiti per diagnosticare malattie oppure per redistribuire risorse secondo necessità, vivremmo in un’utopia fantascientifica per cui vale la pena continuare a lottare.