Paradosso di Simpson: scambiare lucciole per lanterne

Il paradosso di Simpson è una delle bestie nere della statistica. Poco noto al grande pubblico, il paradosso di Simpson è una delle fonti di bias più insidiose: esso crea trappole laddove si pensa di aver una strada ben asfaltata e senza ostacoli.
Concettualizzato nel 1951 da Edward H. Simpson, nonostante i suoi effetti fossero stati in precedenza riscontrati da Karl Pearson nel 1899 e da Udny Yule nel 1903, il paradosso di Simpson è un fenomeno che può riguardare tutte le analisi statistiche ed in particolare modo gli studi randomizzati.

Paradosso di Simpson: una storia illustre

Uno dei più noti casi di paradosso di Simpson è quello verificatosi presso l’Università di Berkeley (California, USA) nel 1973. Dall’analisi dei dati delle iscrizioni dell’anno 1973, risultò che in quell’anno erano stati ammessi rispettivamente il 44% di uomini ed il 35% di donne sul totale di coloro che avevano presentato domanda.
La notizia fece scalpore: la percentuale di uomini ammessi era di gran lunga più alta di quella delle donne. L’Università di Berkeley aveva seppur involontariamente discriminato tra uomini e donne? Una successiva e più attenta analisi dimostrò che la realtà osservata era ben diversa da quella numericamente riportata. Si scoprì infatti che, analizzando le percentuali rispetto ad ogni dipartimento, la percentuale di donne ammesse per dipartimento superava addirittura quella degli uomini.

Identificazione del vero responsabile

La notizia del ricalcolo e dei nuovi risultati rassicurò il pubblico. Ma restava ancora da capire cosa avesse potuto sovvertire la realtà. Perché nel dato generale risultava una tale apparente disparità tra uomini e donne?
La risposta nel caso specifico di Berkeley fu rintracciata nelle diverse preferenze tra uomini e donne nella scelta dei dipartimenti. Le donne avevano fatto domanda di ammissione in modo quasi assoluto in quei dipartimenti con percentuali di ammissione molto bassi dove avevano avuto la meglio. Viceversa le donne avevano scelto di partecipare in misura inferiore rispetto agli uomini in quei dipartimenti dove le percentuali di ammissioni erano maggiori, determinando così una differenza non nelle percentuali di ammissione, ma nella composizione dei sottogruppi.

Cos’è il paradosso di Simpson

Nel 1973 il primo analista dell’Università di Berkeley era stato vittima degli effetti dannosi del paradosso di Simpson, ossia di quel fenomeno che, se non opportunamente controllato, può avere effetti nocivi su tutte le analisi statistiche.
Tecnicamente il paradosso di Simpson è un fenomeno che interessa l’associazione tra due variabili (le consuete x e y). Il termine “paradosso” deriva dall’abilità di tale “nemico” nel ribaltare lo stato dei fatti e far apparire come verosimile un’associazione che ha caratteristiche opposte alla realtà osservata. La sua comparsa non è tuttavia un evento casuale, ma è determinata dalla presenza di elementi nascosti, meglio noti come fattori confondenti.

Dentro il paradosso di Simpson

Per poter dare una spiegazione di come ciò possa accadere, mi rifaccio ad un noto esempio di paradosso di Simpson, quello descritto da Pearl nel 2009. Immaginiamo di dover condurre uno studio randomizzato sull’efficacia di un nuovo farmaco nella riduzione dell’ospedalizzazione, sapendo che il rischio di ospedalizzazione per gli uomini è più alto. Per condurre tale studio, eseguiamo uno studio prospettico randomizzato con arruolamento consecutivo.
Consideriamo a tal file un campione ben bilanciato rispetto al sesso e al trattamento (farmaco vs placebo) di 80 pazienti: 40 uomini e 40 donne, 40 pazienti nel gruppo di controllo (placebo) e 40 pazienti nel gruppo di trattamento (farmaco).
Dopo aver condotto l’analisi scopriamo che è stato ricoverato il 50% degli individui del gruppo di trattamento ed il 40% degli individui del gruppo di controllo. Da tali percentuali possiamo concludere che il farmaco aumenta il rischio di ricovero. Tale risultato è convincente? Meglio investigare oltre. A tal proposito facciamo entrare in scena il dato epidemiologico (il rischio di ospedalizzazione per gli uomini è più alto). Per fare ciò, eseguiamo l’analisi precedente suddividendo il campione in due gruppi definiti rispetto al sesso. Ne emerge che in entrambi i sottogruppi, il farmaco ha permesso una riduzione del rischio del 10%.

Quale versione è quella corretta?


Mettendo insieme le tessere del puzzle appare una situazione paradossale: la percentuale overall afferma che il farmaco è più nocivo del placebo, mentre nell’analisi dei singoli gruppi per sesso, lo stesso farmaco è protettivo. Ci si chiede: Qual è la situazione numerica che correttamente interpreta il fenomeno?
La risposta a tale domanda è da rintracciarsi proprio nel dato epidemiologico: gli uomini hanno maggior rischio di ospedalizzazione e, esattamente come accaduto a Berkeley, la loro presenza tra i ricoverati è di per sé maggiore, a prescindere dall’assunzione o meno del farmaco.
Poiché la stratificazione è stata la chiave di volta, la via più semplice per l’analisi appare quella di creare 4 gruppi con uguale numero di pazienti e composti nel seguente modo:

  • 1° gruppo: n donne trattate con placebo;
  • 2° gruppo: n donne trattate con farmaco;
  • 3° gruppo: n uomini trattati con placebo;
  • 4° gruppo: n uomini trattati con farmaco.

Adottando un tale approccio la presenza del fattore confondente – ossia il diverso tasso di ospedalizzazione tra uomini e donne – evita il paradosso e dà origine a risultati idonei a rappresentare il mondo reale.

Ancora un dubbio…

A questo punto, siamo proprio sicuri di aver considerato tutto? A ben guardare, sappiamo che i pazienti più anziani sono soggetti a maggiore ospedalizzazione dei giovani: come comportarsi rispetto alla variabile “età”? Anche in questo caso una diversa composizione potrebbe dare origine al paradosso. Come fatto per la prima volta, potremmo creare 8 gruppi (trattamento x sesso x età) includendo il fattore confondente età.
In termini matematici, dando per base i 2 gruppi, ogni volta che aggiungiamo un fattore confondente, il numero dei gruppi necessari è pari a 2(numero di fattori+1) che nell’ultimo caso è 23. In tal modo è scongiurato ancora una volta il paradosso.

Inoltre, cosa fare nel caso in cui compaia un altro fattore confondente, ad esempio una specifica comorbidità che aumenta il rischio ospedalizzazione? Allora il numero di gruppi diviene 24.
E se aggiungiamo l’etnia? Esso diventa 25.
E se considerassimo l’uso di specifici trattamenti? 26.
Ok, credo che il gioco sia molto chiaro. Ogni volta che si aggiunge un fattore, aumenta la potenza di due. Continuando di questo passo e considerando i nostri fattori confondenti, c’è bisogno di 64 gruppi. Considerando che ogni gruppo deve essere composto da un numero sufficiente di pazienti altrimenti l’analisi non ha potenza, l’intera popolazione con le caratteristiche del nostro studio potrebbe non essere sufficiente. Ma tale considerazione introduce un altro tema (potenza del campione e dimensione campionaria).

Paradosso di Simpson: come uscirne?

Per poter risolvere il paradosso di Simpson, il passo è conoscere le sue intricate combinazioni. Uno dei migliori approcci – oltre quello matematico e di combinazione delle probabilità come suggerito da Pearl – consiste nella valutazione esperta.
Nel mio lavoro in molti mi chiedono: come fai a comprendere che i numeri che risultano dall’analisi statistica stiano rappresentando il fenomeno medico realmente osservato e non siano solo numeri? La risposta è in due elementi chiave: conoscenza ed esperienza.
La conoscenza di chi legge i numeri deve necessariamente superare i confini della sola statistica: le letture numeriche fuori contesto sono il più pericoloso dei mali della ricerca.
A sua volta, l’esperienza – secondo elemento per scansare il paradosso – è un curioso fattore determinante delle nostre vite. Una strana maestra di vita: prima si fanno gli esami su una materia e poi si impara la lezione.
La combinazione di conoscenza ed esperienza è il requisito necessario per evitare il paradosso di Simpson e, aggiungo, molti altri bias degli studi scientifici.
Non potendo arruolare per motivi economici e di tempo l’intera popolazione mondiale per uno studio clinico (anche perché aggiungendo un nuovo fattore confondente, la stessa popolazione mondiale potrebbe non essere sufficiente), è necessario unire le forze della conoscenza e dell’esperienza per far sì che la il paradosso divenga uno scoglio da ammirare da lontano e non un pericoloso ostacolo alla navigazione.


La presenza del paradosso di Simpson ed i suoi effetti ricordano una nota filastrocca. Esattamente come succede al calabrone, anche i ricercatori meno attenti possono scontrarsi con gli effetti dello scambio, prendendo appunto “lucciole per lanterne”.
La gaia luccioletta
presa dal calabrone
fu messa per lampione
sopra la bicicletta.
Ma il rospo pizzardone
che stava alla vedetta
gli fece in fretta in fretta
questa contravvenzione:
“E’ scritto a chiare lettere
che per ragioni interne
non si possono prendere
lucciole per lanterne!”


References

  • Fenton N., Neil M. and Constantinou A. Simpson’s Paradox and the implications for medical trials, 2015
  • Ameringer S, Serlin RC, Ward S. Simpson’s paradox and experimental research. Nurs Res. 2009;58(2):123-127. doi:10.1097/NNR.0b013e318199b517
  • Pearl, Judea, Understanding Simpson’s Paradox (September 19, 2013). Available at SSRN: https://ssrn.com/abstract=2343788 or http://dx.doi.org/10.2139/ssrn.2343788
Previous Article

Machine Learning: gatto o cucciolo di tigre? I rischi della non-validazione.

Next Article

Interrupted Time Series: un approccio per quasi-experimental studies

Related Posts