Il paradosso di Simpson è un fenomeno statistico, come dice il nome “para-doxa”, dal greco antico “contro l’opinione comune”.

Insomma, il paradosso di Simpson è per sua stessa natura controintuitivo. Vorrei provare a spiegare in termini divulgativi in cosa consiste.

Definizione del paradosso

Il paradosso di Simpson si verifica quando una tendenza osservata in diversi gruppi separati si inverte quando i dati vengono combinati. 

Questo paradosso mette in evidenza l’importanza di analizzare i dati nel contesto e di essere cauti nel trarre conclusioni senza comprendere come sono suddivisi i gruppi.

Esempio

Per capire meglio, supponiamo di confrontare il tasso di successo di due trattamenti medici, il trattamento A e il trattamento B, su due gruppi di pazienti, maschi e femmine.

 

Dopo aver condotto lo studio, scopriamo che tra gli uomini, il trattamento A ha un tasso di successo del 90%, mentre il trattamento B ha solo un 80% di successo. Invece tra le donne il trattamento A ha un tasso di successo del 70%, mentre il trattamento B ha un 60% di successo.

Quindi, sia tra gli uomini che tra le donne, il trattamento A sembra essere più efficace di B. Tuttavia, quando combiniamo i dati di uomini e donne, possiamo notare che il trattamento B complessivamente sembra avere un tasso di successo maggiore del trattamento A. Questo è il paradosso di Simpson: una tendenza che esiste in ciascun gruppo separato si inverte quando i dati sono combinati.

Come si verifica il paradosso di Simpson

Il paradosso di Simpson si verifica a causa della distribuzione disuguale dei dati tra i gruppi. Nell’esempio precedente, potrebbe accadere che molte più persone abbiano ricevuto il trattamento A tra le donne, che hanno un tasso di successo inferiore, e che la maggioranza degli uomini (con un tasso di successo superiore) abbia ricevuto il trattamento B. Questa distribuzione sbilanciata può influenzare il risultato aggregato, facendo apparire il trattamento B complessivamente migliore, anche se nei singoli gruppi (uomini e donne) il trattamento A è più efficace.

Quindi, siamo di fronte a una contraddizione? A una crisi del buon senso?

No, assolutamente.

Basta considerare sempre le distribuzioni di dati tra i gruppi e il modo in cui possono influenzare i risultati, considerando la possibilità del paradosso.

Come evitare il paradosso di Simpson

In una frase, si potrebbe rispondere: facendo domande. Per evitare di cadere nel paradosso di Simpson, è fondamentale analizzare i dati in modo approfondito, valutando le relazioni non solo nei dati aggregati, ma anche nei sottogruppi. 

La correlazione non implica necessariamente una relazione causale. Anche se una correlazione appare chiara nei dati aggregati, potrebbe esserci una spiegazione più complessa nei sottogruppi.

 

Il contesto, baby, il contesto!