Quando la distribuzione non è normale

Le distribuzioni non normali sono quelle distribuzioni di probabilità che non seguono la forma classica a campana, tipica della distribuzione normale o gaussiana.

Ricapitolo per chi non avesse letto l’altro mio articoletto in merito: la distribuzione normale è quella in cui i dati si concentrano attorno alla media, e man mano che ci si allontana, i valori diventano meno frequenti.

Una nozione tecnica da aggiungere al nostro bagaglio di aspiranti esperti di finanza e/o statistica è che esistono molte altre distribuzioni che si comportano diversamente e vengono usate per descrivere situazioni in cui i dati non seguono questo schema.

Scopriamo la distribuzione uniforme

Ad esempio, la distribuzione uniforme è una di quelle non normali. Qui tutti i risultati possibili hanno la stessa probabilità di verificarsi. Immagina di lanciare un dado: ogni numero da 1 a 6 ha esattamente la stessa probabilità di uscire.

Non c’è un valore più probabile rispetto agli altri, quindi i dati non si concentrano in un punto centrale, ma sono distribuiti in modo “piatto”, senza picchi.

Distribuzione esponenziale

Poi c’è la distribuzione esponenziale, che è molto utile per calcolare il tempo di attesa a uno sportello. Questa distribuzione è asimmetrica: i valori bassi sono più frequenti e c’è una lunga coda a destra.

Piccola parentesi: quando si parla di una “coda lunga verso destra” in statistica, ci si riferisce alla forma di una distribuzione asimmetrica in cui i valori estremi (molto grandi) sono meno frequenti, ma si estendono oltre il valore centrale.

In una distribuzione di questo tipo, la maggior parte dei dati si trova concentrata verso sinistra, vicino a valori più piccoli o alla media, mentre pochi valori molto più grandi si allontanano e formano la “coda” a destra.

Tornando alla distribuzione esponenziale e all’esempio del tempo d’attesa: spesso capita che il tempo di attesa sia breve, ma ogni tanto c’è qualcuno che aspetta molto più a lungo.

Poisson

La distribuzione di Poisson è un’altra distribuzione non normale. Si usa per contare quante volte accade un certo evento in un periodo di tempo fisso, come il numero di telefonate ricevute in un’ora o gli incidenti stradali in un giorno. Questa distribuzione è utile quando gli eventi sono relativamente rari, e anche qui i dati sono asimmetrici, con una coda verso destra.

Binomiale

Com’è la distribuzione dei risultati del lancio di una moneta?

Per rispondere bisogna scomodare la distribuzione binomiale. La distribuzione binomiale dice come si distribuiscono testa e croce in 10 lanci di moneta, ad esempio. Anche se per molti lanci la distribuzione può sembrare simmetrica, non è perfettamente normale.

Chi quadrato

Un altro esempio interessante è la distribuzione chi quadrato, spesso usata per testare ipotesi in statistica. È una distribuzione molto usata quando si vuole verificare se c’è una differenza significativa tra i dati osservati e quelli attesi in un certo esperimento – ma magari ne parlerò meglio in un prossimo articoletto.

Log normale: ottima per le azioni!

La distribuzione log-normale, invece, si usa quando i dati possono assumere solo valori positivi. Un esempio comune è il prezzo delle azioni, che non può scendere sotto zero. Questa distribuzione è molto asimmetrica, con una coda lunga a destra, il che significa che ogni tanto ci sono valori molto più grandi rispetto alla media.

Pareto

Un’altra distribuzione molto conosciuta è la distribuzione di Pareto, famosa per descrivere situazioni come la distribuzione della ricchezza: una piccola parte della popolazione possiede la maggior parte delle risorse. Anche qui i dati si concentrano sui valori più piccoli, con una lunga coda verso destra.

Altre

Ovviamente non ho potuto mappare tutto, anche perché non sono uno statista e non vorrei entrare troppo nel dettaglio, rischiando di fare consistenti scivoloni.

Accenno solo in conclusione al fatto che ci sono distribuzioni come la t di Student e la distribuzione di Cauchy, che differiscono dalla normale per via delle loro “code più pesanti”. La distribuzione t di Student, ad esempio, è simile alla normale, ma viene usata quando il campione di dati è piccolo, perché prevede un maggior numero di valori estremi rispetto alla normale.

In generale, tutte queste distribuzioni non seguono il tipico schema della distribuzione normale, e ciascuna è utile in contesti specifici. La distribuzione normale è un buon modello quando i dati si concentrano attorno alla media, ma ci sono molti fenomeni reali che richiedono altri tipi di distribuzione per essere descritti accuratamente.