In statistica e in ricerca scientifica, un concetto fondamentale è quello di livello di significatività.

Prima di iniziare a parlarne però devo introdurre un paio di nozioni. 

ERRORE DI TIPO 1

La prima è quella di errore di tipo I, cioè rifiutare l’ipotesi nulla quando questa è effettivamente vera. Viene indicato con il simbolo 𝛼 ed è comunemente espresso come una percentuale. In pratica, stabilisce una soglia che definisce quanto siamo disposti a rischiare di trarre conclusioni errate da un’analisi statistica.

IPOTESI NULLA

Per capire meglio, l’ipotesi nulla è la dichiarazione che non c’è differenza significativa tra i gruppi che stiamo confrontando o che un certo effetto non esiste. Quando conduciamo un test statistico, l’obiettivo è raccogliere prove sufficienti per poter eventualmente rifiutare l’ipotesi nulla in favore di un’ipotesi alternativa, che invece sostiene che c’è una differenza o un effetto significativo.

Il livello di significatività entra in gioco proprio in questo processo decisionale. Quando otteniamo un valore p (che è il risultato numerico del test statistico), lo confrontiamo con il livello di significatività prefissato. Se il valore p è inferiore al livello di significatività scelto, rifiutiamo l’ipotesi nulla e concludiamo che c’è una differenza significativa o che l’effetto osservato è reale. Al contrario, se il valore p è maggiore del livello di significatività, non abbiamo abbastanza prove per rigettare l’ipotesi nulla, quindi non possiamo affermare che vi sia un effetto significativo.

Un livello di significatività comunemente utilizzato è 𝛼 = 0,05, che equivale a un 5% di rischio di commettere un errore di tipo I, ovvero rifiutare l’ipotesi nulla quando in realtà essa è vera. In altre parole, c’è una probabilità del 5% che le conclusioni siano dovute al caso, e non a un vero effetto o differenza. Questo valore è considerato un compromesso accettabile tra il rischio di errore e la possibilità di rilevare effetti significativi. Tuttavia, esistono casi in cui si preferisce un livello di significatività più basso, come 𝛼 = 0,01, che riduce il rischio di errore al 1%, ma richiede prove più forti per rifiutare l’ipotesi nulla.

Come scegliere il livello di significatività?

A volte il margine d’errore accettato cambia a seconda del contesto, e della gravità della decisione da prendere. Salireste mai su un ponte autostradale che ha il 10% di probabilità di crollare? 

Non credo!

In molti campi della ricerca scientifica, come la biologia o la medicina, dove le conclusioni errate possono avere conseguenze gravi, si tende a utilizzare un livello di significatività più basso. 

Ad esempio, in uno studio clinico su un nuovo farmaco, gli scienziati potrebbero scegliere α=0,01 per ridurre al minimo il rischio di concludere erroneamente che il farmaco è efficace quando in realtà non lo è. 

Al contrario, in altri campi come la psicologia o le scienze sociali, dove gli impatti di una conclusione errata sono meno critici, il livello di significatività di α=0,05 è generalmente considerato accettabile.

È importante ricordare che il livello di significatività non dice nulla sulla probabilità che l’ipotesi nulla sia vera o falsa, ma rappresenta soltanto il rischio di trarre una conclusione errata. 

Un’interpretazione comune errata è pensare che un valore inferiore a 0,05 significhi che l’ipotesi nulla è “falsa” o che l’ipotesi alternativa sia “vera”.

In realtà il livello di significatività riflette solo la probabilità che i risultati siano stati ottenuti per caso.

Le distribuzioni non normali sono quelle distribuzioni di probabilità che non seguono la forma classica a campana, tipica della distribuzione normale o gaussiana. 

Ricapitolo per chi non avesse letto l’altro mio articoletto in merito: la distribuzione normale è quella in cui i dati si concentrano attorno alla media, e man mano che ci si allontana, i valori diventano meno frequenti. 

Una nozione tecnica da aggiungere al nostro bagaglio di aspiranti esperti di finanza e/o statistica è che esistono molte altre distribuzioni che si comportano diversamente e vengono usate per descrivere situazioni in cui i dati non seguono questo schema.

Scopriamo la distribuzione uniforme

Ad esempio, la distribuzione uniforme è una di quelle non normali. Qui tutti i risultati possibili hanno la stessa probabilità di verificarsi. Immagina di lanciare un dado: ogni numero da 1 a 6 ha esattamente la stessa probabilità di uscire. 

Non c’è un valore più probabile rispetto agli altri, quindi i dati non si concentrano in un punto centrale, ma sono distribuiti in modo “piatto”, senza picchi.

Distribuzione esponenziale

Poi c’è la distribuzione esponenziale, che è molto utile per calcolare il tempo di attesa a uno sportello. Questa distribuzione è asimmetrica: i valori bassi sono più frequenti e c’è una lunga coda a destra.

Piccola parentesi: quando si parla di una “coda lunga verso destra” in statistica, ci si riferisce alla forma di una distribuzione asimmetrica in cui i valori estremi (molto grandi) sono meno frequenti, ma si estendono oltre il valore centrale. 

In una distribuzione di questo tipo, la maggior parte dei dati si trova concentrata verso sinistra, vicino a valori più piccoli o alla media, mentre pochi valori molto più grandi si allontanano e formano la “coda” a destra.

 

Tornando alla distribuzione esponenziale e all’esempio del tempo d’attesa: spesso capita che il tempo di attesa sia breve, ma ogni tanto c’è qualcuno che aspetta molto più a lungo.

Poisson

La distribuzione di Poisson è un’altra distribuzione non normale. Si usa per contare quante volte accade un certo evento in un periodo di tempo fisso, come il numero di telefonate ricevute in un’ora o gli incidenti stradali in un giorno. Questa distribuzione è utile quando gli eventi sono relativamente rari, e anche qui i dati sono asimmetrici, con una coda verso destra.

Binomiale

Com’è la distribuzione dei risultati del lancio di una moneta? 

Per rispondere bisogna scomodare la distribuzione binomiale. La distribuzione binomiale dice come si distribuiscono testa e croce in 10 lanci di moneta, ad esempio. Anche se per molti lanci la distribuzione può sembrare simmetrica, non è perfettamente normale.

Chi quadrato

Un altro esempio interessante è la distribuzione chi quadrato, spesso usata per testare ipotesi in statistica. È una distribuzione molto usata quando si vuole verificare se c’è una differenza significativa tra i dati osservati e quelli attesi in un certo esperimento – ma magari ne parlerò meglio in un prossimo articoletto.

Log normale: ottima per le azioni!

La distribuzione log-normale, invece, si usa quando i dati possono assumere solo valori positivi. Un esempio comune è il prezzo delle azioni, che non può scendere sotto zero. Questa distribuzione è molto asimmetrica, con una coda lunga a destra, il che significa che ogni tanto ci sono valori molto più grandi rispetto alla media.

Pareto

Un’altra distribuzione molto conosciuta è la distribuzione di Pareto, famosa per descrivere situazioni come la distribuzione della ricchezza: una piccola parte della popolazione possiede la maggior parte delle risorse. Anche qui i dati si concentrano sui valori più piccoli, con una lunga coda verso destra.

Altre

Ovviamente non ho potuto mappare tutto, anche perché non sono uno statista e non vorrei entrare troppo nel dettaglio, rischiando di fare consistenti scivoloni.

Accenno solo in conclusione al fatto che ci sono distribuzioni come la t di Student e la distribuzione di Cauchy, che differiscono dalla normale per via delle loro “code più pesanti”. La distribuzione t di Student, ad esempio, è simile alla normale, ma viene usata quando il campione di dati è piccolo, perché prevede un maggior numero di valori estremi rispetto alla normale.

In generale, tutte queste distribuzioni non seguono il tipico schema della distribuzione normale, e ciascuna è utile in contesti specifici. La distribuzione normale è un buon modello quando i dati si concentrano attorno alla media, ma ci sono molti fenomeni reali che richiedono altri tipi di distribuzione per essere descritti accuratamente.



La deviazione standard è un concetto statistico che misura quanto i dati di un insieme sono distribuiti rispetto alla media. 

In altre parole, indica quanto i valori di un gruppo di dati si discostano in media dal valore centrale, cioè dalla media stessa.

Esempio pratico di deviazione standard

Supponiamo che tu stia analizzando le altezze di un gruppo di persone. 

La media delle altezze rappresenta il valore “centrale” del gruppo, cioè l’altezza media di tutte le persone. 

Ma, ovviamente, non tutti avranno esattamente quell’altezza. 

Alcune persone saranno più alte, altre più basse. 

La deviazione standard dice quanto ogni persona si allontana in media dall’altezza media (scusate il bisticcio).

Se la deviazione standard è piccola, significa che la maggior parte delle persone ha un’altezza vicina alla media: in altre parole, c’è poca variazione tra le altezze, e quasi tutti hanno più o meno la stessa altezza. Al contrario, se la deviazione standard è grande, significa che c’è molta variazione nelle altezze: alcune persone sono molto più alte della media, altre molto più basse, e i dati sono quindi più “sparpagliati”.

Un altro modo semplice di pensarlo è immaginare un gruppo di studenti che fanno un test. Se tutti gli studenti ottengono punteggi molto vicini alla media del gruppo, la deviazione standard sarà bassa, perché non c’è molta differenza tra i punteggi. Se invece alcuni studenti ottengono voti molto alti e altri molto bassi, allora la deviazione standard sarà alta, indicando che c’è molta variabilità tra i punteggi.

La deviazione standard è utile perché, oltre a dirci quale sia il valore medio (la media), ci fornisce un’indicazione di quanto variazione c’è nei dati. Senza di essa, sapere solo la media di un insieme di dati può essere fuorviante. Ad esempio, se diciamo che la temperatura media in due città è di 20°C, senza sapere la deviazione standard non possiamo capire se le temperature in quelle città sono relativamente costanti o se variano molto nel corso della giornata (ad esempio da 10°C a 30°C). Una deviazione standard più alta ci indicherebbe che in una delle città le temperature fluttuano molto di più rispetto all’altra.

A cosa ci serve la deviazione standard?

In sintesi: la deviazione standard ci lascia conoscere il valore centrale dei dati. In più, ci fa anche capire quanto quei dati siano variabili rispetto alla media.

Bene, questo mese l’ho ufficialmente dedicato alla finanza.

Mi scuso con quelli di voi che non masticano molto l’argomento, e magari sarebbero stati benone anche senza masticarlo.

Tuttavia ne sono convinto: la finanza è per il patrimonio personale un puntello, un inevitabile moltiplicatore. Così come la statistica lo è per la politica e in generale per la conoscenza del mondo!

Quindi, non me ne vogliate, ma oggi finisco di parlare del concetto di multicollinearità.

Che cos’è la multicollinearità

La multicollinearità è una situazione che si verifica nell’analisi di regressione quando due o più variabili indipendenti (predittori) sono altamente correlate tra loro. In altre parole, la multicollinearità si manifesta quando una variabile indipendente può essere predetta in modo lineare da un’altra variabile indipendente con un alto grado di accuratezza. Questo fenomeno può creare problemi nell’interpretazione dei risultati di un modello di regressione.

La multicollinearità può causare diversi problemi nell’analisi di regressione.

Ad esempio, quando c’è multicollinearità i coefficienti stimati della regressione possono diventare molto sensibili a piccoli cambiamenti nei dati. Ciò significa che aggiungendo o rimuovendo un’osservazione dal dataset, i coefficienti potrebbero cambiare in modo significativo, rendendo il modello instabile e poco affidabile.

In presenza di multicollinearità diventa difficile interpretare i coefficienti di regressione perché non è chiaro quale variabile indipendente stia effettivamente influenzando la variabile dipendente. Ad esempio, se stiamo cercando di capire l’effetto dell’età e dei chilometri percorsi sul valore di un’auto, e queste due variabili sono altamente correlate (perché un’auto più vecchia ha probabilmente percorso più chilometri), diventa difficile isolare l’effetto di ciascuna variabile.

Aumento della varianza dei coefficienti

La multicollinearità aumenta la varianza delle stime dei coefficienti di regressione, rendendo più difficile la determinazione dell’effettiva significatività dei predittori. Ciò può portare a risultati in cui le variabili appaiono non significative quando, in realtà, potrebbero avere un effetto significativo.

È stato troppo tecnico?
Spero vivamente di no!

Vorrei ricollegarmi, approfittando di questa pausa agostana, a quando ho abbozzato la scorsa settimana sulla regressione lineare.

Ora che ho cercato di dare una piccola definizione, è il momento di fare qualche esempio pratico d’utilizzo. 

Previsione delle vendite in base alla spesa per lo stipendio dei venditori

Immaginiamo un’azienda che vuole capire come la spesa per il comparto vendite influisce sulle vendite mensili. In questo caso, la variabile dipendente (Y) è rappresentata dalle vendite, mentre la variabile indipendente (X) è la spesa. Se esiste una relazione lineare tra la spesa in comparto vendite e le vendite (ad esempio, ogni 1.000 euro spesi si traducono in un aumento di 10.000 euro nelle vendite), la regressione lineare può essere uno strumento molto utile per fare previsioni future e ottimizzare il budget per questo reparto.

Analisi della relazione tra l’età e il reddito

Un ricercatore potrebbe essere interessato a studiare la relazione tra l’età delle persone e il loro reddito annuale. Utilizzando un dataset che raccoglie informazioni sull’età e sul reddito di un campione di individui, si può utilizzare la regressione lineare per vedere se c’è una tendenza lineare (ad esempio, il reddito aumenta con l’aumentare dell’età fino a un certo punto, per poi stabilizzarsi o diminuire).

Stima della pressione sanguigna in base all’età e al peso

Un medico può utilizzare la regressione lineare per stimare la pressione sanguigna in base all’età e al peso del paziente. In questo caso, la pressione sanguigna è la variabile dipendente, mentre l’età e il peso sono variabili indipendenti. Se c’è una relazione lineare tra queste variabili, la regressione lineare multivariata (che considera più di una variabile indipendente) può essere utilizzata per costruire un modello predittivo.

Esempi di inefficacia della regressione lineare

Supponiamo di voler prevedere il prezzo di una casa in base alla sua dimensione. In molti mercati immobiliari, esiste una relazione non lineare tra il prezzo di una casa e la sua dimensione (ad esempio, il prezzo potrebbe aumentare rapidamente con l’aumentare della dimensione fino a un certo punto, per poi aumentare più lentamente o addirittura stabilizzarsi). In questo caso, la regressione lineare semplice non sarebbe adatta perché non cattura adeguatamente la natura non lineare della relazione. Potrebbero essere più appropriati modelli di regressione polinomiale o altri metodi di machine learning.

Oppure, immaginiamo di voler utilizzare la regressione lineare per prevedere il numero di ore di studio necessarie per ottenere un certo punteggio su un test. Se nel dataset ci sono alcuni studenti che hanno studiato un numero eccezionalmente elevato di ore ma hanno ottenuto punteggi bassi (o viceversa), questi outlier potrebbero influenzare significativamente la linea di regressione, rendendo il modello meno accurato. In tali casi, la regressione lineare potrebbe non essere la scelta migliore a meno che non si trattino adeguatamente gli outlier o si utilizzi una variante robusta della regressione.

Oppure, la regressione lineare non funziona in scenari in cui le relazioni tra variabili sono molto complesse. 

Ad esempio, in un modello che cerca di prevedere la felicità di una persona in base a fattori come reddito, stato civile, salute, ecc., le interazioni tra queste variabili possono essere complesse e non lineari. In questi casi entrano in campo dei modelli più sofisticati come le reti neurali, le macchine a supporto vettoriale (SVM) o i modelli ad albero decisionale.

La presenza di multicollinearità

Parlerò in un prossimo post di multicollinearità, qui mi limito a dire che il fenomeno si verifica quando le variabili indipendenti risultano correlate tra loro. 

Ad esempio, se stiamo cercando di prevedere il prezzo di un’auto in base all’età dell’auto e al numero di chilometri percorsi, queste due variabili indipendenti potrebbero essere fortemente correlate (più un’auto è vecchia, più chilometri ha percorso). La presenza di multicollinearità può causare problemi nella stima dei coefficienti di regressione e rendere il modello instabile. In questi casi, tecniche come la regressione ridge o l’eliminazione di una delle variabili correlate possono essere necessarie.

Per chi si sta avvicinando al mondo complesso dell’analisi finanziaria, è il momento di mettere un punto: vediamo insieme cosa intendiamo quando parliamo di regressione lineare e perché è importantissimo conoscere e saper applicare questo concetto.

Cosa significa analisi di regressione lineare

L’analisi di regressione lineare è una tecnica statistica utilizzata per modellare e analizzare la relazione tra una variabile dipendente e una o più variabili indipendenti. Questa tecnica è ampiamente utilizzata in vari campi, tra cui economia, scienze sociali, biologia, ingegneria e molti altri, per comprendere e prevedere i comportamenti dei dati.

La regressione lineare si basa sull’idea che esiste una relazione lineare tra le variabili. In altre parole, si assume che il cambiamento in una variabile dipendente (anche chiamata variabile risposta o variabile target) possa essere spiegato da cambiamenti in una o più variabili indipendenti (anche chiamate variabili predittore). La forma più semplice di regressione lineare è quella lineare semplice, che coinvolge solo due variabili: una dipendente e una indipendente. L’obiettivo principale dell’analisi di regressione lineare è identificare la migliore linea retta (o iperpiano, nel caso di più variabili indipendenti) che minimizza la somma dei quadrati delle differenze tra i valori osservati e i valori predetti dalla linea. Questa tecnica è nota come il metodo dei minimi quadrati ordinari (OLS – Ordinary Least Squares). Il risultato finale è un modello che può essere utilizzato per prevedere i valori futuri di Y sulla base di nuovi valori di X.

Gli statisti spesso esaminano anche i valori p dei coefficienti di regressione per determinare se le relazioni osservate tra le variabili sono statisticamente significative. Un valore p inferiore a un livello di significatività (spesso 0,05) indica che esiste una bassa probabilità che la relazione osservata sia dovuta al caso.

I limiti della regressione lineare

Sebbene la regressione lineare sia una tecnica potente, ha anche i suoi limiti. Una delle principali assunzioni della regressione lineare è che esista una relazione lineare tra le variabili. Se la relazione è non lineare, il modello di regressione lineare potrebbe non essere adeguato. Inoltre, la regressione lineare può essere influenzata da valori anomali (outlier) e multicollinearità (quando le variabili indipendenti sono altamente correlate tra loro).

Lo spiegherò meglio in un articolo successivo.

Buongiorno!
Ho sentito di recente una persona usare nello stesso discorso i termini “normalizzazione” e “standardizzazione” in modo intercambiabile. Questa persona non lavora con l’analisi dati, quindi l’ho reputato uno scivolone comprensibile.

Però la differenza è in realtà molto semplice, e utilissima per chi vuole fare un minimo di analisi finanziaria. Quindi ho provato a spiegarla in termini semplici.

Spero sia utile!

Differenza tra normalizzazione e standardizzazione

Immaginiamo di avere un insieme di dati. La normalizzazione ridimensiona i dati in un intervallo fisso, solitamente tra 0 e 1. Ad esempio, abbiamo un gruppo di numeri che rappresentano i punteggi di diverse persone in una gara. 

Normalizzare significa prendere tutti questi punteggi e ridurli in un range da 0 a 1, mantenendo le proporzioni originali. Il punteggio più basso diventerà 0 e quello più alto diventerà 1, mentre tutti gli altri punteggi saranno ridimensionati proporzionalmente tra questi due estremi.

Il grafico della normalizzazione mostra che i dati originali (che potevano essere qualsiasi numero) sono stati compressi in un intervallo da 0 a 1. La forma della distribuzione dei dati rimane la stessa, ma i valori sono ora limitati in questo nuovo intervallo.

Standardizzazione

La standardizzazione, invece, cambia i dati per far sì che abbiano una media di 0 e una deviazione standard di 1. Immagina di prendere tutti i punteggi della gara e trasformarli in “quanto si discostano dalla media”. Se qualcuno ha un punteggio molto vicino alla media, il suo valore standardizzato sarà vicino a 0. Se ha un punteggio molto sopra la media, sarà positivo (maggiore di 0); se molto sotto la media, sarà negativo (minore di 0).

Un tipico grafico della standardizzazione mostra che i dati sono stati trasformati per avere una distribuzione centrata attorno a zero, con la maggior parte dei dati all’interno di un intervallo di -1 a 1, il che indica che la maggior parte dei punteggi non è troppo lontana dalla media.

In parole povere…

La normalizzazione riduce i dati a una scala tra 0 e 1, mantenendo le proporzioni originali tra i valori. Invece la standardizzazione trasforma i dati per avere una media di 0 e misurare quanto ogni dato è lontano dalla media in termini di deviazione standard.

Per l’analisi finanziaria cosa serve?

La risposta è: dipende! 

Come in molti altri contesti, anche qui va fatta un’analisi ad hoc in base alla tipologia di dati e alle risposte che da essi si vogliono ottenere.

Il blackout causato dall’aggiornamento errato di CrowdStrike ha avuto diverse conseguenze gravi. Molte aziende in tutto il mondo hanno subito interruzioni significative, inclusi problemi per le compagnie aeree come United, Delta e American Airlines, che hanno dovuto fermare i voli.

In sintesi: il grave blackout informatico è stato causato da un aggiornamento errato del software di sicurezza CrowdStrike, che ha colpito milioni di dispositivi Windows in tutto il mondo. Il problema ha generato numerosi “Blue Screens of Death” (BSOD), causando interruzioni significative in vari settori, tra cui compagnie aeree e servizi sanitari.

Attacco informatico o errore umano?

L’aggiornamento difettoso non è stato attribuito a un attacco informatico, ma piuttosto a una configurazione del software, a quanto pare scorretta. Questo ci dovrebbe far riflettere su quanta responsabilità stiamo ormai dando all’informatica nelle nostre vite, e in settori chiave come l’estrazione, la viabilità aerea, la sicurezza internazionale, e via dicendo.

Robert Putnam, un rinomato politologo e sociologo americano, ha portato il concetto di capitale sociale al centro del dibattito accademico e pubblico con la sua influente opera, in particolare con il libro “Bowling Alone: The Collapse and Revival of American Community”. Putnam definisce il capitale sociale come le caratteristiche della vita sociale – reti, norme e fiducia – che consentono ai partecipanti di agire insieme in modo più efficace per perseguire obiettivi comuni. Secondo Putnam, il capitale sociale è fondamentale per la salute delle democrazie moderne e per il benessere delle comunità.

Attenzione alle differenze: capitale sociale non significa “contatto utile”

Putnam distingue due forme di capitale sociale: il capitale sociale di legame e il capitale sociale di ponte, il cosiddetto contatto utile, le “connessioni giuste”. Il capitale sociale di legame si riferisce alle connessioni strette e personali che si formano tra individui con esperienze e background simili, come familiari e amici stretti. Questo tipo di capitale sociale può fornire un supporto emotivo e materiale significativo, ma tende a essere meno efficace nel creare legami tra diversi gruppi sociali.

D’altra parte, il capitale sociale di ponte coinvolge relazioni più ampie e meno intime, che collegano individui di diverse origini sociali, economiche ed etniche. Questo tipo di capitale sociale è essenziale per la costruzione di una società coesa e inclusiva, poiché facilita la cooperazione tra diversi segmenti della popolazione. Putnam sottolinea che entrambe le forme di capitale sociale sono necessarie: il capitale sociale di legame costruisce la solidarietà interna, mentre il capitale sociale di ponte promuove l’integrazione e la coesione sociale.

Il caso Stati Uniti

Uno dei principali contributi di Putnam è la sua documentazione del declino del capitale sociale negli Stati Uniti dalla metà del XX secolo. Egli utilizza una vasta gamma di dati, tra cui la partecipazione a organizzazioni civiche, religiose e sociali, il volontariato, la partecipazione politica e altre forme di impegno comunitario, per mostrare come gli americani siano diventati progressivamente meno connessi tra loro.

Putnam attribuisce questo declino a diversi fattori, tra cui l’aumento del tempo dedicato al lavoro, il cambiamento delle strutture familiari, la suburbanizzazione, e l’influenza dei media elettronici, in particolare la televisione. Il calo del capitale sociale, secondo Putnam, ha conseguenze significative per la società, riducendo la capacità delle comunità di risolvere problemi collettivi, di sostenere istituzioni democratiche e di promuovere la fiducia e la cooperazione tra i cittadini.

Fidarsi è bene (sempre!)

Un elemento centrale della teoria del capitale sociale di Putnam è la fiducia. Egli sostiene che la fiducia tra i membri di una comunità è un componente cruciale del capitale sociale e che le reti di fiducia facilitano la cooperazione e l’azione collettiva. La fiducia può essere intesa sia come fiducia interpersonale, ovvero la fiducia che le persone hanno nelle altre persone, sia come fiducia istituzionale, ovvero la fiducia nelle istituzioni e nelle organizzazioni.

Putnam evidenzia come alti livelli di fiducia interpersonale siano associati a una serie di esiti positivi, tra cui una maggiore partecipazione civica, una migliore salute pubblica e una minore criminalità. Le comunità con alti livelli di capitale sociale tendono a essere più prospere e resilienti, poiché la fiducia facilita la cooperazione.

Una piccola lezione che forse dovremmo ricordarci più spesso!

Mi è capitato qualche giorno fa di sentire il termine “Bell’s curve”. Chiunque si sia minimamente occupato di statistica conosce il termine, e lo riferisce alla distribuzione normale. Però, anche se i due concetti sono gli stessi, vorrei evitarvi figuracce… 

Si dice distribuzione normale o Bell’s curve?

Il termine “distribuzione normale” o “gaussiana” proviene dalla matematica e dalla statistica ed è usato per descrivere una distribuzione di probabilità continua che mostra come i valori di una variabile casuale si distribuiscono attorno a una media. Questa distribuzione è chiamata “gaussiana” in onore del matematico tedesco Carl Friedrich Gauss, che ne formalizzò i principi.

Una delle principali caratteristiche della distribuzione normale è che la maggior parte dei valori si concentra attorno alla media, e man mano che ci si allontana da essa, le probabilità di trovare altri valori diminuiscono progressivamente. 

Se disegnassimo un grafico della distribuzione normale, otterremmo una curva simmetrica e liscia che parte dal basso, si innalza verso un picco centrale, per poi ridiscendere su entrambi i lati, assumendo una forma molto simile a una campana. 

È proprio questa forma che ha dato origine al termine colloquiale “curva a campana”, utilizzato per descrivere visivamente la distribuzione.

I concetti di media e deviazione standard

Dal punto di vista matematico, la distribuzione normale è definita da una funzione precisa in cui entrano in gioco due parametri fondamentali: la media e la deviazione standard. La media rappresenta il valore centrale attorno al quale sono distribuiti i dati, mentre la deviazione standard misura quanto i dati si disperdono intorno a quella media. 

La distribuzione normale ha alcune proprietà uniche.

In primis è simmetrica, il che significa che i dati si distribuiscono uniformemente a destra e a sinistra della media; e la media, la mediana e la moda coincidono, il che rende questa distribuzione particolarmente equilibrata.

Regola 68-95-99.7

Un aspetto molto importante della distribuzione normale è la cosiddetta regola empirica o regola 68-95-99.7. 

Questa regola descrive quanto sono distribuiti i dati rispetto alla media: il 68% dei dati si trova entro una deviazione standard dalla media, il 95% entro due deviazioni standard e il 99,7% entro tre. 

In parole povere: in una distribuzione normale, quasi tutti i valori saranno vicini alla media e sarà molto raro trovare valori estremi.

Sebbene i concetti di distribuzione normale e curva a campana siano praticamente sinonimi, la terminologia varia a seconda del contesto. 

In ambito accademico o statistico si preferisce parlare di distribuzione normale o gaussiana, poiché descrivono con precisione la struttura matematica di questa distribuzione. 

Insomma… Quale termine conviene usare in una conversazione?

Mio consiglio: usate il termine “distribuzione normale” solo se ne conoscete le regole e se siete abbastanza ferrati da rispondere a un contraddittorio.

Il termine Bell’s Curve è comunque corretto, ma farà intendere che lo usate in maniera più “pop”.

Fate vobis!