Ho di recente assaggiato un vino che mi ha molto incuriosito, e che sembra in lizza per diventare il prossimo prodotto più fashionable sulle nostre tavole. Si chiama Cirò ed è calabrese, e già è meritevole a mio avviso di attenzioni speciali, perché originario di una regione abbastanza bistrattata, vitivinicolmente parlando.
La denominazione di origine controllata (DOC) Cirò comprende i comuni di Cirò e Cirò Marina, oltre a Melissa e Crucoli. Questo territorio beneficia di condizioni climatiche straordinarie: il sole abbondante, le brezze marine e i terreni calcarei-argillosi creano un ambiente ideale per la viticoltura. Il microclima della zona fa il resto. 

Tipo di vino

Questo vino ha una complessità aromatica unica e un perfetto equilibrio tra freschezza e struttura.

È uno dei vini più antichi e prestigiosi d’Italia, prodotto principalmente nella zona di Cirò Marina, nel cuore della provincia di Crotone.

Le radici del Cirò affondano nell’antichità classica. Si ritiene che questo vino sia stato prodotto per la prima volta dagli antichi Greci, che colonizzarono la Calabria intorno all’VIII secolo a.C. Conosciuto come “Krimisa” nell’antichità, il Cirò veniva offerto agli atleti vincitori dei Giochi Olimpici.

Le uve protagoniste

Il Cirò è principalmente prodotto con uve Gaglioppo, un vitigno autoctono calabrese noto per la sua capacità di dare vita a vini robusti e longevi. 

Per il Cirò Rosso, il Gaglioppo deve costituire almeno l’80% del blend, mentre la restante parte può includere altri vitigni autorizzati come il Greco Nero. Esistono anche varianti bianche e rosate, che utilizzano uve Greco Bianco e Trebbiano Toscano per il Cirò Bianco e un mix di Gaglioppo e Greco Bianco per il Cirò Rosato.

Il Cirò Rosso è però forse il più conosciuto e apprezzato. Si presenta con un colore rosso rubino intenso, un bouquet ricco di aromi di frutti rossi maturi, spezie e note di sottobosco. Al palato è corposo, con tannini morbidi e una persistenza notevole. 

La Riserva offre una complessità ancora maggiore, con sentori di liquirizia, tabacco e cioccolato.

Il Cirò Bianco, invece, è fresco e aromatico, con profumi di fiori bianchi, agrumi e una piacevole sapidità che richiama il mare. Infine, il Cirò Rosato è caratterizzato da un colore rosato brillante, un profilo fruttato e una bevibilità immediata, ideale per accompagnare piatti leggeri.

Abbinamenti gastronomici

Ho iniziato su questa nota enologica perché mi sono voluto documentare bene, trovando le definizioni corrette, nel caso foste interessati a provarlo.

Aggiungo solo che il Cirò Rosso si abbina perfettamente ai piatti della tradizione calabrese, come i salumi piccanti, la pasta con sughi di carne e i formaggi stagionati. Il Bianco è ottimo con pesce, crostacei e insalate fresche, mentre il Rosato è ottimo per i piatti estivi – ahimé, ora fuori stagione.

David Maria Turoldo è una figura straordinaria e unica nel panorama della teologia e della poesia italiana del XX secolo. Lo conosciamo, per chi lo conosce, come frate, poeta, intellettuale e uomo di grande fede, che ha saputo intrecciare la profondità spirituale con un forte impegno sociale e culturale. Mi è sembrato opportuno parlarne ora anche per celebrare l’uscita del libro “David Maria Turoldo – Vita di un poeta ribelle” di Mario Lancisi.

La storia

Nato in Friuli nel 1916, Turoldo abbraccia presto la vocazione religiosa entrando nell’ordine dei Servi di Maria. Fin dall’inizio, la sua ricerca spirituale è orientata verso una fede vissuta come ricerca incessante, mai statica, fatta di dubbi, di dolore, ma anche di una profonda passione per l’umanità.

La sua teologia non è mai stata separata dalla vita quotidiana e dalle sofferenze del mondo; anzi, Turoldo ha sempre cercato di portare il messaggio cristiano fuori dalle mura della chiesa, tra la gente e nelle battaglie per la giustizia sociale.

Ma il libro di Lancisi promette di non essere “una biografia” (come riporta Ansa) ma un vademecum, quasi, per comprendere meglio il suo pensiero.

Il pensiero di Turoldo in breve

Durante la Seconda Guerra Mondiale, ad esempio, si impegnò attivamente nella Resistenza, credendo che la libertà e la dignità umana fossero valori che un cristiano non poteva ignorare.

Turoldo è conosciuto soprattutto per la sua poesia, dove la sua teologia trova una forma potentemente espressiva. Nelle sue poesie, Dio non è mai una presenza distante, ma piuttosto un interlocutore vicino, con cui l’autore dialoga quasi quotidianamente, spesso con toni accesi, intensi, persino di rimprovero. Turoldo non esita a esprimere i suoi dubbi e le sue angosce, ponendo a Dio domande forti e dolorose. In molti dei suoi testi emerge il senso di una fede tormentata, che non fugge dai problemi ma li affronta di petto. Per lui, il credere è un atto di lotta e di amore: Dio è compagno di cammino, partecipe delle sofferenze umane, non un essere irraggiungibile e distante.

Negli anni Sessanta, Turoldo è stato un sostenitore del rinnovamento della Chiesa promosso dal Concilio Vaticano II, credendo profondamente nella necessità di una chiesa più vicina alla vita reale, ai problemi e alle esigenze delle persone comuni. Questa apertura lo porta spesso a scontrarsi con l’autorità ecclesiastica, soprattutto per le sue posizioni in favore della giustizia sociale e per la sua critica verso gli aspetti più conservatori della Chiesa. Turoldo non ha mai avuto paura di parlare apertamente, anche quando le sue opinioni potevano sembrare scomode o provocatorie. La sua idea di fede era quella di un’esperienza viva e partecipata, in cui il cristiano non è chiamato a obbedire passivamente, ma a interrogarsi e a cercare continuamente.

Cosa contraddistingue la sua opera

La sua opera è attraversata da un grande amore per il mondo e per le persone, soprattutto per i poveri, gli ultimi, i dimenticati. Turoldo vedeva in loro un riflesso diretto del Cristo sofferente, e per questo considerava l’impegno per la giustizia come un dovere imprescindibile per chiunque si definisse cristiano. Le sue poesie sono testimonianze di questa visione: un linguaggio che sa unire la bellezza della parola all’intensità della denuncia e alla profondità della preghiera.

David Maria Turoldo è stato, in definitiva, un profeta dei nostri tempi, una voce che richiama il cristianesimo alla sua essenza più pura e radicale. La sua spiritualità non è mai stata comoda né pacifica, ma sempre in movimento, come la vita stessa. Leggere Turoldo significa confrontarsi con una fede inquieta, una fede che non si accontenta delle risposte facili e che, proprio per questo, diventa una fonte di ispirazione.

Le one-day option, o opzioni di un giorno, sono strumenti finanziari derivati che consentono agli investitori di speculare sul prezzo di un asset sottostante (come un’azione, un indice o una materia prima) nell’arco di una singola giornata. 

L’idea alla base è che queste opzioni scadano lo stesso giorno in cui vengono acquistate, il che significa che gli investitori devono prendere decisioni rapide e hanno poco tempo per reagire alle variazioni di prezzo. 

Le one-day option sono una recente innovazione nel mondo della finanza e si stanno rapidamente diffondendo grazie alla possibilità di ottenere profitti potenzialmente elevati in breve tempo.

Come funzionano le one-day option?

Le one-day option operano come qualsiasi altra opzione tradizionale, ma con una scadenza fissata per la fine della giornata. 

Esistono due tipi di opzioni: call e put. 

Una call option concede al titolare il diritto, ma non l’obbligo, di acquistare l’asset sottostante a un prezzo prestabilito (il prezzo di esercizio o strike price) entro la fine della giornata. 

Una put option, invece, concede il diritto di vendere l’asset a un prezzo predeterminato entro la stessa scadenza giornaliera.

Il segreto è la scadenza breve

Il valore delle one-day option dipende in gran parte dalla volatilità del mercato. 

Se il prezzo dell’asset sottostante si muove rapidamente in una direzione favorevole, allora molto bene! 

Se invece il prezzo non si muove nella direzione sperata o rimane stabile, l’opzione può rapidamente perdere valore fino a diventare completamente inutile al termine della giornata.

Vantaggi delle one-day option

In primis, rendimenti elevati in tempi molto brevi. Quindi, benvenuti trader intraday! 

Con una scadenza di sole 24 ore, le one-day option consentono di trarre vantaggio da notizie economiche, eventi aziendali o altre fluttuazioni del mercato che hanno una rilevanza nell’arco della giornata.

Inoltre, le one-day option offrono una sorta di protezione naturale contro i rischi di overnight, dato che tutte le posizioni vengono chiuse entro la giornata. Questo può essere particolarmente vantaggioso in mercati molto volatili o in periodi di incertezza economica.

Rischi 

I rischi sono abbastanza intuibili. Se il prezzo dell’asset non si muove nella direzione prevista entro la fine della giornata, l’opzione perde tutto il suo valore, risultando in una perdita totale del capitale investito.

Inoltre, a causa della loro elevata volatilità e del tempo ridotto, le one day option richiedono una grande precisione nel timing. Per i meno esperti, è la situazione più rischiosa.

In generale – e non si prenda come una consulenza ma come una direzione, appunto, generale – le one day option sono strumenti avanzati che si adattano meglio a trader con esperienza e a chi ha una conoscenza approfondita dei movimenti di mercato di breve termine. 

Il paradosso di Simpson è un fenomeno statistico, come dice il nome “para-doxa”, dal greco antico “contro l’opinione comune”.

Insomma, il paradosso di Simpson è per sua stessa natura controintuitivo. Vorrei provare a spiegare in termini divulgativi in cosa consiste.

Definizione del paradosso

Il paradosso di Simpson si verifica quando una tendenza osservata in diversi gruppi separati si inverte quando i dati vengono combinati. 

Questo paradosso mette in evidenza l’importanza di analizzare i dati nel contesto e di essere cauti nel trarre conclusioni senza comprendere come sono suddivisi i gruppi.

Esempio

Per capire meglio, supponiamo di confrontare il tasso di successo di due trattamenti medici, il trattamento A e il trattamento B, su due gruppi di pazienti, maschi e femmine.

 

Dopo aver condotto lo studio, scopriamo che tra gli uomini, il trattamento A ha un tasso di successo del 90%, mentre il trattamento B ha solo un 80% di successo. Invece tra le donne il trattamento A ha un tasso di successo del 70%, mentre il trattamento B ha un 60% di successo.

Quindi, sia tra gli uomini che tra le donne, il trattamento A sembra essere più efficace di B. Tuttavia, quando combiniamo i dati di uomini e donne, possiamo notare che il trattamento B complessivamente sembra avere un tasso di successo maggiore del trattamento A. Questo è il paradosso di Simpson: una tendenza che esiste in ciascun gruppo separato si inverte quando i dati sono combinati.

Come si verifica il paradosso di Simpson

Il paradosso di Simpson si verifica a causa della distribuzione disuguale dei dati tra i gruppi. Nell’esempio precedente, potrebbe accadere che molte più persone abbiano ricevuto il trattamento A tra le donne, che hanno un tasso di successo inferiore, e che la maggioranza degli uomini (con un tasso di successo superiore) abbia ricevuto il trattamento B. Questa distribuzione sbilanciata può influenzare il risultato aggregato, facendo apparire il trattamento B complessivamente migliore, anche se nei singoli gruppi (uomini e donne) il trattamento A è più efficace.

Quindi, siamo di fronte a una contraddizione? A una crisi del buon senso?

No, assolutamente.

Basta considerare sempre le distribuzioni di dati tra i gruppi e il modo in cui possono influenzare i risultati, considerando la possibilità del paradosso.

Come evitare il paradosso di Simpson

In una frase, si potrebbe rispondere: facendo domande. Per evitare di cadere nel paradosso di Simpson, è fondamentale analizzare i dati in modo approfondito, valutando le relazioni non solo nei dati aggregati, ma anche nei sottogruppi. 

La correlazione non implica necessariamente una relazione causale. Anche se una correlazione appare chiara nei dati aggregati, potrebbe esserci una spiegazione più complessa nei sottogruppi.

 

Il contesto, baby, il contesto!

In statistica e in ricerca scientifica, un concetto fondamentale è quello di livello di significatività.

Prima di iniziare a parlarne però devo introdurre un paio di nozioni. 

ERRORE DI TIPO 1

La prima è quella di errore di tipo I, cioè rifiutare l’ipotesi nulla quando questa è effettivamente vera. Viene indicato con il simbolo 𝛼 ed è comunemente espresso come una percentuale. In pratica, stabilisce una soglia che definisce quanto siamo disposti a rischiare di trarre conclusioni errate da un’analisi statistica.

IPOTESI NULLA

Per capire meglio, l’ipotesi nulla è la dichiarazione che non c’è differenza significativa tra i gruppi che stiamo confrontando o che un certo effetto non esiste. Quando conduciamo un test statistico, l’obiettivo è raccogliere prove sufficienti per poter eventualmente rifiutare l’ipotesi nulla in favore di un’ipotesi alternativa, che invece sostiene che c’è una differenza o un effetto significativo.

Il livello di significatività entra in gioco proprio in questo processo decisionale. Quando otteniamo un valore p (che è il risultato numerico del test statistico), lo confrontiamo con il livello di significatività prefissato. Se il valore p è inferiore al livello di significatività scelto, rifiutiamo l’ipotesi nulla e concludiamo che c’è una differenza significativa o che l’effetto osservato è reale. Al contrario, se il valore p è maggiore del livello di significatività, non abbiamo abbastanza prove per rigettare l’ipotesi nulla, quindi non possiamo affermare che vi sia un effetto significativo.

Un livello di significatività comunemente utilizzato è 𝛼 = 0,05, che equivale a un 5% di rischio di commettere un errore di tipo I, ovvero rifiutare l’ipotesi nulla quando in realtà essa è vera. In altre parole, c’è una probabilità del 5% che le conclusioni siano dovute al caso, e non a un vero effetto o differenza. Questo valore è considerato un compromesso accettabile tra il rischio di errore e la possibilità di rilevare effetti significativi. Tuttavia, esistono casi in cui si preferisce un livello di significatività più basso, come 𝛼 = 0,01, che riduce il rischio di errore al 1%, ma richiede prove più forti per rifiutare l’ipotesi nulla.

Come scegliere il livello di significatività?

A volte il margine d’errore accettato cambia a seconda del contesto, e della gravità della decisione da prendere. Salireste mai su un ponte autostradale che ha il 10% di probabilità di crollare? 

Non credo!

In molti campi della ricerca scientifica, come la biologia o la medicina, dove le conclusioni errate possono avere conseguenze gravi, si tende a utilizzare un livello di significatività più basso. 

Ad esempio, in uno studio clinico su un nuovo farmaco, gli scienziati potrebbero scegliere α=0,01 per ridurre al minimo il rischio di concludere erroneamente che il farmaco è efficace quando in realtà non lo è. 

Al contrario, in altri campi come la psicologia o le scienze sociali, dove gli impatti di una conclusione errata sono meno critici, il livello di significatività di α=0,05 è generalmente considerato accettabile.

È importante ricordare che il livello di significatività non dice nulla sulla probabilità che l’ipotesi nulla sia vera o falsa, ma rappresenta soltanto il rischio di trarre una conclusione errata. 

Un’interpretazione comune errata è pensare che un valore inferiore a 0,05 significhi che l’ipotesi nulla è “falsa” o che l’ipotesi alternativa sia “vera”.

In realtà il livello di significatività riflette solo la probabilità che i risultati siano stati ottenuti per caso.

Le distribuzioni non normali sono quelle distribuzioni di probabilità che non seguono la forma classica a campana, tipica della distribuzione normale o gaussiana. 

Ricapitolo per chi non avesse letto l’altro mio articoletto in merito: la distribuzione normale è quella in cui i dati si concentrano attorno alla media, e man mano che ci si allontana, i valori diventano meno frequenti. 

Una nozione tecnica da aggiungere al nostro bagaglio di aspiranti esperti di finanza e/o statistica è che esistono molte altre distribuzioni che si comportano diversamente e vengono usate per descrivere situazioni in cui i dati non seguono questo schema.

Scopriamo la distribuzione uniforme

Ad esempio, la distribuzione uniforme è una di quelle non normali. Qui tutti i risultati possibili hanno la stessa probabilità di verificarsi. Immagina di lanciare un dado: ogni numero da 1 a 6 ha esattamente la stessa probabilità di uscire. 

Non c’è un valore più probabile rispetto agli altri, quindi i dati non si concentrano in un punto centrale, ma sono distribuiti in modo “piatto”, senza picchi.

Distribuzione esponenziale

Poi c’è la distribuzione esponenziale, che è molto utile per calcolare il tempo di attesa a uno sportello. Questa distribuzione è asimmetrica: i valori bassi sono più frequenti e c’è una lunga coda a destra.

Piccola parentesi: quando si parla di una “coda lunga verso destra” in statistica, ci si riferisce alla forma di una distribuzione asimmetrica in cui i valori estremi (molto grandi) sono meno frequenti, ma si estendono oltre il valore centrale. 

In una distribuzione di questo tipo, la maggior parte dei dati si trova concentrata verso sinistra, vicino a valori più piccoli o alla media, mentre pochi valori molto più grandi si allontanano e formano la “coda” a destra.

 

Tornando alla distribuzione esponenziale e all’esempio del tempo d’attesa: spesso capita che il tempo di attesa sia breve, ma ogni tanto c’è qualcuno che aspetta molto più a lungo.

Poisson

La distribuzione di Poisson è un’altra distribuzione non normale. Si usa per contare quante volte accade un certo evento in un periodo di tempo fisso, come il numero di telefonate ricevute in un’ora o gli incidenti stradali in un giorno. Questa distribuzione è utile quando gli eventi sono relativamente rari, e anche qui i dati sono asimmetrici, con una coda verso destra.

Binomiale

Com’è la distribuzione dei risultati del lancio di una moneta? 

Per rispondere bisogna scomodare la distribuzione binomiale. La distribuzione binomiale dice come si distribuiscono testa e croce in 10 lanci di moneta, ad esempio. Anche se per molti lanci la distribuzione può sembrare simmetrica, non è perfettamente normale.

Chi quadrato

Un altro esempio interessante è la distribuzione chi quadrato, spesso usata per testare ipotesi in statistica. È una distribuzione molto usata quando si vuole verificare se c’è una differenza significativa tra i dati osservati e quelli attesi in un certo esperimento – ma magari ne parlerò meglio in un prossimo articoletto.

Log normale: ottima per le azioni!

La distribuzione log-normale, invece, si usa quando i dati possono assumere solo valori positivi. Un esempio comune è il prezzo delle azioni, che non può scendere sotto zero. Questa distribuzione è molto asimmetrica, con una coda lunga a destra, il che significa che ogni tanto ci sono valori molto più grandi rispetto alla media.

Pareto

Un’altra distribuzione molto conosciuta è la distribuzione di Pareto, famosa per descrivere situazioni come la distribuzione della ricchezza: una piccola parte della popolazione possiede la maggior parte delle risorse. Anche qui i dati si concentrano sui valori più piccoli, con una lunga coda verso destra.

Altre

Ovviamente non ho potuto mappare tutto, anche perché non sono uno statista e non vorrei entrare troppo nel dettaglio, rischiando di fare consistenti scivoloni.

Accenno solo in conclusione al fatto che ci sono distribuzioni come la t di Student e la distribuzione di Cauchy, che differiscono dalla normale per via delle loro “code più pesanti”. La distribuzione t di Student, ad esempio, è simile alla normale, ma viene usata quando il campione di dati è piccolo, perché prevede un maggior numero di valori estremi rispetto alla normale.

In generale, tutte queste distribuzioni non seguono il tipico schema della distribuzione normale, e ciascuna è utile in contesti specifici. La distribuzione normale è un buon modello quando i dati si concentrano attorno alla media, ma ci sono molti fenomeni reali che richiedono altri tipi di distribuzione per essere descritti accuratamente.



La deviazione standard è un concetto statistico che misura quanto i dati di un insieme sono distribuiti rispetto alla media. 

In altre parole, indica quanto i valori di un gruppo di dati si discostano in media dal valore centrale, cioè dalla media stessa.

Esempio pratico di deviazione standard

Supponiamo che tu stia analizzando le altezze di un gruppo di persone. 

La media delle altezze rappresenta il valore “centrale” del gruppo, cioè l’altezza media di tutte le persone. 

Ma, ovviamente, non tutti avranno esattamente quell’altezza. 

Alcune persone saranno più alte, altre più basse. 

La deviazione standard dice quanto ogni persona si allontana in media dall’altezza media (scusate il bisticcio).

Se la deviazione standard è piccola, significa che la maggior parte delle persone ha un’altezza vicina alla media: in altre parole, c’è poca variazione tra le altezze, e quasi tutti hanno più o meno la stessa altezza. Al contrario, se la deviazione standard è grande, significa che c’è molta variazione nelle altezze: alcune persone sono molto più alte della media, altre molto più basse, e i dati sono quindi più “sparpagliati”.

Un altro modo semplice di pensarlo è immaginare un gruppo di studenti che fanno un test. Se tutti gli studenti ottengono punteggi molto vicini alla media del gruppo, la deviazione standard sarà bassa, perché non c’è molta differenza tra i punteggi. Se invece alcuni studenti ottengono voti molto alti e altri molto bassi, allora la deviazione standard sarà alta, indicando che c’è molta variabilità tra i punteggi.

La deviazione standard è utile perché, oltre a dirci quale sia il valore medio (la media), ci fornisce un’indicazione di quanto variazione c’è nei dati. Senza di essa, sapere solo la media di un insieme di dati può essere fuorviante. Ad esempio, se diciamo che la temperatura media in due città è di 20°C, senza sapere la deviazione standard non possiamo capire se le temperature in quelle città sono relativamente costanti o se variano molto nel corso della giornata (ad esempio da 10°C a 30°C). Una deviazione standard più alta ci indicherebbe che in una delle città le temperature fluttuano molto di più rispetto all’altra.

A cosa ci serve la deviazione standard?

In sintesi: la deviazione standard ci lascia conoscere il valore centrale dei dati. In più, ci fa anche capire quanto quei dati siano variabili rispetto alla media.

Bene, questo mese l’ho ufficialmente dedicato alla finanza.

Mi scuso con quelli di voi che non masticano molto l’argomento, e magari sarebbero stati benone anche senza masticarlo.

Tuttavia ne sono convinto: la finanza è per il patrimonio personale un puntello, un inevitabile moltiplicatore. Così come la statistica lo è per la politica e in generale per la conoscenza del mondo!

Quindi, non me ne vogliate, ma oggi finisco di parlare del concetto di multicollinearità.

Che cos’è la multicollinearità

La multicollinearità è una situazione che si verifica nell’analisi di regressione quando due o più variabili indipendenti (predittori) sono altamente correlate tra loro. In altre parole, la multicollinearità si manifesta quando una variabile indipendente può essere predetta in modo lineare da un’altra variabile indipendente con un alto grado di accuratezza. Questo fenomeno può creare problemi nell’interpretazione dei risultati di un modello di regressione.

La multicollinearità può causare diversi problemi nell’analisi di regressione.

Ad esempio, quando c’è multicollinearità i coefficienti stimati della regressione possono diventare molto sensibili a piccoli cambiamenti nei dati. Ciò significa che aggiungendo o rimuovendo un’osservazione dal dataset, i coefficienti potrebbero cambiare in modo significativo, rendendo il modello instabile e poco affidabile.

In presenza di multicollinearità diventa difficile interpretare i coefficienti di regressione perché non è chiaro quale variabile indipendente stia effettivamente influenzando la variabile dipendente. Ad esempio, se stiamo cercando di capire l’effetto dell’età e dei chilometri percorsi sul valore di un’auto, e queste due variabili sono altamente correlate (perché un’auto più vecchia ha probabilmente percorso più chilometri), diventa difficile isolare l’effetto di ciascuna variabile.

Aumento della varianza dei coefficienti

La multicollinearità aumenta la varianza delle stime dei coefficienti di regressione, rendendo più difficile la determinazione dell’effettiva significatività dei predittori. Ciò può portare a risultati in cui le variabili appaiono non significative quando, in realtà, potrebbero avere un effetto significativo.

È stato troppo tecnico?
Spero vivamente di no!

Vorrei ricollegarmi, approfittando di questa pausa agostana, a quando ho abbozzato la scorsa settimana sulla regressione lineare.

Ora che ho cercato di dare una piccola definizione, è il momento di fare qualche esempio pratico d’utilizzo. 

Previsione delle vendite in base alla spesa per lo stipendio dei venditori

Immaginiamo un’azienda che vuole capire come la spesa per il comparto vendite influisce sulle vendite mensili. In questo caso, la variabile dipendente (Y) è rappresentata dalle vendite, mentre la variabile indipendente (X) è la spesa. Se esiste una relazione lineare tra la spesa in comparto vendite e le vendite (ad esempio, ogni 1.000 euro spesi si traducono in un aumento di 10.000 euro nelle vendite), la regressione lineare può essere uno strumento molto utile per fare previsioni future e ottimizzare il budget per questo reparto.

Analisi della relazione tra l’età e il reddito

Un ricercatore potrebbe essere interessato a studiare la relazione tra l’età delle persone e il loro reddito annuale. Utilizzando un dataset che raccoglie informazioni sull’età e sul reddito di un campione di individui, si può utilizzare la regressione lineare per vedere se c’è una tendenza lineare (ad esempio, il reddito aumenta con l’aumentare dell’età fino a un certo punto, per poi stabilizzarsi o diminuire).

Stima della pressione sanguigna in base all’età e al peso

Un medico può utilizzare la regressione lineare per stimare la pressione sanguigna in base all’età e al peso del paziente. In questo caso, la pressione sanguigna è la variabile dipendente, mentre l’età e il peso sono variabili indipendenti. Se c’è una relazione lineare tra queste variabili, la regressione lineare multivariata (che considera più di una variabile indipendente) può essere utilizzata per costruire un modello predittivo.

Esempi di inefficacia della regressione lineare

Supponiamo di voler prevedere il prezzo di una casa in base alla sua dimensione. In molti mercati immobiliari, esiste una relazione non lineare tra il prezzo di una casa e la sua dimensione (ad esempio, il prezzo potrebbe aumentare rapidamente con l’aumentare della dimensione fino a un certo punto, per poi aumentare più lentamente o addirittura stabilizzarsi). In questo caso, la regressione lineare semplice non sarebbe adatta perché non cattura adeguatamente la natura non lineare della relazione. Potrebbero essere più appropriati modelli di regressione polinomiale o altri metodi di machine learning.

Oppure, immaginiamo di voler utilizzare la regressione lineare per prevedere il numero di ore di studio necessarie per ottenere un certo punteggio su un test. Se nel dataset ci sono alcuni studenti che hanno studiato un numero eccezionalmente elevato di ore ma hanno ottenuto punteggi bassi (o viceversa), questi outlier potrebbero influenzare significativamente la linea di regressione, rendendo il modello meno accurato. In tali casi, la regressione lineare potrebbe non essere la scelta migliore a meno che non si trattino adeguatamente gli outlier o si utilizzi una variante robusta della regressione.

Oppure, la regressione lineare non funziona in scenari in cui le relazioni tra variabili sono molto complesse. 

Ad esempio, in un modello che cerca di prevedere la felicità di una persona in base a fattori come reddito, stato civile, salute, ecc., le interazioni tra queste variabili possono essere complesse e non lineari. In questi casi entrano in campo dei modelli più sofisticati come le reti neurali, le macchine a supporto vettoriale (SVM) o i modelli ad albero decisionale.

La presenza di multicollinearità

Parlerò in un prossimo post di multicollinearità, qui mi limito a dire che il fenomeno si verifica quando le variabili indipendenti risultano correlate tra loro. 

Ad esempio, se stiamo cercando di prevedere il prezzo di un’auto in base all’età dell’auto e al numero di chilometri percorsi, queste due variabili indipendenti potrebbero essere fortemente correlate (più un’auto è vecchia, più chilometri ha percorso). La presenza di multicollinearità può causare problemi nella stima dei coefficienti di regressione e rendere il modello instabile. In questi casi, tecniche come la regressione ridge o l’eliminazione di una delle variabili correlate possono essere necessarie.

Per chi si sta avvicinando al mondo complesso dell’analisi finanziaria, è il momento di mettere un punto: vediamo insieme cosa intendiamo quando parliamo di regressione lineare e perché è importantissimo conoscere e saper applicare questo concetto.

Cosa significa analisi di regressione lineare

L’analisi di regressione lineare è una tecnica statistica utilizzata per modellare e analizzare la relazione tra una variabile dipendente e una o più variabili indipendenti. Questa tecnica è ampiamente utilizzata in vari campi, tra cui economia, scienze sociali, biologia, ingegneria e molti altri, per comprendere e prevedere i comportamenti dei dati.

La regressione lineare si basa sull’idea che esiste una relazione lineare tra le variabili. In altre parole, si assume che il cambiamento in una variabile dipendente (anche chiamata variabile risposta o variabile target) possa essere spiegato da cambiamenti in una o più variabili indipendenti (anche chiamate variabili predittore). La forma più semplice di regressione lineare è quella lineare semplice, che coinvolge solo due variabili: una dipendente e una indipendente. L’obiettivo principale dell’analisi di regressione lineare è identificare la migliore linea retta (o iperpiano, nel caso di più variabili indipendenti) che minimizza la somma dei quadrati delle differenze tra i valori osservati e i valori predetti dalla linea. Questa tecnica è nota come il metodo dei minimi quadrati ordinari (OLS – Ordinary Least Squares). Il risultato finale è un modello che può essere utilizzato per prevedere i valori futuri di Y sulla base di nuovi valori di X.

Gli statisti spesso esaminano anche i valori p dei coefficienti di regressione per determinare se le relazioni osservate tra le variabili sono statisticamente significative. Un valore p inferiore a un livello di significatività (spesso 0,05) indica che esiste una bassa probabilità che la relazione osservata sia dovuta al caso.

I limiti della regressione lineare

Sebbene la regressione lineare sia una tecnica potente, ha anche i suoi limiti. Una delle principali assunzioni della regressione lineare è che esista una relazione lineare tra le variabili. Se la relazione è non lineare, il modello di regressione lineare potrebbe non essere adeguato. Inoltre, la regressione lineare può essere influenzata da valori anomali (outlier) e multicollinearità (quando le variabili indipendenti sono altamente correlate tra loro).

Lo spiegherò meglio in un articolo successivo.