I vantaggi e i limiti della regressione lineare: capiamo quando usarla!

Vorrei ricollegarmi, approfittando di questa pausa agostana, a quando ho abbozzato la scorsa settimana sulla regressione lineare.

Ora che ho cercato di dare una piccola definizione, è il momento di fare qualche esempio pratico d’utilizzo.

Previsione delle vendite in base alla spesa per lo stipendio dei venditori

Immaginiamo un’azienda che vuole capire come la spesa per il comparto vendite influisce sulle vendite mensili. In questo caso, la variabile dipendente (Y) è rappresentata dalle vendite, mentre la variabile indipendente (X) è la spesa. Se esiste una relazione lineare tra la spesa in comparto vendite e le vendite (ad esempio, ogni 1.000 euro spesi si traducono in un aumento di 10.000 euro nelle vendite), la regressione lineare può essere uno strumento molto utile per fare previsioni future e ottimizzare il budget per questo reparto.

Analisi della relazione tra l’età e il reddito

Un ricercatore potrebbe essere interessato a studiare la relazione tra l’età delle persone e il loro reddito annuale. Utilizzando un dataset che raccoglie informazioni sull’età e sul reddito di un campione di individui, si può utilizzare la regressione lineare per vedere se c’è una tendenza lineare (ad esempio, il reddito aumenta con l’aumentare dell’età fino a un certo punto, per poi stabilizzarsi o diminuire).

Stima della pressione sanguigna in base all’età e al peso

Un medico può utilizzare la regressione lineare per stimare la pressione sanguigna in base all’età e al peso del paziente. In questo caso, la pressione sanguigna è la variabile dipendente, mentre l’età e il peso sono variabili indipendenti. Se c’è una relazione lineare tra queste variabili, la regressione lineare multivariata (che considera più di una variabile indipendente) può essere utilizzata per costruire un modello predittivo.

Esempi di inefficacia della regressione lineare

Supponiamo di voler prevedere il prezzo di una casa in base alla sua dimensione. In molti mercati immobiliari, esiste una relazione non lineare tra il prezzo di una casa e la sua dimensione (ad esempio, il prezzo potrebbe aumentare rapidamente con l’aumentare della dimensione fino a un certo punto, per poi aumentare più lentamente o addirittura stabilizzarsi). In questo caso, la regressione lineare semplice non sarebbe adatta perché non cattura adeguatamente la natura non lineare della relazione. Potrebbero essere più appropriati modelli di regressione polinomiale o altri metodi di machine learning.

Oppure, immaginiamo di voler utilizzare la regressione lineare per prevedere il numero di ore di studio necessarie per ottenere un certo punteggio su un test. Se nel dataset ci sono alcuni studenti che hanno studiato un numero eccezionalmente elevato di ore ma hanno ottenuto punteggi bassi (o viceversa), questi outlier potrebbero influenzare significativamente la linea di regressione, rendendo il modello meno accurato. In tali casi, la regressione lineare potrebbe non essere la scelta migliore a meno che non si trattino adeguatamente gli outlier o si utilizzi una variante robusta della regressione.

Oppure, la regressione lineare non funziona in scenari in cui le relazioni tra variabili sono molto complesse.

Ad esempio, in un modello che cerca di prevedere la felicità di una persona in base a fattori come reddito, stato civile, salute, ecc., le interazioni tra queste variabili possono essere complesse e non lineari. In questi casi entrano in campo dei modelli più sofisticati come le reti neurali, le macchine a supporto vettoriale (SVM) o i modelli ad albero decisionale.

La presenza di multicollinearità

Parlerò in un prossimo post di multicollinearità, qui mi limito a dire che il fenomeno si verifica quando le variabili indipendenti risultano correlate tra loro.

Ad esempio, se stiamo cercando di prevedere il prezzo di un’auto in base all’età dell’auto e al numero di chilometri percorsi, queste due variabili indipendenti potrebbero essere fortemente correlate (più un’auto è vecchia, più chilometri ha percorso). La presenza di multicollinearità può causare problemi nella stima dei coefficienti di regressione e rendere il modello instabile. In questi casi, tecniche come la regressione ridge o l’eliminazione di una delle variabili correlate possono essere necessarie.