Regressione lineare multipla

Da cosa nasce il modello di regressione lineare multipla? Quali sono le problematiche da tenere presenti quando si usa una regressione lineare con regressori multipli? Perché si parla di metodo dei minimi quadrati o OLS?

Per poter rispondere a queste domande, partiamo da una considerazione preliminare. Sappiamo che la vita di ogni giorno non è esattamente una combinazione lineare tra cause ed effetti. All’interno di ogni fenomeno, vi sono dei fattori, (a volte noti, a volte sconosciuti) che fanno sì che un determinato evento avvenga o non avvenga.

In statistica, la relazione diretta (intendendo con il termine “diretta” la relazione lineare) tra le variabili viene spesso spiegata usando lo strumento della regressione lineare.

Dalla regressione lineare semplice a quella multipla

In generale, quando si cerca la causa di un determinato fenomeno, si immagina che ci sia un solo elemento che ha dato origine a quell’evento. Dunque si suppone che vi sia una relazione lineare tra una variabile x ed una variabile y. Questa relazione in statistica prende il nome di regressione lineare semplice.

Accade però che non sempre, anzi possiamo dire nella maggior parte dei casi, il verificarsi di un evento sia dovuto ad una sola causa, ma che vi sono  più cause, tutte ugualmente valide, a far sì che quel determinato evento accada.

In questi casi utilizzare la regressione lineare semplice è riduttivo, in quanto per spiegare la variabile y utilizziamo una sola informazione x, perdendo l’apporto di tutte le altre. Questo in statistica si traduce nella famosa “distorsione da variabili omesse“. Si tratta in sostanza di un problema di mancanza di uso delle informazioni (vale a dire di quelle variabili x) che se rilevate, possono aiutarci a spiegare la variabilità della y.

Lo strumento che consente di eliminare le “distorsioni da variabili omesse” prende il nome di regressione lineare multipla o regressione lineare con regressori multipli.

Regressione lineare multipla: incorporare più regressori in un unico modello

Definizione di regressione lineare multipla

L’idea principale della regressione lineare multipla è quella di colmare la mancanza di informazioni che determina una distorsione nella corretta identificazione della variabile y. In altri termini, la regressione con più regressori consente, ovviamente se i dati sono disponibili, di misurare l’effetto di una specifica variabile xi sulla variabile y, tenendo costanti le altre variabili indipendenti.

Formalmente il modello di regressione lineare multipla include più regressori xi ed associa a ciascun regressore un coefficiente βi. Il coefficiente β1 ad esempio, rappresenta la variazione attesa della variabile dipendente y associata ad una variazione unitaria di x1, tenendo costanti gli altri regressori. Tutti i regressori si interpretano in questo modo.

Stimatore della regressione lineare multipla e assunzioni del modello

I coefficienti del modello di regressione lineare multipla possono essere stimati tramite lo stimatore classico OLS (ordinary least squares), anche noto come “stimatore dei minimi quadrati ordinari“. L’ordinary least squares è un metodo molto efficace per stimare l’intercetta e la pendenza della retta di regressione. Questo stimatore infatti determina i coefficienti beta scegliendo quelli che minimizzano la somma dei quadrati degli errori.

Assunzioni dello stimatore Ordinary Least Squares

Affinchè gli stimatori OLS siano attendibili (cioè non distorti) è necessario che essi rispettino quattro assunzioni:

  • la media condizionata degli errori è pari a zero;
  • le variabili sono casuali indipendentemente ed identicamente distribuite (i.i.d.);
  • gli outlier sono improbabili;
  • non c’è collinearità perfetta tra i regressori.

Conclusione

Come abbiamo visto la regressione lineare multipla è un ottimo modello statistico per comprendere come e in che misura più variabili determinano la variabilità della y. Va usato con molta attenzione: omettere il controllo delle assunzioni dello stimatore OLS può dare origine a risultati distorti. E, ci tengo ad aggiungere, distorsioni facilmente individuabili da esperti statistici. Questo lo dico special modo a coloro che stanno effettuano la loro prima regressione lineare multipla. Molto spesso vengono “bocciati” lavori statistici per tesi o per pubblicazioni, perchè chi controlla la correttezza dei risultati si rende conto che le conclusioni numeriche sono ottenute violando le assunzioni dell’OLS.

Bene, con questo consiglio finale di stare attento, ti ringrazio per aver letto il mio articolo e ti ricordo che per qualsiasi necessità, anche sulla regressione lineare multipla, sono sempre a disposizione. Buona regressione!


Previous Article

Come risolvere una disequazione frazionaria

Next Article

Statistica per la ricerca clinica

Related Posts