La regressione lineare è la forma più semplice di regressione. E’ quella maggiormente nota e serve per comprendere la relazione tra una o più variabili indipendenti ed una variabile dipendente continua. A seconda del numero di variabili, essa si distingue in regressione lineare semplice (una sola variabile indipendente) e in regressione lineare multipla (più variabili indipendenti).
Il caso più semplice è quello della regressione lineare semplice con una variabile indipendente continua. Quando la regressione è valida, essa serve per indicare che al variare della x (variabile indipendente) si osserva una variazione (diretta o inversa) della y (variabile indipendente). Lo stimatore più noto di regressione è l’OLS (Ordinary Least Squares), il quale assume che la relazione tra x e y è lineare, cioè può essere rappresentata su un piano cartesiano con una retta. Il modello di regressione OLS è dunque il seguente:
y = a + bx
in cui y è la variabile dipendente, x la variabile indipendente, b il coefficiente angolare (oltre che il coefficiente della x) ed a è l’intercetta della retta di regressione (anche conosciuta come ordinata all’origine). (Per altri approfondimenti sulla retta di regressione, clicca qui).
Quando vi sono più variabili indipendenti, il modello di regressione prende il nome di regressione multipla. L’obiettivo è sempre quello della regressione lineare semplice, ossia minimizzare la distanza nello spazio così da tracciare più rette (non più nel piano ma nello spazio) in grado di spiegare la relazione osservata. Il risultato sul piano cartesiano è un’esplosione di rette, tipo fuochi di artificio nel cielo (Per approfondimenti sulla regressioni multipla, clicca qui).
Assunzioni della regressione lineare
Affinché una regressione abbia senso è necessario che siano rispettate certe assunzioni:
- linearità: la relazione tra variabile indipendente e dipendente deve essere lineare, ossia spiegabile attraverso una retta;
- normalità dei residui: le distanze tra le osservazioni reali ed i punti identificati dalla retta di regressione sono chiamati residui; questi residui devono distribuirsi normalmente con media 0;
- omoschedasticità ed indipendenza dei residui: i residui non solo si devono distribuire normalmente, ma devono avere uguale varianza (omoschedasticità) e non essere in relazione con le variabili indipendenti.