Indice Show
Sei alla ricerca di una soluzione efficiente per performare la tua prima regressione lineare. I libri di statistica che spiegano questo diffusissimo strumento confondono un po’ le idee. Ed eccoti qui a cercare di capire. Bene, in questo articolo proverò a fare un po’ di chiarezza su cos’è la regressione lineare.
Regressione lineare: una definizione che arriva dalla matematica.
Il primo approccio con una regressione lineare avviene al momento dello studio della statistica. In particolare, i vari testi affermano più o meno una roba del genere: “la regressione è un modello statistico che consente di prevedere i valori di una variabile numerica a partire da uno o più variabili”. Ok, sono d’accordo con te: adesso che abbiamo letto la definizione più o meno ufficiale ne sappiamo meno di prima!
Proviamo a fare un passo indietro nella tua storia scolastica e a parlare di equazioni, molto semplici, ci fermiamo al primo grado. Ricordi quella equazione di primo grado che andava sotto il nome di equazione della retta? Quella che ti permetteva di sapere come tracciare una retta nel piano cartesiano? Se ricordi, il gioco era molto semplice: l’insegnante ti dava i valori di due punti, P(x1;y1) e Q (x2;y2), in cui x e y erano variabili numeriche, e tu con riga e matita trovavi le coordinate dei due punti P e Q e tracciavi la retta unendo i punti. Oppure, conoscevi un punto P(x;y), il coefficiente angolare della retta (m) e l’ordinata all’origine (q) e cercavi di capire come funziona un’equazione fatta così:
y = mx + q
Con la regressione lineare stiamo esattamente parlando di una retta! E la sua equazione è proprio quella della retta! Solo che per rendere il gioco statistico più entusiasmante, conosciamo tante x (sono le osservazioni della variabile indipendente riferite ad esempio a tanti soggetti) e tanti valori di y (sono le osservazioni della variabile dipendente riferite sempre a tanti soggetti).
Sono sicura che ti starai chiedendo: “Ok, ed allora cosa devo fare?”. Semplice! Con la regressione lineare stai cercando di calcolare il valore di m e di q, al variare dei valori di x ed y.
Errore statistico…. Chi è costui?
Fin qui è tutto molto semplice! I software statistici sono eccellenti nel calcolare m e q, coefficiente angolare ed ordinata all’origine. Ma la vita degli statistici è un po’ più difficile. Non viviamo in un mondo perfetto o immobile. Al contrario, viviamo in un mondo imperfetto, affetto da errori (e non solo quelli della vita!) e dalla variabilità. Dunque ogni volta che calcoliamo una relazione tra due variabili x ed y, dobbiamo tenere conto che la sola equazione della retta (y = mx+q) non basta. Essa deve tenere conto di un termine, chiamato appunto termine di errore, che fornisce tante informazioni sulla nostra regressione. Dunque l’equazione della retta di regressione è del tipo:
y = mx + q + e
Ma manca ancora qualcosa: questi statistici non sono mai contenti! Prima ho detto che la regressione riguarda più osservazioni. Dunque, nella formula della regressione dobbiamo tenere conto di queste osservazioni e scriverle in modo che ognuno capisca che non stiamo parlando di un solo soggetto, ma ci riferiamo a più soggetti (il famoso campione!). Per fare ciò usiamo i pedici (quei minuscoli indici che a volte fanno diventare matti). Per fortuna in questa regressione lineare di cui parliamo adesso, ne utilizziamo solo uno!
La formula diventa pertanto:
yi = mxi + q + ei
Capiamo meglio la formula della regressione lineare
A questo punto capiamo la formula appena scritta:
yi = mxi + q + ei
- yi è la variabile dipendente, che qualcuno definisce anche variabile risposta
- xi è la variabile indipendente, che viene anche chiamata variabile esplicativa o regressore
- m è il coefficiente angolare, vale a dire la pendenza della retta di regressione
- q è l’ordinata all’origine, chiamata anche intercetta del modello.
Poiché i matematici e gli statistici non sono mai contenti della simbologia, questa bellissima e semplice formula viene scritta usando due lettere greche (beta e epsilon). Per cui la formula diventa così:
yi = β1 xi + β0 + εi
in cui m è stato sostituito da β1, q da β0 ed ei da εi.
Come si legge una retta di regressione?
A questo punto, manca un ultimo tassello: se xi ed yi sono conosciuti (perché sono i valori del tuo dataset che hai raccolto con tanta fatica) come leggere il coefficiente β1, l’intercetta β0 e l’errore εi?
Molto semplice. Il coefficiente β1 è quello che spiega che tipo di relazione passa tra x ed y. Vale a dire ti dice se la relazione tra le due variabili è positiva (segno più) o negativa (segno meno). Se inoltre il coefficiente è caratterizzato da un p-value (eh, sempre lui!!!) al di sotto dello 0.05, hai anche significatività statistica. In altri termini questa relazione ha un senso statistico!
Il coefficiente β0 di per sé serve a poco in termini statistici, perché di fatto ti dice dove la retta di regressione incontra l’asse delle ordinate (per intenderci l’asse verticale). Ed inoltre dire che il rapporto tra la tua variabile indipendente e la variabile dipendente è uguale ad una costante… beh, non diciamo spropositi statistici!
E l’errore εi? Qui la vita dello statistico alle prime armi si fa dura. Dagli errori della regressione dipendono tanti elementi: sono gli errori che ti dicono se la tua regressione è valida per i tuoi dati. Ti dicono se lo strumento che stai utilizzando lavora bene. Se quelle famose “assunzioni” della regressione OLS sono rispettate o meno. Insomma: sarà l’errore e come è fatto a dirti se il tuo studio è ok, oppure se il tuo software statistico ti ha solo fornito degli ottimi numeri … da giocare al lotto!
Conclusione
Questo che hai appena letto non è assolutamente esaustivo dell’argomento regressione lineare. Greene e Wooldridge, giusto per citare due soggetti che di statistica ne sanno molto, dedicano interi capitoli alla regressione e c’è tanto da dire. Dopo la lettura di questo articolo, mi auguro che tu adesso sappia affermare con sicurezza cos’è una regressione e perché si chiama retta di regressione. Ciao, ciao!