Indice Show
La regressione logistica è uno degli strumenti statistici più noti nell’ambito della ricerca medica. E’ una tecnica statistica molto importante. La sua validità non è stata scalfita nel corso del tempo benché sia uno strumento il cui sviluppo risale agli anni ’40 del secolo scorso.
Cos’è la regressione logistica
Scopo della regressione logistica è determinare la probabilità del verificarsi di un evento, dati determinati fattori di rischio. Se pensiamo all’ambito medico, la regressione logistica consente di rispondere a molte domande dei clinici, quali ad esempio la presenza di complicazioni, malattie o eventi avversi, data la presenza/assenza di alcuni fattori di rischio ritenuti clinicamente rilevanti (si pensi ad esempio a fattori quali obesità, età, fumo, ipertensione, diabete, disturbi cardiovascolari, …).
In termini pratici, la regressione logistica è la sorella della regressione lineare. Sfruttando infatti molti dei principi della regressione lineare, la logistica è in grado di fornire informazioni accurate sulla probabilità del verificarsi degli eventi.
Per poter implementare una regressione logistica è necessario identificare una variabile dipendente – outcome – ed una o più variabili indipendenti, i cosiddetti regressori o fattori esogeni.
Regressione logistica e regressione multinominale
La forma più nota di regressione logistica è quella che prevede l’uso – quale variabile dipendente – di una variabile binaria (del tipo sì/no) e come variabili indipendenti, una o più variabili, siano esse continue o categoriali.
Consiglio da biostatistico
Molti software statistici hanno bisogno di una variabile binaria del tipo 0 e 1, in cui 0 indica il non verificarsi dell’evento ed 1 invece il verificarsi dell’evento.
Ti consiglio di utilizzare questo tipo di codifica quando lavori con variabili binarie, attribuendo valore 0 al non-evento (incluse le risposte “no”) ed il valore 1 all’evento (e.g. risposte “sì”). Lavorerai sul tuo dataset in modo molto più corretto e più veloce!
Esiste una forma più complessa di regressione logistica, la cosiddetta multinomiale o ordinale, la quale consente di calcolare la probabilità del verificarsi di un determinato outcome nei casi in cui la variabile dipendente è composta da tre o più outcome.
Applicazioni letteratura
In uno studio caso-controllo (Inner & Byers, 2004) è stata studiata mediante regressione logistica la relazione tra i fattori che caratterizzano la prima gravidanza di una donna e il successivo rischio di cancro al seno ad esordio precoce. Per far ciò, gli autori hanno considerato fattori di rischio pre- e peri-natali idonei a influenzare i livelli ormonali materni-fetali ed il rischio di cancro al seno, includendo peso alla nascita, età gestazione, parto multiplo, sesso lattante e distacco della placenta. Inoltre hanno inserito come potenziali fattori confondenti, l’etnia, lo stato civile ed il livello di istruzione. Infine hanno aggiustato tutte le analisi per età materna al primo parto.
Dopo applicazione di una serie di regressioni logistiche multivariate aggiustate per età materna e stratificate per età materna alla prima nascita e intervallo dal completamento dell’ultima gravidanza, gli autori hanno dimostrano che il tempo di gestazione inferiore alle 32 settimane, il distacco della placenta e la gestazione multifetale sono associati con un elevato rischio di cancro al seno. La preeclampsia è invece associata ad una marcata riduzione del rischio di cancro al seno tra le donne che hanno partorito il loro primo figlio dopo i 30 anni e nei primi 3 anni dopo il precedente parto.
Assunzioni preliminari per la regressione logistica
La regressione logistica necessita al pari della regressione lineare, inclusa quella multivariata, del rispetto di determinate assunzioni preliminari. Il rispetto di tali assunzioni è fondamentale per essere sicuri che i risultati della regressione non siano affetti da bias.
Per poter agevolare la memorizzazione delle quattro assunzioni preliminari, ecco a te un breve elenco:
- Linearità tra la funzione logit dell’outcome e ognuna delle variabili indipendenti continue
- Assenza di outliers che influenzino in modo considerevole i dati
- Mancanza di multicollinearità (mancanza di correlazione tra le variabili indipendenti)
- Indipendenza delle osservazioni
- Campione sufficiente ampio per evitare l’overfitting
Come interpretare la regressione logistica
I risultati della regressione logistica sono espressi come odds ratio (OR). L’OR rappresenta la probabilità che un evento si verifichi data una specifica esposizione. Sebbene l’OR non sia particolarmente amato dai neofiti della regressione logistica, esso è tuttavia fondamentale per poter quantificare la probabilità.
Come si legge l’odds ratio?
Sebbene il nome “odds ratio” incuta un pò di timore, la sua lettura diventa agevole se tieni conto di qualche semplice regola.
Per poter leggere il valore di OR, devi tenere sempre a mente il numero 1. Infatti il valore di OR = 1 significa che non c’è relazione. In altri termini, un OR = 1 significa che il rischio che un evento si verifichi non dipende dallo specifico fattore di rischio. Tenendo dunque a mente il ruolo di OR = 1, abbiamo che:
- Se OR > 1, allora il rischio che un determinato evento accada è più alto nei soggetti esposti.
- Se OR < 1, allora il rischio che l’evento accada è più basso tra gli individui esposti.
Anche gli odds ratio necessitano di valutazione della significatività. P-value ed intervalli di confidenza sono compagni necessari per valutare la significatività dell’associazione.
Sguardo ai risultati della letteratura1
Ritornando dunque al nostro esempio di letteratura, gli autori hanno trovato che un parto prematuro, dunque terminato prima delle 32 settimane di gestazione aumenti il rischio di cancro al seno (OR = 2.1 – 95%CI: 1.2-3.9). Aumento del rischio di cancro al seno si ha anche in caso di distacco di placenta e di gestazione multifetale. In entrambi i casi il valore di odds ratio è 1.8 (95%CI: 1.1-3.0).
Questo significa che nelle donne che partoriscono prematuramente il rischio di cancro al seno è 2.1 volte maggiore che nelle donne che partoriscono nel termine correttamente previsto. Nelle donne che hanno ad esempio distacco della placenta il rischio è 1.8 volte maggiore.
Al contrario la preeclampsia determina un minor rischio di cancro al seno (rispettivamente OR = 0.3, 95%CI: 0.2-0.7 e OR = 0.2, 95%CI: 0.1-0.9) in donne che hanno partorito il loro primo figlio dopo i 30 anni ed entro i primi 3 anni dopo l’ultimo parto.
Il risultato indica che nelle donne che hanno il loro primo figlio dopo i 30 anni e preeclampsia, il rischio di cancro al seno è 0.3 volte minore che nel caso di donne che partoriscono sempre dopo i 30 anni, ma nelle quali non si verfica preeclampsia.
Conclusione
La regressione logistica è un potentissimo strumento di previsione. Essa deve essere utilizzata per predire la probabilità che un evento accada date una o più variabili indipendenti.
La corretta scelta delle variabili indipendenti è cruciale per ottenere risultati clinicamente rilevanti. La scelta di quali e quante variabili includere è prima di tutto una scelta clinica. La collaborazione tra clinico e biostatistico è fondamentale. Essa serve infatti per identificare e definire le variabili rilevanti, la quantità di variabili da includere e la numerosità campionaria affinché il modello sia correttamente stimato.
References
- Innes KE, Byers TE. First pregnancy characteristics and subsequent breast cancer risk among young women. Int J Cancer. 2004 Nov 1;112(2):306-11. doi: 10.1002/ijc.20402. PMID: 15352044.