18 Ottobre 2021

5 minute read

Regressione logistica: definizione e interpretazione

18 Ottobre 2021

Indice Show

La regressione logistica è uno degli strumenti statistici più noti nell’ambito della ricerca medica. E’ una tecnica statistica molto importante. La sua validità non è stata scalfita nel corso del tempo benché sia uno strumento il cui sviluppo risale agli anni ’40 del secolo scorso.

Cos’è la regressione logistica

Scopo della regressione logistica è determinare la probabilità del verificarsi di un evento, dati determinati fattori di rischio. Se pensiamo all’ambito medico, la regressione logistica consente di rispondere a molte domande dei clinici, quali ad esempio la presenza di complicazioni, malattie o eventi avversi, data la presenza/assenza di alcuni fattori di rischio ritenuti clinicamente rilevanti (si pensi ad esempio a fattori quali obesità, età, fumo, ipertensione, diabete, disturbi cardiovascolari, …).

In termini pratici, la regressione logistica è la sorella della regressione lineare. Sfruttando infatti molti dei principi della regressione lineare, la logistica è in grado di fornire informazioni accurate sulla probabilità del verificarsi degli eventi.

Per poter implementare una regressione logistica è necessario identificare una variabile dipendente – outcome – ed una o più variabili indipendenti, i cosiddetti regressori o fattori esogeni.

Regressione logistica e regressione multinominale

La forma più nota di regressione logistica è quella che prevede l’uso – quale variabile dipendente – di una variabile binaria (del tipo sì/no) e come variabili indipendenti, una o più variabili, siano esse continue o categoriali.

Consiglio da biostatistico

Molti software statistici hanno bisogno di una variabile binaria del tipo 0 e 1, in cui 0 indica il non verificarsi dell’evento ed 1 invece il verificarsi dell’evento.

Ti consiglio di utilizzare questo tipo di codifica quando lavori con variabili binarie, attribuendo valore 0 al non-evento (incluse le risposte “no”) ed il valore 1 all’evento (e.g. risposte “sì”). Lavorerai sul tuo dataset in modo molto più corretto e più veloce!

Esiste una forma più complessa di regressione logistica, la cosiddetta multinomiale o ordinale, la quale consente di calcolare la probabilità del verificarsi di un determinato outcome nei casi in cui la variabile dipendente è composta da tre o più outcome.

Applicazioni letteratura

In uno studio caso-controllo (Inner & Byers, 2004) è stata studiata mediante regressione logistica la relazione tra i fattori che caratterizzano la prima gravidanza di una donna e il successivo rischio di cancro al seno ad esordio precoce. Per far ciò, gli autori hanno considerato fattori di rischio pre- e peri-natali idonei a influenzare i livelli ormonali materni-fetali ed il rischio di cancro al seno, includendo peso alla nascita, età gestazione, parto multiplo, sesso lattante e distacco della placenta. Inoltre hanno inserito come potenziali fattori confondenti, l’etnia, lo stato civile ed il livello di istruzione. Infine hanno aggiustato tutte le analisi per età materna al primo parto.

Dopo applicazione di una serie di regressioni logistiche multivariate aggiustate per età materna e stratificate per età materna alla prima nascita e intervallo dal completamento dell’ultima gravidanza, gli autori hanno dimostrano che il tempo di gestazione inferiore alle 32 settimane, il distacco della placenta e la gestazione multifetale sono associati con un elevato rischio di cancro al seno. La preeclampsia è invece associata ad una marcata riduzione del rischio di cancro al seno tra le donne che hanno partorito il loro primo figlio dopo i 30 anni e nei primi 3 anni dopo il precedente parto.

Assunzioni preliminari per la regressione logistica

La regressione logistica necessita al pari della regressione lineare, inclusa quella multivariata, del rispetto di determinate assunzioni preliminari. Il rispetto di tali assunzioni è fondamentale per essere sicuri che i risultati della regressione non siano affetti da bias.

Per poter agevolare la memorizzazione delle quattro assunzioni preliminari, ecco a te un breve elenco:

Linearità tra la funzione logit dell’outcome e ognuna delle variabili indipendenti continue
Assenza di outliers che influenzino in modo considerevole i dati
Mancanza di multicollinearità (mancanza di correlazione tra le variabili indipendenti)
Indipendenza delle osservazioni
Campione sufficiente ampio per evitare l’overfitting

Come interpretare la regressione logistica

I risultati della regressione logistica sono espressi come odds ratio (OR). L’OR rappresenta la probabilità che un evento si verifichi data una specifica esposizione. Sebbene l’OR non sia particolarmente amato dai neofiti della regressione logistica, esso è tuttavia fondamentale per poter quantificare la probabilità.

Come si legge l’odds ratio?

Sebbene il nome “odds ratio” incuta un pò di timore, la sua lettura diventa agevole se tieni conto di qualche semplice regola.

Per poter leggere il valore di OR, devi tenere sempre a mente il numero 1. Infatti il valore di OR = 1 significa che non c’è relazione. In altri termini, un OR = 1 significa che il rischio che un evento si verifichi non dipende dallo specifico fattore di rischio. Tenendo dunque a mente il ruolo di OR = 1, abbiamo che:

Se OR > 1, allora il rischio che un determinato evento accada è più alto nei soggetti esposti.
Se OR < 1, allora il rischio che l’evento accada è più basso tra gli individui esposti.

Anche gli odds ratio necessitano di valutazione della significatività. P-value ed intervalli di confidenza sono compagni necessari per valutare la significatività dell’associazione.

Sguardo ai risultati della letteratura¹

Ritornando dunque al nostro esempio di letteratura, gli autori hanno trovato che un parto prematuro, dunque terminato prima delle 32 settimane di gestazione aumenti il rischio di cancro al seno (OR = 2.1 – 95%CI: 1.2-3.9). Aumento del rischio di cancro al seno si ha anche in caso di distacco di placenta e di gestazione multifetale. In entrambi i casi il valore di odds ratio è 1.8 (95%CI: 1.1-3.0).

Questo significa che nelle donne che partoriscono prematuramente il rischio di cancro al seno è 2.1 volte maggiore che nelle donne che partoriscono nel termine correttamente previsto. Nelle donne che hanno ad esempio distacco della placenta il rischio è 1.8 volte maggiore.

Al contrario la preeclampsia determina un minor rischio di cancro al seno (rispettivamente OR = 0.3, 95%CI: 0.2-0.7 e OR = 0.2, 95%CI: 0.1-0.9) in donne che hanno partorito il loro primo figlio dopo i 30 anni ed entro i primi 3 anni dopo l’ultimo parto.

Il risultato indica che nelle donne che hanno il loro primo figlio dopo i 30 anni e preeclampsia, il rischio di cancro al seno è 0.3 volte minore che nel caso di donne che partoriscono sempre dopo i 30 anni, ma nelle quali non si verfica preeclampsia.

Conclusione

La regressione logistica è un potentissimo strumento di previsione. Essa deve essere utilizzata per predire la probabilità che un evento accada date una o più variabili indipendenti.

La corretta scelta delle variabili indipendenti è cruciale per ottenere risultati clinicamente rilevanti. La scelta di quali e quante variabili includere è prima di tutto una scelta clinica. La collaborazione tra clinico e biostatistico è fondamentale. Essa serve infatti per identificare e definire le variabili rilevanti, la quantità di variabili da includere e la numerosità campionaria affinché il modello sia correttamente stimato.

References

Innes KE, Byers TE. First pregnancy characteristics and subsequent breast cancer risk among young women. Int J Cancer. 2004 Nov 1;112(2):306-11. doi: 10.1002/ijc.20402. PMID: 15352044.

regressione logistica

Marilù Garo

Ciao, sono Marilù Garo. Mathsly è uno studio di consulenza statistica e matematica, il cui scopo è elaborare analisi statistiche e fornire assistenza e supporto statistico per gli studi di ricerca e pubblicazioni scientifiche. Periodicamente il sito pubblica guide e articoli per spiegare gli aspetti più interessanti della statistica medica, della ricerca medica, dell'econometria ed in generale della ricerca scientifica. Puoi trovare informazioni sui principali indici statistici (e.g. media, mediana, deviazione standard, ...) e sugli strumenti più idonei a dimostrare le ipotesi di ricerca e a capire molti concetti statistici (e.g. p-value, regressioni, sensibilità, specificità, ...). Pubblico regolarmente articoli in biostatistica, econometria, statistica medica, ed in molti altri settori di applicazione della matematica e della statistica e, più in generale, nella ricerca scientifica. Se preferisci "far fare" ad uno professionista, sono la persona giusta per te. Posso aiutarti ad elaborare i dati e la tua analisi statistica, anche nel caso ti servisse per pubblicazione scientifica sulle riviste più importanti del tuo settore di ricerca. Le mie conoscenze nell'ambito statistico e matematico mi permettono di portare avanti collaborazioni continuative con università e centri ricerca, italiani ed internazionali. Puoi visionare alcune delle pubblicazioni scientifiche quale co-autore nella pagina "Le mie pubblicazioni" o scorrere le recensioni dei clienti con i quali ho collaborato. Inoltre, grazie all'esperienza acquisita nel campo della ricerca, posso aiutarti nellastesura e/o correzione del tuo testo scientifico, anche in inglese, o a scrivere il protocollo di ricerca per il tuo studio. Ti invito ad esplorare il mio sito e a scoprire in quanti modi posso aiutarti nel tuo lavoro di ricerca.

Randomized Controlled Trial: dal Comitato Etico alla pubblicazione

4 Luglio 2021

Radiomica: una nuova frontiera per la medicina e la matematica

23 Ottobre 2021

Statistica

73 Posts

View Posts

Statistica medica

41 Posts

View Posts

Ricerca Scientifica

37 Posts

View Posts

Econometria

17 Posts

View Posts

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

The Latest

Valutazione della qualità di vita in oncologia: una sfida metodologica

Controllo statistico della qualità e breve intro su Six Sigma

Henrietta Lacks: etica e scienza

Interrupted Time Series: un approccio per quasi-experimental studies

Regressione logistica: definizione e interpretazione

Indice Show

Cos’è la regressione logistica

Regressione logistica e regressione multinominale

Consiglio da biostatistico

Applicazioni letteratura

Assunzioni preliminari per la regressione logistica

Come interpretare la regressione logistica

Come si legge l’odds ratio?

Sguardo ai risultati della letteratura¹

Conclusione

References

Randomized Controlled Trial: dal Comitato Etico alla pubblicazione

Radiomica: una nuova frontiera per la medicina e la matematica

Valutazione della qualità di vita in oncologia: una sfida metodologica

Controllo statistico della qualità e breve intro su Six Sigma

Regressione logistica: definizione e interpretazione

Indice Show

Cos’è la regressione logistica

Regressione logistica e regressione multinominale

Consiglio da biostatistico

Applicazioni letteratura

Assunzioni preliminari per la regressione logistica

Come interpretare la regressione logistica

Come si legge l’odds ratio?

Sguardo ai risultati della letteratura1

Conclusione

References

Randomized Controlled Trial: dal Comitato Etico alla pubblicazione

Radiomica: una nuova frontiera per la medicina e la matematica

Related Posts

Cookies Policy

Sguardo ai risultati della letteratura¹