Indice Show
L’analisi di sopravvivenza (meglio nota nella sua forma inglese di survival analysis) è la grande protagonista di molte pubblicazioni in ambito medico. L’oncologia e l’ematologia ne fanno un uso quasi costante, ma non sicuramente esclusivo. Analisi di sopravvivenza compaiono in molti ambiti medici ed al di fuori del contesto più facilmente intuibili dell’evento “morte”. In generale, possiamo dire che sia la medicina quanto l’epidemiologia non potrebbero essere così accurate e precise senza l’analisi di sopravvivenza. Si tratta infatti di un’analisi che ricorre spessissimo nelle pubblicazioni scientifiche e, se ben eseguita, non è soggetta a notevoli fonti di bias, primi fra tutti i dati censored.
Concetto di sopravvivenza in statistica
Infatti, sebbene la parola “sopravvivenza” richiami i concetti di vita e di morte, tale definizione è non sufficiente per l’ambito statistico e di converso per quello medico. In statistica, la locuzione “analisi di sopravvivenza” indica lo studio del tempo intercorso tra uno specifico evento di inizio (cd. starting point) e il verificarsi di uno specifico outcome (cd. ending point). Obiettivo dunque di ogni survival analysis è investigare i fattori che influenzano la durata e di stimare la sopravvivenza di individui o gruppi di soggetti con particolari caratteristiche. I suoi dati tipo sono i dati “time-to-event”, ossia quelle informazioni che prevedono un collegamento tra tempo e verifica di un evento.
Definire la durata nell’analisi di sopravvivenza
Da quanto appena descritto, ne deriva che, ai fini di qualsiasi analisi di sopravvivenza, sono necessari due elementi chiave: la data di inizio di una determinata condizione e la data di verifica dell’outcome. Tutto ciò consente di calcolare la durata, ossia il tempo di sopravvivenza. La particolarità dell’analisi di sopravvivenza è che essa non tratta solo dello studio della variabile durata, ma dello studio del contesto in cui la durata ha avuto inizio, si è sviluppata ed ha avuto termine.
Starting point: l’inizio del conteggio
Il momento di inizio dell’analisi di sopravvivenza ed il momento di inizio del conteggio della durata non sono sovrapponibili. Si pensi ad esempio ad uno studio osservazionale su un campione di pazienti con cancro al seno. Il momento di calcolo della durata non coincide con il momento in cui il ricercatore inizio lo studio. Il calcolo del tempo parte dal momento della diagnosi della malattia, ossia la data di esecuzione della biopsia e di risposta positiva.
Lo starting point più diffuso è quello relativo all’insorgenza della malattia o all’esecuzione di uno specifico intervento chirurgico, ma non sono esclusi altre tipologie di eventi iniziali, quali il momento di insorgenza di effetti collaterali, la comparsa di uno specifico dolore, l’alterazione di un parametro ematochimico, etc.
Outcome: l’evento determinante
Definito quindi il momento iniziale si passa alla definizione dell’outcome. Attenzione: un solo outcome per ogni durata. Uno studio può prevedere più analisi di sopravvivenza, ma si analizza un outcome alla volta. Questo accade per esempio negli studi dell’ambito oncologico: la data della biopsia è utilizzata come starting point e poi le date di verifica di metastasi, di recidiva o della morte sono tre outcome diversi e quindi definiscono tre differenti durate (metastasis o disease free-survival e overall survival).
Per poter identificare l’outcome (o gli outcome), la domanda a cui rispondere è: Quali eventi sono da osservare? Ritorno ancora una volta sulla parola “sopravvivenza”. Se pensi al termine “sopravvivenza”, il primo evento riscontrabile che mina la vita, è il verificarsi della morte, outcome più noto. Ma, non è il solo.
In ricerca medica, l’evento è inteso come qualsiasi fenomeno che può cadere sotto la lente di ingrandimento del ricercatore, che interrompe un certo andamento ritenuto “normale” o “tipico” e, caratteristica molto più importante, che abbia un legame con la malattia indagata.
Dunque, fanno parte dei possibili outcome di un’analisi di sopravvivenza le cattive notizie – la morte, l’insorgenza di metastasi o di effetti collaterali, le recidive, etc. -, ma anche le buone notizie, come la guarigione, le dimissioni dall’ospedale, la scomparsa di un sintomo, etc.
I dati per l’analisi di sopravvivenza
Identificati quindi starting e ending points, passiamo alla definizione del tipo di dato. In questo caso, ciò che è importante non è se il dato è qualitativo o quantitativo (ovviamente la durata è un dato quantitativo); il punto fondamentale è il concetto di “dato mancante” che qui prende un’accezione speciale.
Supponiamo di voler stimare la sopravvivenza di un campione di pazienti affetti da tumore al polmone in un periodo di 5 anni. Al termine dello studio possiamo trovarci di fronte a due diversi “dati mancanti”: pazienti che hanno abbandonato lo studio prima del termine non presentandosi ai follow-up e pazienti che sono (e siamo contenti!) vivi al termine dello studio.
Queste due situazioni danno origine ad osservazioni incomplete (chiamate formalmente segmenti incompleti o dati censored, ossia troncati) che non ci consentirebbero di misurare con esattezza il tasso di sopravvivenza dei pazienti affetti da cancro al polmone.
Lo so, ho appena usato il condizionale “consentirebbero”. Come avrai modo di vedere nei post relativi al modello di Cox e alla curva Kaplan-Meier anche per i dati censored la statistica ci da opportuni strumenti per il controllo dei bias.
Tipologia di dati censored
Parlando di dati censored, nella survival analysis si distingue tra dati troncati a destra, a sinistra e ad intervalli.
Sempre usando come esempio il campione di pazienti con tumore al polmone, i dati troncati a destra sono dati relativi a pazienti per i quali non si conosce il tempo esatto di sopravvivenza in quanto o sono usciti nel corso dello studio per cause non relative alla malattia (e.g. rifiuto a cooperare, morte per causa non relativa alla malattia, …) o al momento dello studio sono vivi, dunque non si è verificato l’outcome di interesse. Si tratta dei dati più frequenti nelle survival analysis.
I dati troncati a sinistra sono meno comuni e sono relativi a quei pazienti che per i quali non è noto il tempo di inizio. Si pensi ad esempio il caso di insorgenza del diabete: il paziente potrebbe non ricordare la data esatta di quando la malattia è stata diagnosticata per la prima volta ed il dato non essere presente nella sua cartella clinica.
Infine i dati troncati ad intervalli si verificano quando il tempo dell’evento ricade all’interno di un intervallo di tempo senza specificazione del momento esatto. Si pensi ad esempio alle patologie con follow-up periodici: l’insorgenza di effetti collaterali viene riferita all’intervallo tra due follow-up consecutivi, ma senza specificazione del momento esatto.
Raccolta dati per l’analisi di sopravvivenza
Definiti i dati con i quali confrontarci, è giunta l’ora di iniziare a determinare la durata. Ebbene sì, anche qui i modi di reperimento dei dati incidono sulla tipologia di dati censored. A seconda di come selezioniamo il campione e determiniamo la variabile durata, l’analisi di sopravvivenza risente in termini di durata dello studio, di capacità predittiva e di accuratezza.
Metodo 1: aspettando la verifica dell’outcome
Il metodo più conveniente e anche più diffuso è quello che considera un campione randomizzato di pazienti con una specifica condizione (e.g. malattia tumorale). Da qui si procede all’identificazione della data di insorgenza della malattia (e.g. data biopsia) e si osserva in un determinato arco temporale (relativo allo studio) il verificarsi dell’outcome.
Si potrebbe anche condurre uno studio arruolando i pazienti al momento dell’inizio della malattia e seguirli fino alla verifica dell’outcome. Si tratta di una procedura sicuramente soddisfacente e completa, ma non sempre attuabile. In generale, la data di chiusura dello studio corrisponde con il momento di ultima informazione per tutti quei pazienti per i quali la condizione non si è verificata; in questo caso, la durata è calcolata dall’inizio della condizione fino alla fine dello studio. Per i pazienti che si “perdono” durante il follow-up, la data di ultimo follow-up eseguito rappresenta il termine ultimo. Nel caso di studio senza follow-up, l’ending point corrisponde al momento di chiusura dello studio.
Metodo 2: conoscere data di inizio e di verifica dell’outcome
Il secondo metodo è quello di raccogliere i dati di sopravvivenza relativi ad un campione (anche non random) per il quale si conoscono le date di inizio e fine. Metodo apparentemente semplice, ma … provate a metterlo in atto su un vostro campione. Scoprirete che non è così immediato disporre di questi dati per un campione statisticamente significativo.
Metodo 3: conoscere data outcome e procedere a ritroso
Un’ulteriore metodologia è data dalla possibilità di considerare un campione randomizzato per il quale si conosce la data di verifica dell’outcome; procedendo a ritroso, si va a determinare quando si è verificata la condizione (e.g. data di inizio malattia). Questa è una procedura utile in caso di studi quali l’Alzheimer. Il grande vantaggio è la mancanza di dati censored.
Metodi di statistica descrittiva
Raccolti i dati, è giunta l’ora di presentare le statistiche descrittive. Partiamo subito da un’informazione: i dati sopravvivenza non amano la distribuzione normale, per cui la media è altamente sconsigliata.
Il problema di calcolo delle principali statistiche descrittive aumenta in modo significativo se consideriamo i dati censored. Se ignorassimo le informazioni per quei pazienti con segmenti incompleti, la media sarebbe inesatta e distorta. I casi censored potrebbero essere dovuti ad una precisa causa o ad una specifica differenza rispetto agli altri. Nel caso in cui questi dati fossero inclusi considerando come ending point il momento di troncamento, la media sarebbe sottostimata.
Dunque, meglio e più opportuno ricorrere alla mediana: non è esente da bias, ma sicuramente è migliore della media in quanto non risente delle asimmetrie.
Metodo molto appropriato è quello di accompagnare la statistica descrittiva con dati relativi al tasso di sopravvivenza entro un certo periodo, ad esempio cinque anni. Questo valore può essere aggiustato in presenza di dati censored e, aggiungo, è il parametro più usato per gli studi di sopravvivenza. Per la sua determinazione vedi Kaplan-Meier.
Conclusione
La sopravvivenza rappresenta uno degli argomenti più importanti della statistica medica. Occupandosi del tempo tra due eventi importanti, serve per indagare la probabilità di verifica di un evento nel tempo (time-to-event). In analisi di questo tipo, la sopravvivenza non è una variabile dicotomica, ma è una variabile continua che, a differenza di tante altre comuni variabili della statistica medica, non si distribuisce normalmente nella maggior parte dei casi. Sebbene questo possa apparire la problematica più significativa, essa è però la minore. La presenza di dati censored è sicuramente di maggior importanza. Non è possibili eliminarli e non è possibile non tenerne conto in quanto modifiche in tal senso producono bias si dalla principali statistiche descrittive.