L’analisi bayesiana è una delle più note applicazioni della matematica al mondo statistico. La teoria della probabilità, da cui l’analisi bayesiana trae origine, “è, al fondo, il buon senso tradotto in calcolo” come scriveva due secoli fa il grande matematico e astronomo francese Pierre Simon De Laplace.
Da dove nasce l’idea dell’analisi bayesiana?
L’analisi bayesiana nasce da un semplice presupposto: io credo o conosco, perchè accertato da studi precedenti, che un determinato fenomeno si comporti in uno specifico modo. Si tratta quindi convinzioni o conoscenze a priori, cioè prima che si cominci a lavorare su nuovi dati. Come fare per ampliare queste conoscenze (aggiornarle) alla luce di nuove informazioni? L’analisi bayesiana ci aiuta a fare ciò.
E’ un processo di apprendimento circa le caratteristiche generali di una popolazione osservando un sottoinsieme (campione) di alcuni suoi membri. Le informazioni ottenute sul campione sono utili per ridurre l’incertezza circa le caratteristiche della popolazione. Quantificare questo cambiamento nell’incertezza (questo miglioramento della conoscenza) è lo scopo dell’inferenza bayesiana.
Differenza tra approccio bayesiano e frequentistico
questo punto qualcuno può porsi la seguente domanda: “Qual è allora la differenza tra questo approccio e, diciamo, il “classico” approccio statistico nell’analisi dati? Perchè fare un’analisi bayesiana invece di un’analisi “classica” di tipo frequentistico?” La risposta è costituita da una domanda: quando usare un approccio bayesiano e quando usarne uno di tipo frequentistico?
Come sempre accade in campo matematico, la prima risposta è: Dipende da quello che stai cercando e dalle “carte” che hai in mano. Non esistono strade precostituite: c’è la logica e c’è tutto il resto “non-logico”.
Se sei interessato a stimare la probabilità che un parametro di interesse appartenga ad un certo specifico intervallo, allora userai un’analisi bayesiana. Se al contrario, sei interessato ad effettuare dell’inferenza statistica (passaggio da campione a popolazione) circa il tuo parametro, allora l’approccio sarà di tipo frequentistico.
In modo ancora più esplicito: l’analisi bayesiana assume che il campione osservato è fisso e che il parametro è random. La distribuzione a posteriori dei parametri è stimata basandosi sui dati osservati e sulla distribuzione (convinzioni o conoscenza precedenti) a priori dei parametri ed è proprio la distribuzione a posteriori che viene utilizzata per l’inferenza bayesiana.
Nell’approccio frequentistico si assume che i dati osservati siano random e ripetibili e che i parametri siano sconosciuti, ma fissi e costanti nei campioni ripetuti. L’inferenza che viene fatta dunque basata sulla distribuzione campionaria dei dati o delle caratteristiche dei dati. In altri termini, si fonda sul presupposto che i dati osservati siano ripetibili.
Questo significa che l’approccio frequentistico è fortemente data-driven, mentre quello bayesiano permette una stima robusta fondandosi sui dati, ma sfruttando anche le informazioni precedenti circa i parametri di interesse.
Definizione di analisi bayesiana
Alla luce di quanto appena visto, l’analisi bayesiana è un’analisi statistica che risponde alle domande di ricerca circa i parametri sconosciuti di un modello statistico, basandosi un conoscenze probabilistiche. Si fonda sull’assunzione che tutti i parametri sono quantità random e che quindi esse possono essere incorporate nella conoscenza a priori.
Il modello bayesiano ha avvio dalla specificazione di un modello a posteriori, il quale descrive la distribuzione di probabilità a posteriori di tutti i parametri del modello condizionatamente ai dati osservati e alle conoscenze/convinzioni a priori:
\[p(\theta |y)=\frac{p(y|\theta )\cdot p(\theta )}{p(y)}\]in cui p(θ|y) è la probabilità a posteriori, p(y|θ) è la densità campionaria (proporzionale alla funzione di verosimiglianza, definita Likelihood), p(θ) è a probabilità a priori e p(y) è la probabilità marginale. Questa formula è già adattata a dati quantitativi continui.