Chi-quadro il test perfetto per i dati qualitativi.

Oggi parliamo di test statistici. Ed in particolare: è possibile stabilire una “differenza statisticamente significativa” (per parlare con gli stessi termini) tra i test statistici? Se pensiamo all’utilizzo di tutti i test statistici, possiamo senza dubbio affermare che il test chi-quadro è in assoluto il più diffuso per le analisi statistiche. Dalla statistica medica alle ricerche di mercato, questo test è il grande protagonista di molte analisi. La sua ampia diffusione è principalmente dovuta alla semplicità di utilizzo e alla flessibilità di risposta in caso di dati qualitativi. Conosciamolo nelle sue linee essenziali!

Chi è il chi-quadro?

Supponi di star lavorando su un dataset composto anche di dati qualitativi. Immagina di dover studiare l’associazione tra due variabili, ad esempio Genere (maschio/femmina) e l’acquisto di uno smartphone nell’ultimo mese (sì/no). Esiste una differenza statisticamente significativa tra maschi e femmine nell’acquisto di smartphone?

Sicuramente fare una stima delle rispettive percentuali è una prima, valida strada. Ma, come facciamo a dire che la differenza percentuale è dovuta ad un’associazione tra le variabili e non al caso? Ecco che ci viene in aiuto il test chi-quadro.

Esso parte da un principio molto semplice: le percentuali che hai misurato sono le frequenze osservate (per sapere come arrivare a determinare le frequenze, clicca qui). Ma quali dovrebbero essere le frequenze attese, se i due gruppi (in questo caso maschi e femmine) si comportassero nello stesso modo? Il test chi-quadro compara le frequenze di ogni situazione possibile con quella che ci si aspetterebbe se non ci fosse alcuna differenza. In altri termini, valuta se tra le frequenze osservate e le frequenze attese c’è differenza, supponendo che le frequenze attese siano quelle che non rilevano alcuna differenza tra le variabili.

Come ogni test statistico, anche il chi-quadro risponde a questa domanda ponendo un’ipotesi nulla ed una alternativa (tipico di ogni analisi inferenziale). In particolare, esso pone quale ipotesi nulla, quella secondo cui non c’è alcuna associazione tra le variabili (cioè non c’è differenza), mentre quale ipotesi alternativa esso afferma la presenza di un’associazione.

Il valore del chi-quadro e dell’associato p-value ci diranno quale delle due ipotesi è verificata. Infatti, se il p-value è maggiore della canonica soglia dello 0.05, allora accetteremo l’ipotesi nulla. Dunque, andremo ad affermare che non esiste differenza. Mentre se il p-value è minore di 0.05, allora rifiuteremo l’ipotesi nulla, accettando quella alternativa. Il test è molto semplice ed immediato: dal valore del p-value è possibile accettare o rifiutare l’ipotesi statistica.

Quando applicare il test?

Il chi-quadro sicuramente è un test da applicare in presenza di variabili qualitative, come l’esempio sopra accennato. Non è però un test sempre possibile. Per la sua applicazione è necessario disporre di un campione statistico di grandi dimensioni. Ti starai chiedendo: ok, quanto grandi?

Il famoso statistico W.G. Cochran ci fornisce una risposta più che soddisfacente. “Il test chi-quadro è valido se almeno l’80% delle frequenze attese è maggiore di 5 e tutte sono maggiori di 1”. Attenzione, la condizione è valida solo per le frequenze attese e non per quelle osservate. Dunque la frequenza osservata può anche essere zero, l’importante è che quella attesa rispetti il criterio di Cochran!

È evidente che se abbiamo un piccolo campione può succedere che le frequenze attese siano minori di 5 e questo fa sì che l’applicazione del chi-quadro dia risultati “statisticamente distorti” 😊

Per concludere, per poter applicare il test chi-quadro devi valutare la potenza del campione di cui disponi. Con un’alta numerosità, il test chi-quadro è uno strumento altamente efficace nel caso di variabili qualitative. Nel caso in cui il tuo campione ha dimensioni ridotte, è necessario ricorrere ad una delle due sue valide alternative: il test esatto di Fisher o il test chi-quadro con la correzione di Yates.


Previous Article

Come definire lo studio econometrico: cross-sectional o panel analysis

Next Article

Il coefficiente di determinazione: quando l'R2 non basta

Related Posts