Analisi fattoriale esplorativa: come elaborarla?

L’analisi fattoriale esplorativa e la conseguente determinazione dei fattori sono le elaborazioni più conosciute nel campo del marketing, della psicologia e della psichiatria. In generale tutti gli studi che si fondano su questionari e dunque su items con scale, come ad esempio la scala Likert, richiedono l’esecuzione di analisi fattoriale esplorativa. Essa, unitamente con l’analisi fattoriale confermativa, è spesso usata per la validazione dei questionari e serve da elemento fondamentale di comprensione dei risultati.

Analisi fattoriale esplorativa: di cosa si tratta?

L’analisi fattoriale esplorativa è un potente strumento statistico ideato per “ridurre” una grande quantità di informazioni. Fondata su teorie matematiche che fanno uso di autovalori e gli autovettori, l’analisi fattoriale è un mezzo attraverso cui più variabili possono essere “compattate” in poche fondamentali informazioni. Lo scopo di questa riduzione è quello di fornire una sintesi capace di trarre informazioni utili ed immediatamente utilizzabili su un determinato fenomeno non facilmente osservabile.

In altri termini, l’analisi fattoriale esplorativa serve per ridurre un certo numero di variabili in una o più variabili – che chiamiamo “fattori” o “componenti” – idonee a rappresentare il fenomeno di interesse e secondo diverse sfaccettature.

Le variabili osservate sono solitamente chiamate item. Gli items sono affermazioni (non domande) alle quali si dà valore numerico, in generale su scale, di cui la Scala Likert rappresenta il maggior esponente. Solitamente i questionari che sono soggetti a successiva analisi fattoriale esplorativa, presentano un gran numero di item e servono per descrivere percezioni, stati d’animo, sentimenti e così via.

Obiettivo primario dell’analisi fattoriale esplorativa è l’identificazione dei fattori latenti senza perdere troppe informazioni rispetto alle variabili originarie. I fattori latenti sono dei “raggruppamenti” di più item. Pensa ad essi come a delle sorta di scatole in cui porre le tue variabili. Ogni scatola contiene un certo numero di variabili. Il nome che darai a ciascun scatole è definito in base al tipo di variabili che sono contenute.

In termini più tecnici, i fattori latenti sono determinati sul presupposto che la correlazione tra items sia fondata da dimensioni non osservabili che tendono a far raggruppare le variabili identificando così tendenze in grado di spiegare il fenomeno sottostante.

Un esempio

Per darti un’idea più precisa di come funziona concettualmente l’analisi fattoriale esplorativa, ti faccio un esempio. Immagina di voler definire quantitativamente il livello di salute di un individuo.

Il concetto di salute è molto difficile da osservare direttamente, in quanto la salute, intensa come benessere globale della persona, è l’insieme di benessere fisico, mentale e sociale. Questo comporta che l’assegnazione di un livello di salute non è direttamente misurabile con l’osservazione. Per poter pervenire ad una quantificazione della variabile “salute” è necessario ricorrere ad un’analisi fattoriale esplorativa. Ossia, ad un’analisi che “esplori” le tre dimensioni e ne determini le principali componenti. La salute diviene pertanto il risultato di tre fattori latenti determinati da una serie di osservazioni (variabili dirette). Raggruppando queste variabili in base al loro grado di correlazione è possibile giungere ad una quantificazione della salute, che può essere applicata in molteplici, ulteriori analisi di natura inferenziale.

Quando si usa l’analisi fattoriale

Non esiste una regola univoca per usare questo strumento: ci si basa principalmente su conoscenza, esperienza ed intuizione. Sicuramente essa deve essere applicata tutte le volte in cui il questionario è composto da molteplici affermazioni che mirano a provare l’esistenza di un fenomeno non direttamente osservabile.

Ad esempio, immagina di voler dimostrare che la presenza o meno di nervosismo in un soggetto può essere rilevata dal modo di rispondere di un soggetto a determinate affermazioni. Sicuramente in questo caso l’analisi fattoriale esplorativa ci permette non solo di capire il fattore latente (ossia la variabile nervosismo), ma anche di identificare quali affermazioni sono più rilevanti nella creazione della variabile nervosismo e quali meno. Tutto questo ci permette di passare da un certo numero di affermazioni ad un unico parametro, anche numerico, per capire se un determinato soggetto è nervoso o meno.

Come si elabora?

Il processo matematico alla base della fattoriale è molto complesso. Ma gli attuali software statistici permettono anche ai non esperti di poter ricavare utili informazioni. Come sempre, attenzione all’interpretazione e alla corretta lettura del modello.

Controlli Preliminari

Il primo passo di una buona analisi fattoriale è quello di definire se essa è fattibile. Per fare ciò bisogna controllare la natura dei dati, la loro distribuzione, la presenza di outliers e la numerosità campionaria.

Sulla numerosità campionaria ci sono diverse correnti di pensiero: alcuni dicono che più osservazioni ci sono, meglio è. Per altri (vedi Gorsuch, 1983) vale la regola di 5 casi per variabile, ma non meno di 100 casi. Per MacCalum ed al. (1999) bastano anche 60 casi se tutte le comunalità (i.e., la percentuale di varianza della variabile spiegata dai fattori comuni) sono maggiori di 0.60, ma si deve salire a 100/200 casi se le comunalità sono intorno a 0.50.

Il test di adeguatezza campionaria di Kaiser-Meyer-Olkin (KMO) è uno degli utili strumenti per rispondere a questa (annosa :-)) vicenda statistica della dimensione del campione. Se il valore del test KMO è maggiore di 0.90, il tuo campione è eccellente. Un valore di KMO tra 0.80 e 0.90 indica la presenza di un buon campione, mentre un valore di KMO tra 0.70 e 0.80 indica un campione accettabile. Tra 0.60 e 0.70, il campione è mediocre. Inferiore a 0.60… beh, lascia perdere o amplia il campione!

Matrice di correlazione

Come detto sopra, l’obiettivo dell’analisi fattoriale esplorativa è quello di capire il livello di correlazione tra vari item. Dunque ci serve una matrice di correlazione. E quando si parla di correlazione, il più noto esponente della famiglia è la correlazione di Pearson, ma non è l’unico. La correlazione di Spearman e la matrice di varianze/covarianze sono indici ugualmente validi, insiemi ad altri indice di associazione (correlazioni policoriche, poliseriali, punto-biseriale).

L’adeguatezza della matrice di correlazione deve essere controllata. Il test di sfericità di Bartlett può fornire delle buone indicazioni sulla adeguatezza. Se il test è significativo, allora le correlazioni della matrice sono sufficientemente elevate da non essere pari a zero.

Quanti fattori estrarre?

Fatti i primi controlli preliminari, passiamo ai fattori. Quanti estrarne? Il metodo più noto è quello degli autovalori (noti nella versione inglese eigenvalues), introdotto da Guttman nel 1954. Secondo questo metodo, quando un fattore ha autovalore superiore a 1, allora quello deve essere estratto. Il metodo è efficiente, ma non perfetto. Tende infatti a sovrastimare i fattori.

Questo metodo può essere usato insieme con altre procedure, quali il criterio di Kaiser, lo screen-test di Cattell, la percentuale di varianza spiegata dal totale dei fattori (sempre almeno del 60%) e, da ultimo, il buon senso e l’analisi della letteratura. Ricordati che stai studiando un fenomeno e non facendo numeri per puro diletto!

Come estrarre i fattori?

Dopo aver definito quanti fattori, il passo successivo è capire come estrarli. Qui entriamo nella varietà della statistica e delle invenzioni matematiche. Puoi scegliere tra analisi delle componenti principali (ma non è una propria analisi fattoriale esplorativa, anche se molto usata per questo scopo), analisi dei fattori principali, analisi della massima verosimiglianza (forte connotato statistico), analisi dei minimi quadrati, alfa factoring e image factoring. Se il numero di casi è sufficientemente ampio, le tecniche di estrazione si equivalgono.

Non entro nel dettaglio delle tecniche, in quanto tutte le tecniche fondano la loro validità su procedure matematiche per matematici. Sul punto ricordo ancora il primo anno di università e le splendide lezioni sugli autovalori e autovettori che nei primi approcci facevano impallidire anche i più lanciati studenti.

Poiché i comuni software statistici non ti chiederanno di lavorare su matrici, determinanti, autovalori, autovettori e combinazioni lineari, ti ometto questa particolare sezione. Puoi trovare maggiori informazioni nell’articolo dedicato.

Ruotare i fattori

Dopo aver estratto i fattori, è quasi giunta la fase che stavi aspettando: interpretare i fattori. Poiché in generale, la semplice estrazione dei fattori non consente di capire pienamente come le variabili si aggregano tra loro, bisogna ricorrere a qualche “magia” matematica per semplificare la lettura ed interpretazione dei fattori. Un metodo efficace è quello di ruotare i fattori (tranquillo, anche questo lo fa il software). La rotazione più nota e più usata è la varimax. Esistono anche altre rotazioni, tutte molto valide: quartimax e equamax oppure oblimin e promax. Per scegliere quella che fa per te, ci vuole un pò di esperienza ed un pò di studio (clicca qui per i dettagli di ciascun tipo di rotazione).

Interpretare i fattori

Per interpretare i fattori dobbiamo usare le saturazioni ossia quei punteggi che sono assegnati dopo la rotazione ad ogni variabile in corrispondenza di ciascun fattore.

Qualsiasi software tu stia utilizzando, per l’interpretazione dovrai leggere i valori (saturazioni) riportati in una tabella simile a quella sottostante.

itemfattore 1fattore 2fattore 3fattore 4comunalità
1-0.12950.7360-0.0143-0.14490.5798
20.46230.24710.30850.08900.3779
30.63280.09750.13740.21860.4765
40.02620.08390.48310.50520.4964
5
Esempio Output Analisi Fattoriale

Scegliere il livello di saturazione

Più una variabile ha una saturazione alta (e.g., vedi item 1 per il secondo fattore), maggiore sarà la sua influenza sul fattore. In generale vale la seguente regola di Overall e Klett (1972): ogni variabile per rientrare in uno specifico fattore deve avere un valore minimo di saturazione di 0.35. Ma nella recente letteratura c’è una tendenza ad inglobare variabili con saturazione minima di 0.40. Per decidere questo valore minimo ti consiglio di visionare la letteratura di riferimento nel tuo specifico settore.

In caso di segno negativo sul valore di saturazione, questo significa che la variabile partecipa al significato del fattore in senso opposto. Nel caso di item1 per il primo fattore, il segno è negativo e dunque se la saturazione fosse valida per il nostro lavoro (ossia con valore superiore a 0.35 o 0.40) dovremmo tener conto di questo segno.

Identificate quali variabili partecipano a ciascun fattore, ti resta da dare delle etichette (a tua completa scelta!) ad ogni fattore. La scelta dell’etichetta dipende dalla natura di ciascun item. Ritornando all’esempio della variabile “salute”, il primo fattore potrebbe essere caratterizzato da item che misurano l’aspetto fisico della componente salute, il secondo da item maggiormente incentrati sugli aspetti psicologici e cosi via. Quando arrivi a definire le etichette, l’analisi fattoriale è terminata!

Conclusione

Come puoi vedere, eseguire un’analisi fattoriale esplorativa, non è operativamente complesso, anche se il mondo dell’analisi fattoriale rimane un ambito veramente molto ampio. Ti ricordo che avere a disposizione il più moderno software statistico senza avere le conoscenze adeguate dello strumento statistico, è inutile, il rischio di bias è enorme.

Il mio consiglio, come sempre, è: “Interpreta i numeri. Comprendi il loro senso ed il tuo studio sarà riuscito!


Previous Article

Salute mentale e esposizione ai social media: approccio statistico

Next Article

Systematic Review: 10 passi per orientarsi ed eseguirla al meglio

Related Posts