Indice Show
Sei alla tua prima analisi statistica. Magari si tratta dello studio statistico per la tua prima pubblicazione. Pertanto ti trovi di fronte ad una serie di domande circa la costruzione del tuo dataset e la prima fra tutte è: Come creare un database per l’analisi statistica dei miei dati?
Posto che tu abbia scelto di inserire i dati in un file Excel, ti starai chiedendo come inserirli. Hai domande del tipo: Le informazioni dei soggetti devo inserirli per riga (ogni riga un soggetto) o per colonna (ogni colonna un soggetto)? Dove riportare i dati prima-dopo riferiti ad uno stesso soggetto? Come inserire i dati ad esempio di un’azienda o di uno Stato, registrati in più anni?
Questo post ti spiegherà in modo semplice ed immediato come risolvere i tuoi dubbi sulla costruzione del dataset. Infatti Imparare a creare dataset ben organizzati, ti permetterà di porre un primo importante fondamento ad un’analisi statistica ben fatta.
Come creare un dataset per ogni studio
Il primo step per la costruzione del dataset è dato dalla risposta ad una semplice domanda. Di chi sono i dati? O meglio, chi sono i soggetti della tua analisi? A seconda di chi sono i soggetti e, quindi a seconda del tuo campo di indagine, ogni dataset segue un suo percorso di costruzione. Scegli la materia di seguito.
Statistica medica, bio-statistica, psicologia, logopedia, etc…
Se conduci un’analisi di statistica medica o di biostatistica, molto probabilmente hai raccolto informazioni circa degli individui (pazienti). Per esempio, hai appreso la loro età, il genere, lo stato civile, la loro situazione clinica e magari, alcune misurazioni inerenti a un certo intervento o un certo protocollo terapeutico.
Inoltre alcuni studi medici sono inoltre interessati all’esame del follow-up, vale a dire si concentrano su quella fase successiva ad un intervento o ad una terapia, che permette di capire gli effetti di quanto somministrato o fatto, nel periodo successivo.
Dunque ciò che devi fare è costruire un dataset in cui le variabili (età, genere, stato civile, dati clinici, follow-up in diversi tempi) siano posizionate in colonne. Una variabile per ogni colonna. Di conseguenza, i dati dei pazienti devono essere posti nelle righe del file Excel. Un paziente per ogni riga.
Ciò significa che se disponi di dati in diversi periodi temporali, come accade per esempio per le rilevazioni del follow-up, allora esse sono riportate in una sola riga, che si riferisce al paziente specifico, e nelle varie colonne che segnano le diverse misurazioni. Ecco un esempio:
ID | Genere | Età | Follow-up 6 mesi | Follow-up 1 anno |
1 | … | … | … | … |
2 | … | … | … | … |
3 | … | … | … | … |
Econometria, marketing, sociologia e studi economici in generale
Se il tuo lavoro riguarda l’economia, il management, la demografia o la sociologia, puoi trovarti di fronte a due tipi di dati: dati che fotografano la situazione di più soggetti in uno specifico momento temporale e dati che considerano più soggetti per più periodi temporali. Quindi il numero di periodi temporali è l’elemento che permette di capire come costruire un dataset.
Se hai più soggetti in uno specifico momento temporale (l’anno 2018 per esempio), allora dovrai inserire i soggetti nelle righe (ad esempio le aziende o gli Stati) e le variabili che stai considerando in colonna (ad esempio il ROA, il ROE, il Leverage, la Tobin’s Q, il PIL e così via).
Ecco un esempio.
ID | ROA | ROE | LEVERAGE | … |
1 | … | … | … | … |
2 | … | … | … | … |
3 | … | … | … | … |
Il panel data
Invece se ti trovi nella seconda situazione, vale a dire hai più soggetti con misurazioni per più anni, allora è il momento di costruire un panel data. Poiché il panel data segue un suo preciso schema, è necessario che tu lo segua in modo puntuale per evitare confusione. In particolare, un panel data richiede che tu inserisca le variabili in colonna e riporti i valori dei soggetti per riga, creando una riga per ogni periodo temporale considerato. Questo significa che se hai 10 soggetti, di cui conosci le misurazioni in 5 periodi temporali diversi, dovrai creare una riga per ogni soggetto e per ogni periodo temporale. Così facendo ottieni un dataset con 50 righe (una per ogni soggetto e per ogni periodo temporale).
Ti faccio un esempio. Nella seguente tabella ho creato un dataset con 3 Stati (Italia, Spagna e Francia) e con risultati PIL registrati in 3 anni consecutivi. Come puoi notare ho un numero tale di osservazioni pari a (3×3 = 9).
ID | Stato | Anno | PIL (GDP) |
1 | Italia | 2016 | … |
2 | Italia | 2017 | … |
3 | Italia | 2018 | … |
4 | Spagna | 2016 | … |
5 | Spagna | 2017 | … |
6 | Spagna | 2018 | … |
7 | Francia | 2016 | … |
8 | Francia | 2017 | … |
9 | Francia | 2018 | … |
Se desideri avere maggiori informazioni sui panel data clicca qui. Se sei alla ricerca di un corso completo sulla panel, accedi alla pagina dei corsi dedicati alla panel analysis.
Finanza e mercati
Se il tuo studio riguarda dei dati finanziari, ad esempio l’analisi dell’andamento di un listino azionario nel corso del tempo o l’evoluzione dello spread italiano giorno per giorno, allora hai bisogno di costruire un dataset che sia idoneo ad una serie temporale. Probabilmente hai una sola variabile (l’indice S&P 500 o lo spread) e più misurazioni nel tempo (le chiusure giornaliere). In questo caso devi lavorare creando un dataset con due colonne. Nella prima colonna riporti la data e nella seconda il valore dell’indice. Alcuni studi permettono l’inclusione di altri variabili misurate nello stesso periodo, per cui hai tante colonne quante sono le variabili.
Questionari
Inoltre un caso a sé viene fornito dai questionari. Benché infatti i questionari rappresentino uno strumento semplice ed immediato per la raccolta di informazioni, la composizione del dataset può presentare diverse difficoltà. Il loro utilizzo è ormai diffuso in ogni materia, ragion per cui non è immediato catalogare le informazioni.
Infatti molti questionari pongono delle domande relative ad uno specifico argomento, ma da due angolazioni differenti. Ad esempio, i questionari di marketing possono comprendere delle domande relative all’intenzione di acquisto in due momenti differenti, prima di aver visto una pubblicità e dopo. I questionari di tipo medico possono chiedere al paziente di esprimere un parere circa il proprio stato emotivo in momenti diversi della terapia. Tutto ciò significa che ci troviamo a lavorare con domande identiche, ma in condizioni diverse o in momenti temporali diversi.
Pertanto per costruire il dataset dobbiamo seguire il seguente schema. Prima di tutto ricorda che ogni soggetto intervistato va riportato in una riga. Al contrario per ogni domanda (ed intendo anche per ogni item) bisogna creare una colonna (che corrisponde ad una variabile). Inoltre se la stessa domanda è posta più volte (come negli esempi sopra citati), allora bisogna creare una colonna per ciascuna specifica domanda. In altre parole, anche quando il tuo questionario si compone di 30 domande, anche se 20 sono ripetute, ma riferite a situazioni diverse o momenti diversi, dovrai avere un file Excel con 30 colonne.
Per elaborare il questionario, leggi il post: Come elaborare un questionario.
Per il questionario CiTAS, clicca qui.
Conclusione
In conclusione, costruire un dataset è semplice e complesso allo stesso tempo. Perciò esegui il lavoro usando una corretta impostazione del dataset, la tua analisi statistica ha già imboccato la giusta strada. Infatti come si dice: “Chi ben incomincia è già a metà dell’opera”.