Setup Menus in Admin Panel

School.Dataninja.it

Le quattro fasi del data journalism: pulisci i tuoi dati

Avere a che fare con dati puliti e ordinati permette successivamente di arricchirli e analizzarli al meglio.

Hai finalmente trovato i dati che potrebbero rispondere alla tua domanda e a una prima occhiata ti sembrano buoni. Ma non puoi (e non vuoi) analizzarli a mano, naturalmente… Per usare efficacemente il computer devi però metterti dei suoi panni e fornirgli dati e istruzioni su come gestirli in modo che faccia quello che ti aspetti che faccia senza sorprese. Ricorda che è molto più facile trattare preliminarmente i dati che verificare (e correggere!) a posteriori eventuali risultati errati.

Questa necessità nasce dal fatto che di fronte all’enorme varietà del mondo naturale, il computer comprende pochi tipi di variabili:

  • numeri interi (con segno, incluso lo 0)
  • numeri decimali (con segno)
  • date e orari
  • stringhe di caratteri (case sensitive)
  • valore mancante (o NULL)

Per di più al suo interno tratta tutti questi tipi allo stesso modo, effettuando opportune conversioni, perché di fatto è in grado di manipolare solo sequenze più o meno lunghe di 0 e 1.

I dati strutturati e le tabelle

Se vuoi descrivere un oggetto o un fenomeno devi cominciare con il concentrarti sui dati rilevanti che lo caratterizzano e su cui vuoi lavorare. Nella tua analisi ogni oggetto è quindi composto da una collezione di dati (di qualsiasi tipo) ben definita e solo da quella. Concettualmente, ma anche graficamente, è utile elencare tutte le caratteristiche di un oggetto una accanto all’altra e porre più oggetti omogenei uno sotto l’altro. Costruire e lavorare, insomma, con una tabella che infatti è composta da colonne e righe. Ogni colonna rappresenta e contiene uno e un solo tipo di dato. Ogni riga rappresenta e contiene uno e un solo oggetto, definito univocamente dalla collezione di dati inseriti nelle varie colonne. Non possono esistere righe completamente vuote o più righe perfettamente identiche.

Struttura

Quando hai a che fare con dati strutturati, controlla prima di tutto che la struttura dei dati sia corretta. Ogni colonna deve contenere valori dello stesso tipo. Se una colonna contiene una data, in tutte le righe di quella colonna devono esserci solo date (o NULL se non disponibili). Se contiene nomi di persone, devono esserci solo quelli (o NULL). Nella colonna “Nato il” non può esserci un nome di persona, e nella colonna “Nome” non possono esserci date.

Uniformità di formato

Controlla che i dati di una colonna siano scritti sempre alla stessa maniera. Se una colonna contiene date, le date devono essere scritte con lo stesso formato (esempio: nella notazione italiana GG/MM/AAAA). Attenzione a quando si mescolano notazione italiana e anglosassone (MM/GG/AAAA): alcune date possono essere valide, ma sbagliate!

Uniformità di scrittura

Controlla che all’interno delle righe le parole siano scritte in maniera omogenea. Ad esempio nella colonna dei nomi è un errore scrivere in una riga “Italia” e nella riga successiva “ITALIA”: l’applicazione potrebbe capire che si tratta di cose differenti, perché sensibile al case delle lettere. È necessario scrivere “Italia” (oppure “ITALIA”) in entrambe le righe, e in tutte quelle dov’è presente il valore “Italia” sia in maiuscolo che in minuscolo.

Uniformità di sistemi di misura

Controlla quale sistema di numerazione stai usando. Europeo o anglosassone? È importante perché esistono separatori diversi per indicare i decimali e le migliaia.

  • Le migliaia – In Europa si scrive 1.000 (mille), mentre negli Stati Uniti e in Gran Bretagna si scrive 1,000. In questo caso in Europa indichiamo le migliaia con un punto, non con la virgola.
  • I decimali – In Europa si scrive 1,5 (uno e mezzo), mentre negli Stati Uniti e in Gran Bretagna si scrive 1.5. In questo caso in Europa indichiamo i decimali con una virgola, non con il punto.

Qui il problema è che il tuo occhio e il tuo cervello interpretano al volo il numero che hai davanti, prendendo in considerazione contesto ed esperienza. Un computer questo non può farlo e deve effettuare una conversione esplicita tra la serie di caratteri che ha in ingresso e il numero che deve invece elaborare. Ecco perché è necessario che tu controlli questo processo e che intervenga se fallisce.

Le intestazioni

Controlla le intestazioni e assicurati che siano sempre nella prima riga della tua tabella. Le intestazioni sono i “nomi” dei tuoi dati, che si trovano suddivisi in colonne. Ogni intestazione dà il nome alla colonna nella quale si trova e può contenere importanti metadati (come l’unità di misura a cui i numeri sottostanti si riferiscono). Perché però il tutto funzioni, le intestazioni devono trovarsi nella prima riga della tua tabella (e solo lì, non devono ripetersi in mezzo alla tabella).

I dati mancanti

Controlla le righe e le celle bianche / vuote. La tua tabella potrebbe averne, perché spesso i fogli di calcolo vengono usati in maniera impropria. Le righe vuote non devono esistere. Le celle vuote possono invece indicare valori mancanti, l’importante è essere coerenti (tutte le celle vuote indicano sempre valori mancanti). Attenzione a celle fintamente vuote: il carattere spazio c’è, anche se non si vede!

Le somme

Controlla le somme se lavori su tabelle numeriche e le stai modificando, esportando o salvando in altri file. Le somme dei dati numerici dai vecchi ai nuovi file possono essere dei check molto utili per evidenziare degli errori.

Divide et impera

È sempre meglio avere a che fare con dati il più granulari e dettagliati possibile. Se puoi, quindi, meglio suddividere le informazioni in più colonne possibile (per esempio se hai nomi completi, meglio dividerli in “nome” e “cognome”, se hai “codice fiscale” e “partita iva”, meglio prevedere due campi separati). Ricorda che nelle fasi successive è molto più facile unire informazioni separate piuttosto che separare informazioni intrappolate in una lunga stringa!

Se i tuoi dati hanno una colonna di tipo Luogo e all’interno hanno valori simili “Cologno Monzese, provincia di Milano (Lombardia)” è molto meglio dividere fin da subito la colonne in tre altre colonne (“Comune” + “Provincia” + “Regione”). Questo di permetterà di analizzare tutte e tre le dimensioni (comunale, provinciale, regionale) separatamente o raggruppare altre dimensioni per comune, provincia e regione.

Gli strumenti

I dati possono essere puliti a mano, mediante un semplice editor di testo o direttamente nel foglio di calcolo che userai anche per le analisi successive, ma uno degli strumenti migliori è OpenRefine, un’applicazione open-source dedicata proprio a questo scopo, che permette di filtrare, riorganizzare e trasformare anche grandi quantità di dati in pochi click.

Arricchire i dati

Non è detto che il tuo dataset fornisca tutte le informazioni necessarie alla tua indagine o contenga direttamente le risposte alla tua domanda. In molti casi puoi arricchirlo tu stesso, aggiungendo nuove colonne con specifiche informazioni, prese magari da altri dataset indipendenti. Dopo che hai diviso la colonna “Luogo” in tre colonne (“Comune”, “Provincia”, “Regione”), per esempio, potrebbe essere utile inserire altre informazioni, come ad esempio la popolazione di quei territori se poi pensi di confrontarli e magari di colorare una mappa con dati normalizzati.

Letture: 322