Setup Menus in Admin Panel

School.Dataninja.it

Charlie Hebdo: making of dell’inchiesta sui dati del terrorismo

Nei giorni dell'assalto armato alla redazione di Charlie Hebdo ho realizzato per Wired un'inchiesta data-driven sugli attacchi terroristici in Europa. L'inchiesta dal titolo "Terrorismo: meno di un attentato su 100 ha una matrice religiosa" è stata pubblicata lo scorso 9 gennaio.

Premessa

Nei giorni dell’assalto armato alla redazione di Charlie Hebdo ho realizzato per Wired un’inchiesta data-driven sugli attacchi terroristici in Europa. L’inchiesta dal titolo “Terrorismo: meno di un attentato su 100 ha una matrice religiosa” è stata pubblicata lo scorso 9 gennaio. L’attenzione dei media e di una certa parte politica si era soffermata sull’emergenza di un’invasione dell’Islam estremista nei confini dell’Europa e sul rischio di una escalation di attacchi in nome dell’Isis e contro la libertà di espressione.

Il risultato finale è stato questo:

Partiamo dalle fonti

La prima domanda che mi sono posto – perché non bisogna mai perdere di vista la regola delle cinque W – è stata: “Quanti attacchi terroristici sono stati tentati, sventati o compiuti in Europa dall’11 settembre 2001?”. La seconda è stata: “Quale fonte può fornirmeli?”.

Mi sono ricordato di aver letto qualche tempo fa un articolo sui numeri del terrorismo, quindi mi sono messo alla ricerca della fonte dei dati, individuandola nell’Europol. L’intelligence europea diffonde ogni anno un report denominato “Eu Terrorism situation e trend report” in cui sono raccolte le statistiche relative non solo agli attacchi, ma anche agli arresti, ai procedimenti giudiziari e all’entità delle pene inflitte ai presunti colpevoli. I rapporti offrono una panoramica attendibile di quanto è accaduto nei confini europei nell’anno di riferimento.

Schermata 2015-02-07 alle 11.25.29.png

Il primo problema ha riguardato la disponibilità dei report: non dal 2001, come auspicavo, ma dal 2007. A quel punto, al bivio tra un dato ufficiale ma temporalmente parziale e un dato non ufficiale ma più completo nel tempo ho scelto la prima strada.
Inizialmente mi sono concentrato sulla pubblicazione più recente, datata maggio 2014, riferita agli eventi registrati nel corso del 2013. Il documento in questione contiene mappe, infografiche e un testo che descrive in sintesi le principali operazioni di polizia effettuate in quell’arco temporale.
Schermata 2015-02-07 alle 11.31.15.png

 

 

Schermata 2015-02-07 alle 11.31.27.png

Le tabelle con i dati che danno vita a quelle visualizzazioni le ho trovate nella sezione Allegati. Ed è lì che bisognava mettere le mani e fare scraping, trattandosi di file in formato pdf.

Come ho estratto i dati

Dal sito dell’Europol ho scaricato il report 2014 in formato Pdf, per poter procedere poi allo scraping vero e proprio, tecnicamente l’estrazione di una tabella in formato xls o csv.

Schermata 2015-02-07 alle 11.36.31.png

Dopo aver constatato che si trattava di un pdf da immagine e non da un documento, cosa che rendeva molto difficile se non impossibile lo scraping, ho proseguito con un’estrazione ‘a mano’ dei dati, organizzando il dataset in Excel nel seguente modo:

Schermata 2015-02-07 alle 11.45.01.png

Ho eseguito la stessa operazione per ricostruire il dataset relativo agli arresti.

Schermata 2015-02-07 alle 11.57.15.png

 

Schermata 2015-02-07 alle 12.02.32.png

Per lo scraping dei report relativi agli anni precedenti ho potuto utilizzare Tabula, un software open source disponibile sia per Pc che per Mac. Chi non volesse installarlo può utilizzare Tabula sul server di Dataninja.

Prendiamo ad esempio il report 2013. In quattro mosse ho ricavato un dataset dalla tabella degli attentati sventati o commessi nei singoli stati membri distinti per matrice.

1) Ho eseguito l’upload del documento

Schermata 2015-02-07 alle 12.12.15.png

 

Schermata 2015-02-07 alle 12.14.07.png
Schermata 2015-02-07 alle 12.11.35.png

2) Ho selezionato l’area di tabella da scrapare

Schermata 2015-02-07 alle 12.18.02.png

3) Una volta accertato che i dati fossero “puliti” e la tabella in ordine, avevo due possibilità: scaricare il dataset in un formato machine readable (csv in questo caso) oppure copiare e incollare la tabella in un foglio excel (o LibreOffice Calc). Ho scelto la seconda opzione per accelerare.

Schermata 2015-02-07 alle 12.19.42.png

4) Ho importato il dataset in Excel (in alternativa LibreOffice Calc).

Schermata 2015-02-07 alle 12.27.22.png

La stessa operazione è stata ripetuta per l’altra tabella di interesse per l’inchiesta, ossia quella relativa agli arresti. I due dataset hanno in comune la struttura: la prima colonna dedicata ai nomi degli Stati membri, le successive indicanti le singole matrici degli attentati: religiosa, separatista, di estrema sinistra, di estrema destra, casi isolati, non specificati e totale.

Con l’obiettivo di ricostruire i cambiamenti del fenomeno nel tempo, ho effettuato lo scraping anche per i report degli altri anni disponibili sul sito di Europol (2007, 2008, 2009, 2010, 2011 e 2012). Prima di costruire un dataset unico finale mi sono imbattuto in un paio di ostacoli. Ecco quali.

Armarsi di pazienza

Non tutte le ciambelle riescono col buco. E non da tutte le tabelle in pdf si può estrarre un dataset pulito grazie a Tabula. È quanto ho riscontrato, come detto, con le tabelle nel report del 2014, caricate presumibilmente in formato immagini.

Schermata 2015-02-07 alle 12.31.45.png

A quel punto ho dovuto mettere da parte gli strumenti che la tecnologia mette a disposizione per ripiegare su un lavoro manuale: ricopiare righe e colonne all’interno di un foglio Excel, seguendo lo stesso schema utilizzato per gli altri anni.

Attenzione alle licenze

Il secondo ostacolo non è di natura tecnica, ma riguarda le condizioni di utilizzo dei dati rilasciati da Europol. Tutti i dati contenuti dai report dell’intelligence europea sono coperti da copyright. Sarebbe impossibile pubblicarli integralmente o utilizzarli per visualizzazioni senza l’autorizzazione del titolare.

Tale valutazione è una premessa fondamentale prima di proseguire verso l’ultimo step della visualizzazione. Qualcuno sosterrà che questo paragrafo andasse inserito prima ancora dello scraping, ma non sono del tutto d’accordo. Ritengo che il diritto di cronaca e l’analisi dei dati prevalga su ogni licenza o copyright. A questo punto del lavoro avrei potuto utilizzare i dati scrapati dai report per trarre le mie valutazioni sul tema del terrorismo internazionale anche senza trattare quei dati e, quindi, utilizzarli per mappe o grafiche interattive.

Essendo questo un prodotto di data journalism, ho inoltrato all’Europol una richiesta di approvazione all’utilizzo dei dati. Sul sito è disponibile un form precompilato all’interno dei quali inserire i propri dati e una breve descrizione del lavoro giornalistico che si intende realizzare.

La visualizzazione

Per rappresentare graficamente la storia degli attentati terroristici negli ultimi otto anni in Europa ho utilizzato due tool differenti: Datawrapper e Tableau.

Con Datawrapper ho scelto un grafico a barre, che ho ritenuto ideale per confrontare il numero di attentati per singole matrici (Nel caso specifico ci dice che tra il 2006 e il 2013 oltre 4.200 attacchi sono stati commessi per secessionismo e solo 30 per motivi islamico-religiosi) e il numero di arresti (Ancora una volta il secessionismo batte l’odio religioso 5.400 a 2.800).

Schermata 2015-02-07 alle 13.22.15.png

Questo strumento dà la possibilità di selezionare dal menu a tendina ogni anno e l’intero periodo 2006-2013, avendo preliminarmente organizzato il dataset in colonne che rappresentano i periodi di rilevazione.

Schermata 2015-02-07 alle 13.23.52.png

Il dashboard interattivo con Tableau

Per confrontare il numero di eventi tra Stati membri dell’Ue la scelta è ricaduta su Tableau, un software scaricabile nella sua versione gratuita. La sua peculiarità è quella di consentire un collegamento tra più grafici, non necessariamente della stessa tipologia.

Una premessa è doverosa. È necessario caricare in Tableau i dati grezzi e non elaborati (qui un approfondimento). Ecco un esempio.

DATI ELABORATI

Schermata 2015-02-07 alle 13.38.04.png

DATI GREZZI

Schermata 2015-02-07 alle 13.39.27.png

Altra precauzione riguarda il corretto formato delle date.

Schermata 2015-02-07 alle 13.42.22.png

Nella bozza iniziale avevo pensato di rappresentare gli attentati per Stati su una mappa, inserendo due filtri: uno per matrice e uno per anno. I dati geografici, come nomi di Stati, di Regioni o Province, devono essere riconosciuti come tali dal software.

In definitiva, ho abbandonato l’idea della mappa e ho presentato i dati con un diagramma a barre per singolo Stato in percentuale sul totale per matrice. L’obiettivo, al di là del valore assoluto, era quantificare in che percentuale incide il singolo movente sul totale degli attacchi tentati, sventati o messi a segno nel determinato Paese. In questo grafico si legge che appena l’1% degli attentati ha una matrice religiosa-islamica rispetto a percentuali tra il 55 e l’85% della matrice secessionistica.

Nel secondo grafico sul dashboard ho ricostruito l’evoluzione nel tempo, dal 2006 al 2013, del numero di attentati per singola matrice. Nel 2013 è scomparsa la matrice religiosa-islamica, confluita in parte nella categoria “non specificato”.

Letture: 238