Come già indicato per i principi FAIR (v. par. 4.4 ), per assicurare l’interoperabilità e consentire che dati e metadati possano essere combinati con altri dati e/o strumenti, è necessario, tra l’altro, che vengano utilizzati standard pertinenti, oltre a vocabolari controllati, thesauri e ontologie, riconosciuti auspicabilmente a livello internazionale.
Nel pubblicare dati aperti, quindi, sarebbe opportuno, ove possibile, seguire standard definiti dagli organismi di standardizzazione internazionali, come ISO, W3C, OGC, IETF, o nell’ambito delle attività istituzionali della Commissione Europea. Nel caso in cui non siano disponibili standard a livello internazionale e/o europeo, allora si può fare riferimento a standard e regole tecniche nazionali, anche definiti dalle amministrazioni competenti in funzione dello specifico dominio. Si richiama qui quanto indicato per i modelli dati al par. 5.1.5 .
In merito agli Standard, potrebbe essere utile raccomandare alle amministrazioni, laddove non abbiano ancora definito i propri processi di gestione dei dati aperti, di utilizzare un approccio comune, come può essere quello ODMC - Open Data Management Cycle (https://www.odmc.org) ?
Il presente documento in consultazione è un ottimo punto di partenza come Linee Guida, che potrebbe essere integrato (direttamente o appunto con degli allegati esterni) con indicazioni più operative di processo.
La Regione Veneto ha incorporato il Modello ODMC con le “Linee guida per l’ecosistema regionale veneto dei dati aperti (Open Data)” pubblicate dalla Direzione ICT e Agenda Digitale della Regione del Veneto, per aiutare a standardizzare i processi operativi finalizzati alla pubblicazione e gestione dei dati aperti regionali. Anche la Città Metropolitana di Genova, il Comune di Guidonia, e la Città di Reggio Calabria hanno adottato il modello ODMC al fine di standardizzare i processi operativi finalizzati alla gestione dei dataset, disciplinando i processi di rilascio dei propri dati.
Un utilizzo più diffuso potrebbe anche contribuire all’aggiornamento continuo del modello, considerando le sempre nuove questioni tecniche ed operative che si pongono ai gruppi di lavoro Open Data all’interno delle varie amministrazioni.
Oppure, in alternativa, il Gruppo di Lavoro AgID può “incorporare”, nel presente documento, i processi di ODMC che non sono ancora affrontati/dettagliati in modo operativo. E’ possibile anche incorporare una struttura organizzattiva “di base” consigliata per meglio gestire il ciclo di vita dei dataset (ad esempio nella “Raccomandazione 5: dlgs36-2006/opendata/req/organization/wg” che ne descrive l’esigenza).
Entrambe le proposte hanno come obiettivo facilitare l’adozione da parte delle amministrazioni di un modello di gestione in buona parte “out-of-the-box” (in quanto molte attività operative per la gestione del ciclo di vita dei dataset possono essere ricondotte a buone pratiche replicabili) ed evitare che i dataset vengano poi “abbandonati” a causa della mancanza di processi adeguati per il loro aggiornamento/dismissione.
9.1.1
In generale, nella mia esperienza con i dataset, ho imparato a dare importanza ai tipi di dati, inteso come data schemas, e un passo oltre anche alla validazione dei dati, inteso come limiti ai valori che un certo attributo può assumere.
Esistono strumenti, come i json schema, che permettono di definire contemporaneamente entrambi questi aspetti: si può ad esempio indicare che un attributo sia un numero compreso all’interno di un certo intervallo oppure che un altro sia una stringa all’interno di un certo set di valori.
Perciò diffido dei formati che non permettono queste definizioni e sostengo le metodologie che ne sopperiscono le carenze (cfr. Data Quality Guidelines della EU) poiché credo che nel medio e lungo termine semplifichino l’elaborazione dei dati.
In sostanza, tra i più comuni formati di serializzazione dati, indicherei una preferenza per quelli standard, human readable e con la possibilità di IDL-Schema ma penso che nel futuro dovremo tendere verso una nuova generazione di tools e formati che permettano di gestire queste complessità, come ad esempio Apache Arrow.
9.2.2
Un buon modello da seguire, sia per quanto riguarda i formati utilizzati che per le modalità di pubblicazione dei dati, potrebbe essere quello delle Administrative/Statistical Units di GISCO (Eurostat), che pubblica i files in formato csv, pbf, shp, svg geojson e topojson e li rende disponibili sia in download massivo che tramite API.
Purtroppo i dati hanno dei limiti commerciali e non garantiscono invece un buon modello per quanto riguarda le licenze open data.
9.2.4
Tra i formati aperti e leggibili meccanicamente riconosciuti nell’Unione o a livello internazionale rientrano anche quelli open source tipicamente utilizzati in contesti Big Data (specificatamente ORC, Parquet e AVRO)?