Il Decreto individua come strumenti per la ricerca dei dati il catalogo nazionale dei dati aperti e, per i dati territoriali, il Repertorio Nazionale dei Dati Territoriali (RNDT) di cui all’art. 59 del CAD, entrambi gestiti da AgID.
Ai sensi dell’articolo 9 del Decreto, il portale nazionale dei dati aperti (dati.gov.it) è l’unico riferimento per la documentazione e la ricerca di tutti i dati aperti della pubblica amministrazione. Esso, in quanto punto di accesso nazionale per i metadati dei dati aperti, è l’unico ad abilitare il colloquio con l’analogo portale ufficiale dei dati europei data.europa.eu.
Attualmente i cataloghi pubblici citati implementano il monitoraggio dei propri dataset e concorrono all’indagine europea Open Data Maturity Report, che misura policy, impact, portal e quality dei dati aperti.
Purtroppo il concetto di qualità qui espresso è ben diverso da quello di qualità dei dati secondo le correnti linee guida (ISO 25012), poiché, basandosi sul DCAT-AP, misura solo la qualità dei metadati e non dei dati.
Sarebbe invece auspicabile poter misurare l’effettiva qualità dei dati almeno per le 4 metriche descritte nel capitolo 5.3.
Perché gli stessi cataloghi non implementano un monitoraggio avanzato della data quality, basato su metriche e algoritmi automatici che sfruttano i metadati, le misure di data quality e gli eventuali data-schema dei dataset federati?
Mi rendo conto sia complesso, ma credo sia uno scenario tecnicamente percorribile!
In secondo luogo, si rappresenta come sia importante menzionare il principio che sta alla base dell’apertura (in termini di condivisione e riuso) dei dati della ricerca, indicato dalla formula “as open as possibile, as closed as necessary” (nella traduzione italiana del testo della direttiva diventa “il più aperto possibile, chiuso il tanto necessario”); la rilevanza di tale inserimento, secondo noi, si basa su due ragioni: (i) è il principio adottato a livello europeo e ribadito in ogni iniziativa e documento EU (soft e hard law - in primis, art. 10 dir. 1024/2019), quindi è un modo per adeguarsi all’orientamento europeo e prevalente tra gli Stati Membri; (ii) è una formula che efficacemente fornisce un’indicazione ai ricercatori in merito all’operazione di bilanciamento che sono chiamati a porre in essere nel definire le condizioni di accessibilità dei propri dati. (contributo a cura di Mauro Alovisio e Ludovica Paseri)
In aggiunta a quanto scritto da mauromelis sopra, ritengo che un’utile indicazione concreta per aiutare a migliorare la qualità dei dati sia di verificare che siano leggibili e interpretabili con un software libero: altrimenti, non sono in un formato aperto e non sono dati aperti.
Può sembrare superfluo, dato che lo dice già la definizione di dati aperti, ma non lo è. Spesso si vedono documenti CSV scritti secondo specifiche esoteriche, o addirittura formati proprietari non standard quali XLS o XLSX non meglio specificato. Inoltre, anche un CSV in formato corretto non è effettivamente leggibile se le colonne contengono dati alla rinfusa. Aprire il foglio di calcolo in LibreOffice, visidata o simile, per poi effettuare anche la piú semplice delle operazioni (come la creazione di una tabella pivot), può aiutare a identificare i casi piú ovvi di dati malformati.