[LG_Open-Data] 5.3 Qualità dei dati

Il miglioramento della qualità dei dati e la maggiore diffusione delle tecniche di misurazione dipendono da vari fattori tra cui l’adesione a modelli di qualità condivisi.
Per determinare la bontà dei dati è necessario definire delle misure attraverso le quali quantificare la qualità dei dati. Lo standard ISO/IEC 25012:2008, divenuto norma italiana UNI ISO/IEC 25012:2014, definisce un insieme di caratteristiche specifiche per la caratterizzazione della qualità dei dati: accuratezza, aggiornamento, completezza, consistenza, credibilità, accessibilità, comprensibilità, conformità, efficienza, precisione, riservatezza, tracciabilità, disponibilità, portabilità e ripristinabilità.

Continua a leggere su Docs Italia.

Si potrebbe collegare qui, che la qualita’ dei dati e’ riflessa nei metadati ( hash, licenza, fréquenta)

Per esattezza e completezza la norma italiana è UNI CEI ISO/IEC 25012:2014

Può essere utile considerare che le 15 caratteristiche di qualità sono suddivise in INERENTI: accuratezza, aggiornamento (attualità), completezza, consistenza (coerenza), credibilità

INERENTI e DIPENDENTI DAL SISTEMA: accessibilità, comprensibilità, conformità, efficienza, precisione, riservatezza, tracciabilità

DIPENDENTI DAL SISTEMA: disponibilità, portabilità e ripristinabilità

Forse sottolineerei che nell’accuratezza è inclusa quella sintattica ma anche semantica.
Che la coerenza tra i sistemi apre le porte alla interoperabilità dei sistemi
Che l’accessibilità dei dati è un obbligo delle legge 4/2004 e relative Linee guida AgID
Che la Riservatezza include il GDPR
Che la disponibilità include il Disaster recovery
Che la Ripristinabilità include il Backup

Per esperienza personale, l’apertura dei dati segue una dinamica “a ondate” e viene vissuto più come un momento una tantum che come un ciclo continuo. Spesso un ente pubblica i propri dati ad un certo momento nel tempo, in genere seguendo molto bene le linee guida e gli standard, ma poi fa molto poco per manutenere tali dati nel futuro.
Perciò mi chiedevo se esiste un incentivo ad essere tempestivi nella pubblicazione e a mantenere aggiornati i dati nel tempo? O almeno si è prevista una valutazione automatica del grado di attualità dei cataloghi open data nazionali?
Un dato poco aggiornato, sebbene di alta qualità, imposta un ciclo vizioso in cui non viene riutilizzato e perde di interesse fino all’abbandono. Un dato aggiornato, viceversa, crea un circolo virtuoso in cui aumentano le richieste di riutilizzo e la credibilità dell’ente, il dato viene migliorato e aggiornato e porta valore alla società.

Come da prassi allo stato dell’arte derivata dagli standard ISO citati, per una corretta determinazione della qualità del dato è utile non solo definire le misure puntuali, ma anche contestualmente stabilire un metodo di peso e aggregazione di quelle singole misure, così da ottenere uno o più indici complessivi, dei levels o scores di data quality.
Potrebbe essere utile citare questo concetto?

Ricordo che vi è l’indirizzo da parte della stessa AgID ad utilizzare gli standard citati per monitorare e migliorare la qualità delle basi dati di interesse nazionale, ed esiste il concetto di certificazione di qualità del dato, raggiunta ad esempio dal Registro Imprese di InfoCamere nel 2020.
Varrebbe la pena citare questi esempi?