Feature request: dataset miliari, certificati, aggiornati, linkati e accessibili via API (lo spunto da IPA e ANPR)

Ciao Andrea
rispondiamo in linea pezzo per pezzo.

Ti ringraziamo molto per questi spunti. In effetti è da tempo che nel contesto DAF, ma non solo, si sta pensando di far emergere i dataset miliari, come li chiami tu, nella marea di dataset disponibili nel nostro Paese. Tra l’altro, la nuova revisione della direttiva PSI dovrebbe porre l’accento su dataset di “high value”; quello che suggerisci diventa quindi ancora più importante. Possiamo dirti che, nel contesto della PDND (o DAF), stiamo pianificando delle attività per arrivare ad avere questo puntatore diretto alla lista di dataset ad alto valore.

Su questo punto vorremmo fin da ora condividere un lavoro che stiamo revisionando e finalizzando. I dataset che menzioni sono già stati da noi “lavorati” nel contesto del DAF.

In particolare, lo scenario è il seguente:

  1. dataset archivio storico comuni di ANPR —> presente nel DAF e disponibile per il download e per l’interrogazione via API attraverso il data portal;

  2. dataset ISTAT elenco comuni—> presente nel DAF e disponibile per il download e per l’interrogazione via API attraverso il data portal

  3. questi due dataset sono stati usati e “uniti” per creare un dataset linked open data dell’archivio storico dei comuni che si aggiunge ai dataset, sempre linked open data e presentati sotto forma di vocabolari controllati, sulle regioni e province italiane. Mentre i dataset sulle regioni e le province sono già stati pubblicati nel repository che tu prima citavi, il dataset sull’archivio storico dei comuni ha bisogno ancora di lavorazione. In ogni caso, riteniamo possa essere interessante condividere il processo che abbiamo messo in piedi finora. Infatti, per questi dataset, attraverso un processo di triplificazione trasformiamo i dati presenti nella piattaforma big data del DAF in Linked Data utilizzando le ontologie di OntoPiA e li pubblichiamo automaticamente nello SPARQL endpoint del DAF stesso, già disponibile online e contenente già tutte le ontologie e i vocabolari controllati di OntoPiA. Terminati gli ultimi lavori è nostra intenzione pubblicare gli script di conversione nonché esempi di query SPARQL.

Di fatto siamo facendo come la “fantastica Wikidata”, solo che abbiamo di fondo anche modelli ontologici specifici per il contesto italiano e fatti in collaborazione con diverse PA titolari dei dati. Le coordinate potrebbero essere ricavate quindi grazie a possibili linking con dataset esterni (tipo genomes). Stiamo valutando se inserire già il linking nei dataset LOD o se lasciare anche allo sviluppo futuro, di chi voglia contribuire alla wikidata della PA italiana, questo passo. Potrebbe essere una cosa molto interessante dal punto di vista delle comunità e delle loro specifiche esigenze.

Condividiamo il tuo punto di vista :slight_smile:

Sì, questo perché, come già discusso in altri post sul forum, si tende a confondere Comune inteso come entità amministrativa con Comune inteso come entità territoriale. I dataset indicati sopra danno la dimensione territoriale

Comprendiamo le varie difficoltà perché le abbiamo incontrate anche noi :slight_smile: e ti ringraziamo di questi dettagli che ci aiutano.

Sempre nell’ambito di lavori nel contesto DAF, abbiamo provato a produrre i linked open data dell’IPA collegandoli al dataset linked menzionato sopra dell’archivio storico dei comuni. L’obiettivo era di creare un primo “zoccolo” di dati di PA, nativamente integrati e di ampio riutilizzo. Anche qui, come nel caso precedente, il dataset LOD dell’IPA necessita di ulteriori lavorazioni che stiamo affrontando: ci siamo scontrati proprio con i problemi che anche tu rilevi sulla qualità.
Sempre come il caso precedente vogliamo mettere a disposizione script di conversione ed esempi di query SPARQL che possano facilitare le interrogazioni, speranzosamente superando i problemi attuali con i web services. In merito c’è anche il lavoro preliminare di Roberto Polli con Open API (che segue anche le ontologie di OntoPiA) che può essere d’aiuto per superare i problemi sui web services.

In merito a questa discussione, c’è però da tenere sempre in considerazione che AgID è responsabile della base di dati di IPA ma la titolarità del dato è di ciascuna Amministrazione che inserisce materialmente i dati. Purtroppo alcuni problemi di qualità del dato derivano proprio da inserimenti non sempre accurati. Puoi quindi comprendere che intervenire sul dato rispetto a quello inserito all’origine è operazione estremamente delicata per tutti.
Stiamo in parte affrontando il problema della qualità (e.g., accenti, date) con alcuni strumenti del DAF; ci vorrà ancora un po’ di tempo.

Per concludere, dei lavori lungo questa linea, come vedi, sono già stati affrontati e altri (es: super-indice) sono parte dei programmi complessivi di sviluppo del DAF. Siamo però anche estremamente consapevoli che bisogna fare un ulteriore passo per offrire un servizio di qualità a tutti. Su questo ci stiamo lavorando e ci piacerebbe uno scambio anche più forte con le comunità, come sta pian piano avvenendo con la rete di ontologie e vocabolario controllati OntoPiA.

Appena abbiamo concluso i collaudi e le revisioni del caso sui dataset sopra menzionati ve ne daremo notizia in questo forum.

Grazie come sempre per gli spunti interessanti
Il Team del DAF
(Simone, Alessandro, Giovanni, Maria Claudia, Alberto e Giorgia)

1 Mi Piace