Da Open Data a Linked Open Data

Cristiano · 21 Settembre 2017, 10:21am

Secondo le linee guida di AGId i dati aperti devono diventare linked open data, questo significa far passare i dati da un livello di classificazione 3 a un livello di classificazione 4/5.
Il problema nasce quando bisogna descrivere un dataset con una ontologia universalmente riconosciuta. Ad esempio se volessi trasformare in rdf un dataset csv contenente l’elenco dei parchi in una città quale tipo di ontologia e vocabolario dovrei utilizzare?

giorgialodi · 16 Ottobre 2017, 6:49am

Predisporre ontologie per tutte le tipologie di dati esistenti è lavoro complesso e lungo. L’AgID e il Team Digitale hanno iniziato partendo dai dati core, ovvero indipendenti dal dominio. Le ontologie ad oggi disponibili e organizzate tra loro in rete (abbiamo chiamato la rete OntoPA) si trovano qui: https://github.com/italia/daf-ontologie-vocabolari-controllati
Nel caso non esista a livello nazionale l’ontologia di riferimento per una specifica tipologia di dati, si suggerisce di fare riferimento a ontologie esistenti allo stato dell’arte sull’argomento e in particolare a ontology design pattern http://ontologydesignpatterns.org/wiki/Community:ListPatterns che sono il verso tassello nell’ottica di garantire interoperabilità semantica.
Monitora quel repository su github perché ne rilasceremo altre nei prossimi mesi e anzi sei il benvenuto nella comunità per far crescere e per migliorare OntoPA!

Ciao,
Giorgia (collaboratrice AgID)

stefania71 · 23 Novembre 2017, 9:50pm

Esiste un elenco di pubbliche amministrazioni che già hanno un open data 5 stelle? (istat, inail,…). Grazie ciao Stefania

Michele_Petito · 26 Novembre 2017, 10:46am

Ciao Giorgia e buona domenica. Al fine di migliorare OntoPA avrei bisogno di un po’ di chiarimenti:

In che modo una PA può contribuire al miglioramento di OntoPA?
Potresti descrivere con quali processi state trasformando gli open data in linked opend data? Sarebbe bello che tutto questo fosse documentato e ben visibile da qualche parte, ciò attirerebbe l’interesse di tecnici, studenti, ricercatori o semplici cittadini appassionati di tecnologie.
Supponiamo che una PA abbia intenzione di pubblicare open data. Non mi pare che ad oggi esista una guida pratica che guidi passo passo la PA alla pubblicazione di dati di qualità (5 stelle). Secondo me sarebbe utile pubblicare su dati.gov.it una guida di riferimento, che permetta a qualsiasi PA di:
- capire, grazie a un linguaggio semplice comprensibile anche ai comuni mortali, concetti come ontologie, vocabori, rdf, owl ecc, ovvero l’ABC del web semantico.
- produrre open data a 5 stelle, a partire da un semplice csv estratto da un qualsiasi database
- pubblicare gli open data, sia sul proprio sito che su dati.gov.it
- le modalità per automatizzare il processo di trasformazione [database della PA] --> [open data 5*] e pubblicazione al mondo.

Ciao,
Michele

Cristiano · 5 Dicembre 2017, 12:40pm

Ciao Michele, anche tu stai trasformando open data in linked open data??

giorgialodi · 13 Dicembre 2017, 10:21pm

Ciao Stefania, No non esiste un elenco ufficiale di Pubbliche Amministrazioni che pubblicano linked open data. E’ possibile in parte ricavare tale informazione per esempio consultando il catalogo nazionale dati.gov.it filtrando per amministrazioni e formati dei dataset. Sicuramente sono meritevoli di menzione nell’ambito linked open data, oltre a quelle già menzionate, anche le iniziative di: MIBACT (http://dati.beniculturali.it), ISPRA (http://dati.isprambiente.it/), Camera (http://dati.camera.it/it/), Senato (http://dati.senato.it/sito/home), CNR (http://data.cnr.it/site/), MIUR (http://dati.istruzione.it/opendata/) e di alcune regioni come nel caso dell’Umbria (http://dati.umbria.it/lodview/metadata/catalogo.html).
Ciao,
Giorgia (collaboratrice AgID)

giorgialodi · 13 Dicembre 2017, 10:24pm

Ciao Michele,
Il nome della rete di ontologie è stato leggermente variato in OntoPiA

Le PA possono contribuire proponendo nuove ontologie che si potrebbero aggiungere e collegare alle altre nella rete (esempio, l’ISTAT ha elaborato alcune ontologie e insieme a ISTAT lavoreremo per collegarle a quelle esistenti in OntoPiA). Scriveremo delle regole per far parte della rete e, lavorando con le PA, possiamo arricchire OntoPiA.
hai ragione sul fatto che dobbiamo documentarlo. Abbiamo definito un processo che sarà anche parte del DAF. Abbiamo deciso una politica di gestione di URI che possa garantirne la loro persistenza attraverso il servizio del W3C w3id.org. Stiamo perfezionando il tutto e sicuramente pubblicheremo il processo e saremo aperti a commenti, richieste e feedback di ogni genere
In realtà esistono delle linee guida redatte da AgID un po’ di anni fa. Sebbene siano risalenti al 2012, e quindi in certe loro parti sono un po’ obsolete, la metodologia per la produzione di Linked Open Data proposta in quelle linee guida direi che è ancora valida Trovi le linee guida al seguente indirizzo: http://www.agid.gov.it/sites/default/files/documentazione_trasparenza/cdc-spc-gdl6-interoperabilitasemopendata_v2.0_0.pdf
Rispetto al resto che proponi volevo informarti che sicuramente pubblicheremo una documentazione più estesa (pensavamo al wiki di github per il repository sulle ontologie) dove spieghiamo tutto il lavoro tecnico, il razionale delle ontologie e da quali dati siamo partiti per la loro definizione, i loro allineamenti verso ontologie esterne del web semantico e così via. Per ogni ontologia pubblicheremo anche un diagramma UML che spiega visivamente le relazione tra i vari concetti. In alcuni casi già ci sono i relativi diagrammi, ma devono essere aggiornati. Ti ringrazio per il commento: sarà uno spunto per arricchire e documentare meglio il lavoro che stiamo facendo in merito.
Ciao,
Giorgia (collaboratrice AgID)

Michele_Petito · 16 Dicembre 2017, 5:30pm

Ciao Cristiano. Diciamo che sto studiano l’argomento per una tesi.

Michele_Petito · 16 Dicembre 2017, 8:00pm

Ciao Giorgia, ti ringrazio molto per i chiarimenti! Per il punto 1 e 2, aspetto quindi la pubblicazione della documentazione

In effetti il documento che hai citato lo avevo scaricato già qualche mese fa, ma non gli avevo dato l’importanza che meritava, proprio perchè essendo del 2012 lo ritenevo “vecchio”. Giustamente, come dici tu, dentro è descritto il processo di creazione dei LOD. La nuova documentazione, che includerà il processo in DAF, sarà sicuramente migliore, soprattutto perchè, come hai anticipato, sarà aperta alla consultazione pubblica. Quando prevedete di pubblicarla?

Mi sembra un’ottima idea quella di documentare tutto con github, così come avete fatto per tutto il resto, a partire dal Piano Triennale. Questi strumenti sono a mio parere molto utili perchè permettono alla collettività di poter contribuire e soprattutto ricevere gli aggiornamenti “in tempo reale” sulla documentazione di riferimento. A tal proposito suggerirei di pubblicare una piccola guida che spieghi anche ai non addetti ai lavori, come contribuire alla documentazione, per esempio facendo vedere il processo di pull request su github, magari anche con degli esempi reali.

Ottimo, non vedo l’ora di leggerla! Sarà preziosissima per tutta la PA.

vitsca · 18 Dicembre 2017, 6:43pm

Salve… dando una occhiata agli endpoint elencati, ho notato che quasi tutti (tranne MIUR e Umbria) sembrano NON CORS-enabled (cioè:
ISPRA (http://dati.isprambiente.it/),
Camera (http://dati.camera.it/it/),
Senato (http://dati.senato.it/sito/home),
CNR (http://data.cnr.it/site/),
MIUR (http://dati.istruzione.it/opendata/) )

Questo ne limita l’utilizzo da parte di terze parti ed, in particolare, le nostre applicazioni di costruzione guidata user-friendly di visualizzazioni a partire da OD e LOD (appena sviluppata ed in fase di testing per SPOD) hanno trovato davvero pochi SPARQL endpoint che siano accessibili. Risponde ad una politica precisa? Oppure no? e in che maniera si può magari incidere per poter far cambiare la situazione (o il default?) …

grazie

Vittorio Scarano

giorgialodi · 7 Giugno 2018, 3:38pm

Ciao Vittorio,
il tuo messaggio mi era sfuggito. Chiedo scusa. No non risponde a una politica precisa. Come incidere? Si potrebbe pensare di includere una raccomandazione all’interno delle linee guida per la valorizzazione del patrimonio informativo pubblico, quando si parla di pubblicazione di dati di livello 4 e 5 e di SPARQL endpoint.

Ciao,
Giorgia Lodi (collaboratrice AgID)

vitsca · 7 Giugno 2018, 4:33pm

Ciao Giorgia… grazie della risposta… certo una raccomandazione sarebbe utile, ma sottolineo che CORS-enabled permette il trattamento machine-to-machine anche per il livello 3… che è quello che facciamo noi con SPOD…
La sensazione, spesso, è che CORS non sia enabled non per una scelta ma per una semplice istallazione di default (CKAN, etc.) … portare all’attenzione che invece, è una scelta premiante per far riutilizzare al meglio i dati, nelle raccomandazioni sarebbe utile…
ciao

ecow · 9 Giugno 2018, 9:57am

Ciao Vittorio, +1 su CORS.

In LinkedData.Center abbiamo optato per costruire dei proxy SPARQL cors enabled, peraltro utili per scaricare gli SPARQL endpoint autoritativi. Purtroppo questa soluzione non piace a tutti perchè rende più difficile tracciare le visite degli utenti da parte dei manutentori dei dataset. In compenso è utile per fornire una cache in grado di backuppare, almeno nei casi più comuni, il malfunzionamento intermittente di molto sparql point/portali (es. ISTAT), fenomeno purtroppo tutt’altro che infrequente. Di fatto, se serve un accesso ai dati open da parte di una applicazione che deve garantire un minimo di affidabilità, è quasi sempre necessario gestire una replica controllata dei dati su una struttura di cui si conosce l’affidabilità.
Ai nostri tempi, le macchine sono i principali utenti dei portali di dati. Però i gestori non sembrano accorgersene e buttano via molte opportunità di ingaggio. Su alcuni portali ho addirittura trovato un captcha per proteggere il download di open data!! Questi eccessi andrebbero proprio vietati, di fatto sono una discriminazione dell’utenza.

Simone_Gasperoni · 6 Agosto 2018, 12:49pm

Salve, mi chiedevo se i dati del DAF saranno accessibili via SPARQL tramite uno o più endpoint. Inoltre sarei interessato a sapere quali sono le prospettive di riutilizzo dei dati in relazione ai vocabolari https://github.com/italia/daf-ontologie-vocabolari-controllati nella fattispecie a quali dataset saranno applicati questi metadati (ad esempio i tesauri legal-status e gender)?

Grazie
Simone

giorgialodi · 28 Agosto 2018, 2:07pm

Ciao Simone,

Alcuni dati che sono confluiti nel DAF saranno anche disponibili sotto forma di Linked Open Data via SPARQL endpoint.

E’ nostra intenzione infatti procedere in questo modo:

nell’attuale SPARQL endpoint [1] si trovano già dei dataset che sono i vocabolari controllati
vorremmo pubblicare alcuni dataset LOD quali per esempio: archivio storico dei comuni, Indice della Pubblica Amministrazione, e altri delle basi dati chiave, collegandoli tra loro. Ci stiamo concentrando al momento per mettere in piedi un processo di produzione sostenibile basato su standard del web semantico (e.g., R2RML)
vorremmo pubblicare i metadati CKAN del DAF degli oltre 22.000 dataset presenti che sono tutti disponibili, ora come ora, secondo lo standard RDF (i.e., https://ckan-geo.daf.teamdigitale.it/catalog.rdf)

Invece in merito a quali dataset si applicheranno i vocabolari e le ontologie. Negli esempi riportati sopra (punto 2) si possono già identificare le ontologie di riferimento (Location, Organization, ecc.). Legal-status per esempio è utilizzato nell’ambito dell’indice della pubblica amministrazione e nei dati anagrafici delle imprese (ANAC ha alcuni dati in merito). Nel caso del vocabolario controllato gender, allo stato attuale non abbiamo dataset aperti in cui viene usato ma molte delle statistiche utilizzano quel tipo di dato. In merito a quest’ultimo punto, l’ontologia delle persone alla quale quel vocabolario è collegato sarà usata da ISTAT per la definizioni di alcuni suoi registri interni.

Spero questo aiuti.
Ciao,
Giorgia
(collaboratrice AgID)
[1] https://ontopia.daf.teamdigitale.it/sparql