LOD istat

ecow · 18 Maggio 2018, 9:51am

Salve,
ho da poco scoperto il vostro sito. Complimenti.

C’e’ qualche relazione tra questo progetto e http://datiopen.istat.it/ ?
Lo sparql end point e la navigazione sarebbe davvero prezioso sia per avere URL canonici sia per una navigazione tra i dati del censimento.

Purtroppo l’end-point e il servizio di navigazione è quasi sempre non funzionante, ho provato a segnalarlo più volte, anche aprendo un modulo di malfunzionamento ma non ho mai avuto nessuna risposta. Penso siano stati spesi non pochi soldi sia per farlo che per tenerlo pubblicato, ma di fatto rimane impossibile usarlo.

In generale volevo sapere come gestite la duplicazione dei dati con Istat, ad esempio con che processo aggiornate il vocabolario controllato territorial-classifications con https://www.istat.it/it/archivio/6789 ?

La stessa domanda rispetto all’ indice pa rispetto a http://spcdata.digitpa.gov.it (apparentemente fermo al 2015).

Sono un po’ confuso perchè i portali che pubblicano open data sono molti, spesso non aggiornati e quasi mai in formato RDF

Potreste aiutarmi a capire quali sono le sorgenti che posso considerare come autoritative?

Grazie in anticipo

Enrico

giorgialodi · 7 Giugno 2018, 4:04pm

Ciao Enrico,

quale sito nello specifico hai scoperto? Se per caso ti riferisci al DAF e all’elenco di vocabolari controllati e ontologie sì, ci sono relazioni con alcuni dati di ISTAT, con la quale collaboriamo.
In particolare territorial-classifications attualmente presente su github italia è in fase di revisione. Stiamo pianificando di agire come segue:

i CSV provengono dal sito di ISTAT come anche tu hai indicato.
i linked data li stiamo producendo nell’ambito DAF a partire dai CSV ISTAT e dalla tabella dei comuni dell’ANPR (Anagrafe Nazionale Popolazione Residente) che contiene tutto l’archivio storico. L’idea è di creare un unico dataset linked data con Regioni, Province e storico dei Comuni e di creare poi delle viste di questo dataset con solo i dati sulle Regioni (già ora disponibile qui https://github.com/italia/daf-ontologie-vocabolari-controllati/tree/master/VocabolariControllati/territorial-classifications/regions). delle Province e l’archivio storico dei Comuni d’Italia. Su questi ultimi due stiamo lavorando ancora perché stiamo cercando di rendere semi-automatico, nel DAF, il processo di creazione dei linked data sulla base di standard W3C quali R2RML, attribuendo in maniera sensata anche URI persistenti e parlanti.
SPCData (per la parte dati IPA in LOD) purtroppo è fermo dal 2015 ma fortunatamente lo vogliamo riprendere nell’ambito DAF dove già conferiamo i dati aperti di IPA di livello 3 (CSV). L’idea è quella di applicare il processo semi-automatico di produzione dei LOD del DAF anche a questi dati, collegandoli poi con quelli precedenti sui comuni d’Italia e con altri. Ci stiamo proprio lavorando in queste settimane.

I portali autoritativi sono sicuramente IPA per l’anagrafe delle pubbliche amministrazioni, i dati di ISTAT e ANPR per l’archivio storico dei comuni.

Infine per i problemi sui LOD di ISTAT, glielo segnaliamo. Grazie mille!

Ciao,
Giorgia Lodi (collaboratrice AgID)

ecow · 9 Giugno 2018, 9:08am

Grazie,
vi auguro buon lavoro.
Per trasformare il vostro lavoro in un driver economico per il Paese, ritengo molto importante, per priorità, avere delle ontologie di riferimento, dati a livello 5 consistenti, puliti e con criteri di provenienza, affidabilità e aggiornamento chiari e un allineamento il più possibile veloce rispetto ai db autoritativi. Vi segnalo, anche se sicuramente già lo conoscete, il progetto http://lodlaundromat.org/ che purtroppo sembra non essere più manutenuto ma che è straordinariamente ben fatto e potrebbe essere riutilizzato come data lake per la pubblicazione dei dati a livello 5. Github temo non sia adeguato se i dataset sono grossi.
Alcuni anni fa abbiamo iniziato il progetto opensource https://github.com/linkeddatacenter/BOTK-core che ci serve come base in alcune applicazioni che stiamo seguendo. L’idea è di semplificare il più possibile la annotazione dei dati per renderla utilizzabile dal business pur mantenendo un minimo livello di consistenza semantica . Come base abbiamo utilizzato schema.org , il nostro progetto è di farla evolvere utilizzando come base le ontologie che sviluppate nel DAF appena siano sufficientemente complete e consolidate.

Grazie per la segnalazione che farete a ISTAT, sperando che sortisca qualche effetto. L’Italia è piena di risorse buone ma non manutenute e quindi sostanzialmente inutili. Quello di http://datiopen.istat.it/ mi sembra un ottimo esempio.