Normattiva open data

Mi chiedo, il dataset di normattiva.it rientra nello scopo dell’open data ? Dovrebbe comparire in dati.gov.it ? Mi scuso in anticipo se il mio argomento fosse off-topic

Ciao,
sì, i dati di normattiva.it sono dati pubblici e liberamente accessibili. Allo stato attuale, tuttavia, i dati presenti sul sito non sono ancora pienamente conformi ai principi dell’open data (manca il bulk download). Il Team Digitale e IPZS stanno lavorando a una serie di nuovi servizi, tra cui quello di cui download massivo, che, attraverso il Data & Analytics Framework (DAF), permetterà l’adozione degli standard necessari e conseguente loro pubblicazione sul portale nazionale dei dati “dati.gov.it".

A presto e grazie per averci scritto.
Raffaele Lillo
Team Digitale

1 Mi Piace

Grazie per la risposta ! Mi sono documentato sul DAF, un’iniziativa molto interessante e complessa.

Tuttavia questo DAF sembra indicato per dati numerici invece per normattiva stiamo parlando di un dataset testuale con almeno due peculiarità:

  1. l’uso intensivo di link (“visto l’articolo … della legge …”)
  2. e di una forma rudimentale di diff (“l’articolo … è così riformulato: …”); quest’ultimo aspetto è stato toccato da questa interessante sperimentazione.

Mi chiedo se viste queste peculiarità e l’elevatissimo valore per i cittadini (una maggiore visibilità e leggibilità delle leggi) questo sottoprogetto non potrebbe essere messo su una track separata, in modo da non ripendere dalle tempistiche del DAF che io ignoro.

Un messaggio è stato spostato in un nuovo argomento: Fusione mailing-list dati e opendata

Ciao,

Ti rispondo sui tuoi punti:

  1. Il DAF ha una componente di datalake che gestisce qualunque tipologia di dato, anche testuale. E’ stato identificato perche’ le tecnologie utilizzate sono indicate per gestire bulk download dei documenti.
  2. L’utilizzo di link ad altri documenti e’ in variante rispetto alla tecnologia utilizzata per lo scarico dei dati in formato open, perche’ gestito dalla marcatura xml
  3. La possibilita’ di scaricare documenti singoli e precisamente identificati da un uri non e’ influenzata dal DAF ed e’ supportata dal portale normattiva.

Ciao,
Raffaele
Team Digitale

Ciao e grazie delle informazioni. Belle iniziative !

Peccato che i dati presenti su normattiva non siano conformi ai principi dell’open data non solo perché manca il bulk download, ma anche perché la possibilità di identificare (uri “collegamento permanente” come http://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:decreto.legge:2012-10-18;179!vig=) e scaricare documenti singoli non è OK.

Ecco i problemi delle uri di normattiva:

  1. sono stateful (dipendono da un cookie di sessione); chi usasse un user agent che non supporta i cookie per navigare i link tra i documenti, o chi semplicemente disattiva i cookies durante la navigazione non può usare questi “permalink”, riceve l’errore “Attenzione: la sessione di ricerca è scaduta e per questo motivo sei stato riportato alla pagina iniziale
  2. il protocollo è sbagliato: per dati di alto valore come questi dovrebbe essere https e non http
  3. per scaricare il documento (pulsante “esporta” nella toolbar in alto) mi richiede di risolvere un puzzle tipo captcha; che senso ha inserire un captcha per impedire il download di un singolo documento quando state lavorando al bulk download ?
  4. c’è un disclaimer che dice “I testi presenti nella banca dati Normattiva non hanno carattere di ufficialità.” questo di fatto rende del tutto inutile l’intero esercizio: se i dati non sono “autorevoli” a cosa servono ?

Normattiva è un “portale” ricchissimo di funzioni di navigazione, ricerca, riferimenti normativi, esportazione selettiva e multiformato ecc. ma per l’open data non arriva neanche a 4 stelline.
Basterebbe che il data owner mettesse fuori i dati grezzi ma autorevoli, strutturati, in formato open, identificati da url stateful e quindi linkabili.

Grazie per le ulteriori segnalazioni riportate. Nel seguito le risposte ai vari punti:

  • sono stateful (dipendono da un cookie di sessione); chi usasse un user agent che non supporta i cookie per navigare i link tra i documenti, o chi semplicemente disattiva i cookies durante la navigazione non può usare questi “permalink”, riceve l’errore “Attenzione: la sessione di ricerca è scaduta e per questo motivo sei stato riportato alla pagina iniziale”

Le URI di Normattiva hanno una componente URN che, per la versione attuale del sito, richiedono un parsing basato su informazioni contenute all’interno dei cookies di sessione. Ciò è dichiarato nella “Cookie policy” del sito. È in corso di finalizzazione la nuova versione del portale con layout rinnovato che offrirà, tra le altre cose, la possibilità di rendere stateless la generazione di tali indirizzi.

  • il protocollo è sbagliato: per dati di alto valore come questi dovrebbe essere https e non http

Il protocollo HTTPS è richiesto laddove il sito richieda il trasferimento di dati sensibili relativi all’utente che apre la sessione (password, numeri di carte di credito, informazioni personali ecc.). Normattiva è un portale espositivo che non necessita di tale gestione. La sicurezza del sito è garantita dagli apparati di sicurezza dell’infrastruttura hardware/network che lo ospita.

  • per scaricare il documento (pulsante “esporta” nella toolbar in alto) mi richiede di risolvere un puzzle tipo captcha; che senso ha inserire un captcha per impedire il download di un singolo documento quando state lavorando al bulk download ?

A corredo di quanto specificato nel post precedente, nella versione attuale del sito i captcha sono stati inseriti per evitare che download massivi possano inficiare sui livelli di servizio che Normattiva è chiamato ad offrire, anche sulla base di obblighi di tipo contrattuale verso il Governo. Siamo appunto al lavoro per ideare un meccanismo di bulk download che operi nel rispetto di tali requisiti.

  • c’è un disclaimer che dice “I testi presenti nella banca dati Normattiva non hanno carattere di ufficialità.” questo di fatto rende del tutto inutile l’intero esercizio: se i dati non sono “autorevoli” a cosa servono ?

Il disclaimer nella sua interezza dice così:

I testi presenti nella banca dati “Normattiva” non hanno carattere di ufficialità.
L’unico testo ufficiale e definitivo è quello pubblicato sulla Gazzetta Ufficiale Italiana a mezzo stampa , che prevale in casi di discordanza. La riproduzione dei testi forniti nel formato elettronico è consentita purchè venga menzionata la fonte, il carattere non autentico e gratuito. I Testi sono disponibili agli utenti al solo scopo informativo. La raccolta, per quanto vasta, è frutto di una selezione redazionale. La Presidenza del Consiglio dei Ministri e l’Istituto Poligrafico e Zecca dello Stato S.p.A., non sono responsabili di eventuali errori o imprecisioni, nonchè di danni conseguenti ad azioni o determinazioni assunte in base alla consultazione del portale.

Esso è inserito per un’unica ragione: l’unico testo di ciascun atto che ha valore legale è quello originale contenuto nella versione cartacea della GU di riferimento. Questo non inficia sul valore offerto dal servizio “Normattiva”: in caso di contestazioni od errori, si può far sempre riferimento al testo di un atto contenuto nella versione cartacea della GU di riferimento.

Grazie molte per la risposta circostanziata e ufficiale ! In attesa dei permalink nuovi (con la nuova versione del portale) e del bulk dowload (col DAF), restano aperti solo i punti su disclaimer e https, che sono tra loro legati.

Partendo dall’originale cartaceo di un certo atto, firmato per esempio dal guardasigilli, la sua riproduzione con garanzia di autenticità in migliaia di esemplari della Gazzetta Ufficiale Italiana è un operazione non banale, che l’Istituto Poligrafico e Zecca dello Stato svolge da decenni in modo egregio.
Non entro nei dettagli organizzativi, ma evidentemente è possibile applicare un analogo processo di elaborazione alla versione digitale, in modo da ottenere la stessa garanzia di autenticità su un file XML. Ritengo che introdurre questo nuovo processo in IPZS sarebbe conforme con l’indirizzi dell’agenza digitale.

Ora, il protocollo https offre tre garanzie:

  1. confidentiality
  2. server-side authentication
  3. integrity

Concordo con:

qui però si considera solo la prima garanzia.

In realtà il protocollo https può risolvere il problema della distribuzione del file XML di cui sopra, garantendone la fonte (server-side authentication) e la conformità con l’originale (integrity).

Il file XML ottenuto da https://normattiva.it sarebbe quindi conforme al testo ufficiale e definitivo pubblicato sulla Gazzetta Ufficiale Italiana a mezzo stampa, e disponibile come PDF firmato digitalmente su http://www.gazzettaufficiale.it.

Questo è precisamente il servizio che richiedono gli utenti.

Buon lavoro !

1 Mi Piace

Mi riaggancio al discorso dell’XML utilizzato in fase di esportazione di documenti dal sito di Normattiva.
Possibile che l’XML generato in fase di esportazione sia così povero? (Mi auguro non lo sia lo stesso usato in fase di archiviazione)

Esempi

  • articolo 1 e 1 bis hanno stesso id=“1” e così via;
  • urn non indicata;
  • indentificazioni delle parti dell’articolato sempre con id numerici senza utilizzare i suggerimenti definiti dalle specifiche del nir che consigliavano l’uso di sigle più il numero della parte;
  • rubcrica degli articoli inseriti all’interno del primo comma e non all’interno dello specifico tag rubrica.

Posso naturalmente continuare per molti tipi di “errori”

1 Mi Piace

@lilloraffa @IPZS-CIE c’è un documento che descrive come sarà il nuovo “normattiva”?

C’è una data prevista di rilascio?

Ce ne è una versione beta che si può testare e su cui volete raccogliere feedback?

Grazie

6 Mi Piace

Buona sera a tutti.

Comincio con un plauso al progetto, è un buon inizio per permettere a un numero sempre crescente di persone di conoscere le leggi che, almeno teoricamente, tutti dovremmo rispettare.

A tal fine, se mi è concesso, avrei qualche osservazione/richiesta di chiarimento in merito al sistema:

  1. Formato dei dati
    I vari atti sono rappresentati(abili) in XML secondo alcuni DTD. Pur prestandosi bene a rappresentare le varie relazioni gerarchiche tra dati/metadati, il formato XML è piuttosto “pesante” da gestire, tanto che da diverso tempo il formato JSON si sta affermando sempre di più come standard per lo scambio dei dati grazie alla sua compattezza e semplicità, tanto che ormai in tutti i linguaggi di programmazione esistono librerie che permettono di importare/esportare dati in JSON senza alcuno sforzo.
    Oltre a questo, ho notato che negli atti in XML sono presenti anche informazioni sulla formattazione/stile, le quali appesantiscono ulteriormente il documento e che dovrebbero essere separate dai dati veri e propri, come si fa con HTML e CSS.

  2. Ricerca ed esportazione degli atti
    Da quel che ho potuto vedere, al momento l’unico modo di reperire gli atti è manualmente attraverso il portale, mentre sarebbe opportuno sviluppare delle API REST indipendenti dal front-end grafico e che permettano agli utenti e alle applicazioni verificate di accedere direttamente agli atti senza dover inserire captcha ed esportare atto per atto singolarmente.
    A tal proposito esiste una pletora di meccanismi di autenticazione/autorizzazione sia per i singoli utenti sia per le applicazioni in loro vece (es. Oauth2) .

  3. Riferimenti, revisioni e aggiornamenti degli atti
    Navigando nel portale, ho notato che non è facile ed è poco chiaro, dato un atto, reperire e accedere a tutte le sue revisioni, e provando a esportare degli atti specificando la data di vigenza minima, mi è capitato di non ottenere gli articoli pur essendo vigenti da quella data.
    Allo stesso modo, non è facile seguire i riferimenti ad altri atti, né le varie revisioni dell’atto nel tempo.
    Sarebbe utile visualizzare un grafo (sperabilmente aciclico, meglio un albero) dei riferimenti che rappresenti le relazioni di dipendenza di un atto dagli altri atti, in modo da potere avere un quadro completo su tutti gli atti da consultare per comprendere appieno un dato provvedimento.

  4. "Apertura limitata" degli open data
    Agganciandomi a quanto detto da altri utenti, in effetti i dati, pur essendo resi disponibili a titolo gratuito, sono ancora molto vincolati dal portare e dalle sue modalità di visualizzazione.
    Riprendendo quanto detto al punto 2), affinché i dati siano veramente “aperti” dovrebbero essere meno “raffinati” rispetto a quanto lo sono ora e reperibili, pur in maniera controllata, tramite API indipendenti dal linguaggio di programmazione in modo che i vari sviluppatori possano generarne un alto valore tramite le loro applicazioni.

Gli strumenti esistono e l’Italia è ricca di competenze in questo campo. Confido che in poco tempo i dati saranno resi completamente “open” e al contempo nascano nuove applicazioni in grado di sfruttarne appieno le potenzialità.

Grazie ancora per l’attenzione, e buon lavoro.

Ciao Fabio,

Al meglio delle nostre conoscenze, non ci risultano standard JSON per la gestione dei dati giuridici purtroppo (concordiamo sull’opportunità di usare JSON vs XML). Quando i dati in bulk saranno conferiti nel DAF, potremmo pensare di prevedere un API che restituisca JSON. Il formato sta evolvendo, a breve verrà messa in consultazione pubblica una circolare AGID con un nuovo standard.

È parte del progetto LexDatafication (https://teamdigitale.governo.it/it/projects/lexdatafication.htm). e questo dovrebbe rispondere anche al punto 4. che riportavi.

Ciao,
Giorgia Lodi (collaboratrice AgID)

2 Mi Piace

Gentilissimi,
aggiornamenti?

4 Mi Piace

@lilloraffa @giorgialodi @IPZS-CIE , ci sono novità con riguardo il progetto LexDatification e/o alla possibilità di accedere alle leggi di normattiva in un formato dati strutturato tramite bulk download, API?

Grazie,
Michele

1 Mi Piace

Sarebbe davvero interessante. Anche perché manca poco: il risolutore degli url è ben strutturato e funzionante.

Ma a mio avviso il problema maggiore è dato dalla formattazione delle leggi in testo preformattato, che penso si erediti già dalla Gazzetta Ufficiale. Anche qui il parsing è abbastanza semplice, dal momento che i commi iniziano in modo coerente. Anche le tabelle hanno una loro logica. Questo almeno per le leggi più recenti. Bisogna vedere l’implementazione per il passato…

In ogni caso, restiamo in fiduciosa attesa!!

@Monica_Palmirani chiedo anche a lei in quanto penso fosse coinvolto anche il CIRSFID. Nel caso il progetto sia stato deprecato sarebbe utile saperlo così ci attrezziamo per fare lo scraping di Normattiva :wink:

Grazie,
Michele

Gentilissimi,
Ci sono aggiornamenti in relazione allo sviluppo di API per consultare leggi e normative in modo programmatico? Inoltre, per quanto riguarda il bulk download, che progressi sono stati fatti?
Grazie
@lilloraffa @IPZS-CIE