9. Gestione e qualità dei dati

Bozza di linee guida per l’adozione di IA nella pubblica amministrazione

La consultazione pubblica è attiva dal 18/02/2025 al 20/03/2025.

Questo argomento accoglie i commenti relativi al capitolo 9. Gestione e qualità dei dati.

I commenti dovranno includere il numero del paragrafo o sotto-paragrafo (se presente) e un riferimento puntuale al brano di testo al quale si riferiscono (ad esempio paragrafo 4.3, terzo capoverso).

Leggi il documento in consultazione.

In primo luogo, si suggerisce di ampliare la trattazione relativa all’interoperabilità semantica. Pur essendo opportuna la menzione della standardizzazione delle licenze per i dati al fine di promuoverne il riutilizzo, si ritiene fondamentale sottolineare la necessità di garantire l’interoperabilità semantica tra sistemi diversi. Questa capacità di garantire una comprensione univoca del significato dei dati assume particolare rilevanza nell’integrazione di informazioni provenienti da fonti eterogenee e per assicurare un’interpretazione corretta da parte dei sistemi di Intelligenza Artificiale.

In secondo luogo, si raccomanda di fornire indicazioni alle Pubbliche Amministrazioni in merito all’identificazione e alla prioritizzazione delle metriche di qualità dei dati più pertinenti per i loro specifici casi d’uso. Non tutte le metriche, infatti, presentano la medesima rilevanza in ogni contesto applicativo.

In terzo luogo, considerato il rilievo dell’attività di data cleaning e la complessità ad essa associata, si suggerisce di integrare la Sezione con esempi concreti di tecniche e strumenti utilizzabili, distinguendo, ove opportuno, in base alla tipologia dei dati (strutturati o non strutturati).

In quarto luogo, si reputa opportuno ampliare l’analisi relativa ai “dati sintetici”, approfondendone i potenziali benefici (superamento della scarsità di dati, tutela della riservatezza) e i rischi (rappresentatività).

Infine, si raccomanda di esplicitare la correlazione tra i principi etici dell’Intelligenza Artificiale (trasparenza, responsabilità) e le pratiche concrete di gestione e qualità dei dati. È necessario, altresì, evidenziare l’importanza di valutare l’impatto dei dati sui diritti fondamentali e sull’equità nel processo di gestione.

In merito alla struttura della Sezione, si propone di valutare l’opportunità di predisporre una tabella che correli le fasi del ciclo di vita dell’IA con le fasi del processo di gestione dei dati, i ruoli e le responsabilità, le metriche di qualità e le pratiche di mitigazione dei rischi. Tale rappresentazione potrebbe contribuire a fornire una visione d’insieme più chiara e sistematica della materia.

  1. Data Governance operativa: aggiungere procedure dettagliate e flussi di processo per la raccolta, validazione e manutenzione dei dati, con checklist operative e diagrammi; rimuovere ripetizioni e contenuti troppo teorici.
  2. Standardizzazione e metadati: integrare la necessità di definire standard e formati comuni per i dati (es. ISO/IEC 25012) e aggiungere esempi pratici; rimuovere descrizioni vaghe.
  3. Monitoraggio continuo: suggerire l’adozione di strumenti di monitoraggio e audit periodici per la qualità dei dati, semplificando il linguaggio tecnico.
  1. Nel primo paragrafo, quando si fa riferimenti al considerando (67) del Regolamento nell’ambito della governance dei dati si suggerisce di citare la norma CEN/CLC/TR 18115:2024 “Data governance and quality for AI within the European context” pubblicata a novembre 2024 e disponibile sul sito di UNI;

  2. paragrafo 9.2)
    per quanto concerne le caratteristiche di qualità (pag. 56) nell’elenco manca la nozione di completezza, che oltre ad essere stata presa in considerazione fin dalla delibera commissariale AGID n.68 del 2013, risulta fondamentale per prevenire che il bias nei dati si trasferisca nei risultati:

  3. The SQuaRE series as a guarantee of ethics in the results of AI systems
    CEUR-WS.org/Vol-3612 - Joint Proceedings of IWESQ and QuASoQ co-located with APSEC 2023

  4. Fairness Metrics and Maximum Completeness for the prediction of discrimination
    CEUR-WS.org/Vol-3356 - 4th International Workshop on Experience with SQuaRE Series and Its Future Direction, and 1st Asia-Pacific Software Engineering and Diversity, Equity, and Inclusion Workshop 2022

  5. The use of Maximum Completeness to estimate bias in AI based recommendation systems
    CEUR-WS.org/Vol-3360 - Scholar’s Yearly Symposium of Technology, Engineering and Mathematics 2022

Quando si parla di governance nel primo paragrafo si suggerisce di citare la norma CEN/CLC/TR 18115:2024 “Data governance and quality for AI within the European context” recentemente pubblicata e disponibile presso gli Enti di normazione di ogni paese europeo, per l’Italia UNI.

paragrafo 9.2

pag. 56 la nozione di bilanciamento citata come punto 2 nell’elenco non è sufficiente a garantire la completezza (ISO/IEC 25012) della distribuzione. In alcune circostanze gli indici di bilanciamento non sono efficaci quanto quelli di completezza (massima e minima). In questi casi è necessario un arricchimento dei dati attraverso tecniche di manipolazione come il bootstrap. Si suggerisce di aggiungere la nozione di completezza e il riferimento alla ISO IEC 25012.

Nel paragrafo dedicato ai dati strutturati, non strutturati e semi-strutturati, si parla di modelli di dati condivisi e operazioni di data cleaning. In questo frangente, riteniamo opportuno aggiungere un riferimento specifico alla necessità di adottare formati machine-readable per i testi normativi, al fine di facilitare l’integrazione con sistemi di Intelligenza Artificiale e garantire un accesso più efficiente alle normative da parte delle PA.

In tale sezione sarebbe stato utile raccomandare alle pubbliche amministrazioni l’addestramento dei sistemi di IA su dataset istituzionali (e.g. IstatData), al fine di garantire una maggiore qualità e certezza della fonte utilizzata e quindi del sistema che la alimenta.

In questa sezione sarebbe utile introdurre il concetto di data stewardship come figura (anche collettiva) che si occupa di aggiornare i dati e mantenerli in forma completa e riusabile.

Riteniamo anche che ci sia poca attenzione alla questione licensing di dati e modelli (e output): c’è un generale riferimento al “rilascio/pubblicazione e riutilizzo dei dataset pubblici”, ma non vengono affrontate le rilevanti questioni di utilizzo di dati aperti per finalità di training, web scraping, trattamento dei dati personali e anonimizzazione nel processo di training, nonchè altre questioni rilevanti sotto il profilo di proprietà intellettuale nelle fasi successive: utilizzo di modelli proprietari e non open-source, eventuale pubblicazione open-source del modello creato appositamente dalla PA, oppure la qualità (licensing) dei dati in output (sono liberamente riutilizzabili o vengono resi pubblici con licenze restrittive?).

Gestione e qualità dei dati (Capitolo 9)

Federmanager riconosce che la gestione e la qualità dei dati rappresentano un elemento strategico per garantire il corretto sviluppo e l’affidabilità dei sistemi di Intelligenza Artificiale nella Pubblica Amministrazione. L’adozione di soluzioni di IA da parte della PA deve avvenire all’interno di un quadro normativo chiaro e strutturato, che assicuri il rispetto della regolamentazione europea e nazionale sulla governance dei dati, in particolare l’AI Act, il Data Governance Act, il Data Act e la Direttiva Open Data.

1. Necessità di una strategia unitaria sulla gestione dei dati nella PA

Federmanager ritiene essenziale che la PA adotti una strategia unitaria per la gestione dei dati, fondata su principi di interoperabilità, sicurezza, accessibilità e qualità. Questo approccio deve:

  • Evitare la frammentazione delle iniziative e garantire un uso sinergico dei dati tra amministrazioni centrali, regionali e locali.
  • Incentivare l’integrazione tra PA, imprese e istituzioni di ricerca , per favorire lo sviluppo di dataset di elevata qualità e utilizzabili per finalità pubbliche.
  • Promuovere la creazione di un framework nazionale per la governance dei dati , con linee guida chiare per la raccolta, l’elaborazione e la condivisione dei dati tra enti pubblici.

A tal fine, Federmanager sostiene la necessità di un coordinamento tra le diverse amministrazioni e l’adozione di standard comuni per la gestione dei dati, in linea con le normative europee e con le migliori pratiche internazionali.

2. Rafforzamento delle competenze manageriali nella gestione dei dati

La gestione dei dati nella PA non può prescindere dalla presenza di figure manageriali con competenze specifiche in data governance, cybersecurity e qualità dei dati. Federmanager propone di:

  • Istituire percorsi di formazione mirati per i dirigenti pubblici , affinché acquisiscano conoscenze adeguate in materia di gestione strategica dei dati e intelligenza artificiale.
  • Rafforzare il ruolo del Responsabile per la Transizione Digitale (RTD) , dotandolo di competenze e strumenti adeguati per la governance dei dati e il loro utilizzo in contesti di IA.
  • Introdurre figure specializzate nella gestione e qualità dei dati nella PA , come il Chief Data Officer, il Data Steward e il Data Protection Officer, che possano supportare le amministrazioni nella corretta implementazione delle strategie di gestione dei dati.

Questa evoluzione deve essere accompagnata da un processo di formazione continua, che consenta ai funzionari pubblici di aggiornarsi rispetto alle evoluzioni normative e tecnologiche in ambito data management e intelligenza artificiale.

3. Creazione di spazi comuni per la condivisione e valorizzazione dei dati

Federmanager sostiene la necessità di promuovere spazi comuni per la condivisione dei dati tra le amministrazioni pubbliche, in linea con la Strategia europea sui dati. Questi spazi devono:

  • Garantire la sicurezza e la protezione dei dati personali , attraverso l’applicazione rigorosa dei principi previsti dal GDPR e dalle normative sulla cybersecurity.
  • Facilitare l’accesso ai dati da parte di imprese e centri di ricerca , per stimolare l’innovazione e lo sviluppo di nuovi servizi basati sull’IA.
  • Favorire l’integrazione dei dati provenienti da diverse fonti , sia interne alla PA che esterne (open data, dati di aziende private, dati derivanti da dispositivi IoT e sensori).

Questa iniziativa si inserisce in una più ampia strategia di open data, che consenta di rendere disponibili informazioni di valore per il sistema economico e sociale, nel rispetto della normativa sulla protezione dei dati e delle esigenze di sicurezza nazionale.

4. Qualità e affidabilità dei dati per l’Intelligenza Artificiale

Federmanager ritiene che i sistemi di IA nella PA debbano essere alimentati da dataset di elevata qualità, che rispettino i seguenti principi:

  • Accuratezza e completezza : i dati devono essere privi di errori e aggiornati costantemente.
  • Tracciabilità e trasparenza : devono essere adottati strumenti per monitorare l’origine, le modifiche e l’utilizzo dei dati.
  • Rappresentatività e assenza di bias : le informazioni utilizzate per l’addestramento degli algoritmi devono essere bilanciate per evitare discriminazioni o distorsioni nei risultati prodotti.
  • Sicurezza e protezione dei dati personali : devono essere adottate misure rigorose per garantire il rispetto del GDPR e delle normative sulla cybersecurity.

Per raggiungere questi obiettivi, Federmanager propone:

  • L’adozione di standard internazionali per la qualità dei dati (ISO/IEC 25012, ISO/IEC 5259-2, AI Act).
  • L’implementazione di strumenti di auditing e certificazione dei dataset , per garantire il rispetto dei requisiti di qualità e sicurezza.
  • Lo sviluppo di metodologie per l’utilizzo di dati sintetici , che possano sostituire i dati sensibili nei processi di addestramento degli algoritmi di IA.

5. Strutturare una governance efficace per la gestione dei dati nella PA

Federmanager sottolinea l’importanza di una governance chiara e strutturata per la gestione dei dati, che preveda:

  • La definizione di ruoli e responsabilità chiari , con l’istituzione di unità dedicate alla gestione strategica dei dati all’interno delle PA.
  • L’adozione di linee guida operative per la gestione del ciclo di vita dei dati , dalla raccolta alla conservazione, fino alla dismissione.
  • L’integrazione della governance dei dati con la strategia nazionale per la digitalizzazione della PA , per garantire un approccio coerente e coordinato.

Federmanager considera la gestione e la qualità dei dati un fattore abilitante essenziale per il successo della trasformazione digitale della PA. Senza un adeguato controllo e valorizzazione del patrimonio informativo pubblico, l’adozione dell’IA rischia di essere inefficace, esponendo le amministrazioni a problemi di affidabilità, sicurezza e conformità normativa.

Per questo motivo, Federmanager invita la PA a:

  • Sviluppare un modello nazionale di governance dei dati , basato su standard internazionali e best practice europee.
  • Investire nella formazione e nell’aggiornamento delle competenze manageriali , affinché i dirigenti pubblici possano guidare con consapevolezza l’evoluzione digitale della PA.

Promuovere la creazione di spazi comuni per la condivisione e l’interoperabilità dei dati, favorendo la collaborazione tra Pubblica Amministrazione, imprese, università e centri di ricerca, con l’obiettivo di garantire un ecosistema digitale integrato e funzionale allo sviluppo di soluzioni innovative basate sull’Intelligenza Artificiale.

Inoltre, Federmanager sottolinea l’importanza di:

  • Definire un quadro normativo chiaro e armonizzato , che consenta l’uso responsabile dei dati, tutelando la privacy e la sicurezza delle informazioni.
  • Adottare piattaforme tecnologiche avanzate , in grado di garantire la qualità, l’accessibilità e la tracciabilità dei dati in tutto il ciclo di vita delle applicazioni IA.
  • Sostenere il coinvolgimento dei manager nelle strategie di digitalizzazione della PA , riconoscendone il ruolo chiave nella gestione dei dati e nella supervisione dei processi di innovazione.

Federmanager ribadisce, infine, la necessità di un approccio sistemico e coordinato che renda la PA un modello di riferimento nella gestione intelligente e strategica dei dati, abilitando la trasformazione digitale del Paese e contribuendo alla competitività del sistema economico nazionale.

MACHINE LEARNING/MODELLI DI PRE-ADDESTREAMENTO (CAP.9 PAR.9.1)
Nelle linee guida si suggerisce di prevedere l’offerta di modelli di Machine Learning come servizi accessibili tramite API, rappresentando così un efficace compromesso tra le legittime esigenze di trasparenza della Pubblica Amministrazione e la necessaria protezione della proprietà intellettuale dei fornitori di soluzioni di intelligenza artificiale. Infatti, quando un’azienda fornisce un sistema di Machine Learning (ML), il cliente potrebbe richiedere il codice sorgente per diverse ragioni, tra cui:
• Trasparenza e auditabilità: per verificare il funzionamento e prevenire bias o errori.
• Personalizzazione e adattamento: per modificare il modello in base alle esigenze specifiche.
• Indipendenza dal fornitore: per evitare il lock-in e garantire continuità operativa.
Tuttavia, per l’azienda fornitrice, concedere l’accesso al codice sorgente rappresenta un problema sia perché rappresenta un asset strategico sia perché potrebbe essere copiato o riutilizzato senza autorizzazione.
Suggeriamo quindi di esplorare l’accesso tramite API come soluzione ottimale per conciliare le esigenze di entrambe le parti.

Le Linee Guida AgID per l’adozione dell’Intelligenza Artificiale (IA) nella Pubblica Amministrazione ¶, oggetto di consultazione pubblica, rappresentano un passo significativo verso l’innovazione digitale e offrono opportunità rilevante di competitività per il nostro Paese. Questo documento, senza pretesa di esaustività rispetto al corpus totale delle linee guida de quo, si concentra sul ruolo strategico dei dati sintetici come strumento abilitante per l’adozione dell’IA, proponendo integrazioni mirate alle Linee Guida in linea con le scelte operate dal legislatore comunitario, con focus su:

  • Richiamo giuridico-tecnico dei dati sintetici come Privacy-Enhancing Technology (PET) autonoma.
  • Superamento della logica meramente complementare attraverso casi d’uso primari.
  • Integrazione trasversale nei processi di sviluppo, validazione e monitoraggio dei sistemi IA.

Nell’ambito del paragrafo 9.3, relativamente alla funzione di raccolta ed elaborazione dati di cui all’art. 1, comma 85 lett. d), della Legge 56/2014, anche le Province potrebbero svolgere un ruolo di coordinamento per migliorare la qualità dei dati e delle basi documentali, promuovendo l’aggiornamento e la pubblicazione dei dati come open data. Questo includerebbe, ove possibile, la messa a disposizione degli Enti del territorio di strumenti dedicati alla valorizzazione e al riutilizzo dei dati

Integrare nelle linee guida indicazioni per sviluppare un’architettura modulare e scalabile per la gestione dei dati, favorendo l’interoperabilità tra amministrazioni.

Questo argomento è stato automaticamente chiuso dopo 35 giorni. Non sono permesse altre risposte.