Sezione introduttiva di “A – Termini e definizioni”, elenco dei riferimenti
Le definizioni sono formulate in coerenza con un insieme ampio di standard ISO/IEC e con due riferimenti NIST, ma l’elenco iniziale non include alcuni riferimenti tecnico-metodologici oggi particolarmente rilevanti per la terminologia della sicurezza dei sistemi di IA. In particolare, mancano fonti che definiscono o consolidano il lessico oggi prevalente per attacchi adversarial, sicurezza dei sistemi generativi, architetture agentiche e buone pratiche di difesa, quali NIST AI 100-2 per la tassonomia e terminologia dell’adversarial machine learning, NIST AI 600-1 per il profilo dedicato alla generative AI, MITRE ATLAS come knowledge base delle tattiche e tecniche avversarie, i report ENISA sulla cybersecurity dell’IA e i riferimenti OWASP oggi più usati per le vulnerabilità delle applicazioni LLM e GenAI. L’assenza di tali fonti nel quadro introduttivo contribuisce a spiegare alcune lacune terminologiche presenti nella sezione F dedicata alla sicurezza.
Raccomandazione: integrare l’elenco iniziale non necessariamente sotto la rubrica “standard internazionali”, ma attraverso una distinta indicazione di riferimenti tecnico-metodologici rilevanti per la sicurezza dei sistemi di IA, includendo almeno: NIST AI 100-2, NIST AI 600-1, MITRE ATLAS, ENISA “Artificial Intelligence Cybersecurity Challenges”, ENISA “Multilayer Framework for Good Cybersecurity Practices for AI”, OWASP Top 10 for Large Language Model Applications e OWASP AI Security and Privacy Guide. In coerenza con ciò, nelle definizioni della sezione F andrebbero richiamate come fonti anche le pubblicazioni più pertinenti, e non il solo NIST AI RMF 1.0.
Sezione F. Sicurezza
La sezione F copre alcuni attacchi adversarial classici e alcuni controlli di sicurezza di carattere generale, ma non include una parte significativa della terminologia oggi necessaria per descrivere la sicurezza dei sistemi di IA generativa e agentici, che sono peraltro centrali nelle Linee guida sviluppo. In particolare, non risultano definiti termini quali prompt injection, nelle sue forme diretta e indiretta, jailbreak, model extraction, membership inference come voce autonoma, property inference, data reconstruction, model poisoning, backdoor poisoning, red-teaming dei sistemi di IA, abuse dell’invocazione di tool o funzioni nelle architetture agentiche, esfiltrazione di dati tramite output del modello. La stessa voce 125 “Privacy attack” richiama membership inference, ma senza fornirne una definizione dedicata, e non distingue in modo espresso model inversion e model extraction. Questa lacuna riduce l’uniformità terminologica proprio nella parte del documento in cui sarebbe più utile disporre di un vocabolario condiviso e aggiornato.
Raccomandazione: integrare la sezione F con almeno le seguenti voci: prompt injection, diretta e indiretta; jailbreak; model extraction; membership inference; data reconstruction; property inference; availability poisoning; targeted poisoning; backdoor poisoning; model poisoning; red-teaming dei sistemi di IA; threat modeling per sistemi di IA; abuso dell’invocazione di tool o funzioni nelle architetture agentiche; esfiltrazione di dati tramite output del modello. La voce “guardrail” può essere aggiunta, ma con definizione neutra di glossario, eventualmente accompagnata da una nota esplicativa che ne chiarisca il ruolo di misura di difesa in profondità e non di presidio sufficiente da sola. Andrebbe inoltre corretta la voce 125 “Privacy attack”, rendendo esplicita la definizione di membership inference e distinguendo in modo chiaro model extraction da model inversion.
Sezione F. Sicurezza, assenza di termini relativi alla supply chain dei sistemi di IA
Lo Strumento A non contiene voci dedicate alla supply chain dei sistemi di IA, pur trattandosi di un profilo rilevante sia per lo sviluppo sia per la sicurezza. Restano così privi di definizione concetti operativi utili a descrivere dati, modelli e componenti come artefatti da tracciare, verificare e proteggere, quali la provenienza dei dataset e dei modelli, l’integrità dei pesi, dei checkpoint e degli adattatori importati, la distinzione tra modelli open-source e modelli open-weight, nonché un inventario strutturato dei componenti del sistema di IA. L’assenza di queste voci indebolisce la capacità del glossario di supportare requisiti tecnici verificabili lungo il ciclo di vita.
Raccomandazione: integrare la sezione F con voci quali: catena di approvvigionamento dei sistemi di IA, riferita a dati, modelli, adattatori, framework, librerie, runtime di inferenza e servizi terzi; inventario strutturato dei componenti del sistema di IA, eventualmente richiamabile anche come AI-BOM o AIBOM, precisandone il carattere di distinta base tecnica e di tracciabilità; data provenance e model provenance; integrità degli artefatti del modello, con riferimento a pesi, checkpoint e adattatori; modello open-weight, distinguendolo dal modello open-source. In questo modo il glossario fornirebbe termini più adatti a descrivere la supply chain dell’IA come perimetro di sicurezza e non solo come aspetto documentale.
Sezione A, B e F, assenza di termini relativi ad architetture RAG e agentiche
Le Linee guida sviluppo attribuiscono un ruolo rilevante alle architetture agentiche e ai sistemi basati su retrieval, ma il glossario non definisce alcuni concetti fondamentali di tali architetture. In particolare, non compaiono voci come RAG, base dati vettoriale o vector store, indice vettoriale, context window, grounding e allucinazione del modello. La voce 28 “Embedding” è presente, ma resta formulata come nozione generale di machine learning e non evidenzia che, nei sistemi RAG, gli embedding sono rappresentazioni derivate da documenti sorgente che possono contenere o riflettere informazioni personali o riservate. Ne deriva l’assenza di un vocabolario comune per descrivere in modo consistente alcuni degli asset e dei meccanismi più tipici dei sistemi generativi moderni.
Raccomandazione: integrare il glossario con le seguenti voci: RAG, come architettura che combina un modello generativo con un sistema di recupero di informazioni da corpora esterni; base dati vettoriale o vector store; indice vettoriale; context window del modello; grounding; allucinazione del modello, intesa come generazione di contenuti fattualmente infondati o non supportati dal contesto. Integrare inoltre la voce 28 “Embedding” chiarendo che, nei sistemi RAG, gli embedding costituiscono rappresentazioni derivate da documenti sorgente, potenzialmente contenenti dati personali o informazioni riservate, e che per tale ragione devono essere trattati come asset sensibili ai fini della protezione dei dati, del controllo degli accessi e della dismissione sicura.