§6.2 Ottimizzazione dei modelli e uso delle CPU
Il §6.2 richiama correttamente tecniche di ottimizzazione quali riduzione delle dimensioni del modello, riduzione della precisione numerica e trasferimento delle capacità verso modelli più piccoli e specializzati, evidenziandone i benefici in termini di efficienza, portabilità e possibilità di esecuzione su CPU. Tali tecniche, tuttavia, non hanno solo effetti prestazionali: possono modificare in modo non lineare il comportamento del modello e incidere anche su proprietà rilevanti per la sicurezza, quali robustezza rispetto a input avversari, comportamento su input fuori distribuzione e interazione con eventuali alterazioni o backdoor introdotte in fasi precedenti del ciclo di vita. Per questa ragione, l’applicazione di tecniche di ottimizzazione non dovrebbe essere trattata come mera trasformazione prestazionale, ma come modifica sostanziale del modello, da sottoporre a nuova validazione di sicurezza prima della messa in esercizio. Il collegamento è coerente anche con il capitolo 5, che richiede di testare nuovamente il sistema a seguito di aggiornamenti del modello o modifiche sostanziali, anche se non formalizza ancora in modo esplicito una suite di regressione di sicurezza specifica per l’IA.
Raccomandazione: integrare il §6.2 prevedendo esplicitamente che l’adozione di tecniche di ottimizzazione del modello, quali quantizzazione, pruning, distillation o riduzione di precisione, comporti: (a) il trattamento del modello risultante come versione sostanzialmente modificata ai fini della sicurezza; (b) la riesecuzione sistematica dei test di sicurezza e robustezza previsti nelle fasi di testing e validazione del ciclo di vita, estesi ai test avversariali pertinenti al caso d’uso, prima della messa in esercizio della versione ottimizzata; (c) la documentazione della tecnica di ottimizzazione applicata, delle configurazioni adottate e dei relativi esiti dei test di sicurezza tra gli artefatti del sistema.
§6.1 Architetture hardware-agnostic
La neutralità hardware è un obiettivo condivisibile in chiave di riduzione del lock-in e di resilienza, ma il paragrafo non esplicita un effetto collaterale rilevante: l’esecuzione del medesimo modello su runtime, backend di inferenza, driver e librerie numeriche differenti amplia la supply chain tecnica del sistema di IA. Tali componenti software della catena di esecuzione devono a loro volta essere gestiti come dipendenze critiche, in termini di integrità, provenienza, aggiornamento e tracciabilità. Inoltre, differenze implementative tra piattaforme o backend possono produrre deviazioni di comportamento del modello che richiedono nuova verifica, anche in assenza di modifiche apparenti alla logica applicativa o ai pesi del modello. Questo profilo è coerente con il capitolo 5, che già richiama affidabilità delle librerie esterne, integrità degli artefatti e tracciabilità delle modifiche.
Raccomandazione: integrare il §6.1 prevedendo esplicitamente che l’adozione di architetture hardware-agnostic sia accompagnata da: (a) inclusione dei runtime di inferenza, dei backend di esecuzione, dei driver e delle librerie numeriche rilevanti in un inventario strutturato dei componenti del sistema di IA; (b) verifica di integrità e di provenienza di tali componenti, in coerenza con i controlli richiamati nel capitolo 5; (c) nuova esecuzione di test di sicurezza e robustezza a ogni cambio di runtime o backend di esecuzione in produzione, al fine di intercettare eventuali deviazioni di comportamento dovute a differenze implementative.
§6.2 / §6.3 Efficienza e fallback CPU
Nel capitolo 6 il fallback su CPU e, più in generale, l’esecuzione su hardware alternativo sono presentati soprattutto come strumenti di continuità operativa, neutralità hardware e resilienza rispetto a vincoli di mercato o approvvigionamento. Questa impostazione è corretta, ma potrebbe essere utilmente integrata con un’esplicitazione ulteriore: nei sistemi di IA, una modalità di esecuzione alternativa e controllata può svolgere anche la funzione di modalità degradata di sicurezza. In particolare, essa può consentire il mantenimento in esercizio di funzioni essenziali con capacità ridotte e perimetro operativo più ristretto nei casi in cui il modello principale debba essere sospeso per motivi di sicurezza, ad esempio a seguito di comportamento anomalo, sospetta compromissione della supply chain o esito negativo di verifiche di sicurezza. Trattato solo in chiave prestazionale, il fallback rischia invece di essere progettato con lo stesso perimetro di capability del modello principale, riducendone il valore come modalità degradata governata.
Raccomandazione: integrare il §6.2 o il §6.3, eventualmente con rinvio al capitolo 4 sull’operatività e monitoraggio, chiarendo che la modalità di fallback può essere progettata anche come modalità degradata di sicurezza, con: (a) un perimetro di capacità ridotto rispetto al modello principale, in particolare rispetto ai tool invocabili e ai sink privilegiati accessibili; (b) criteri documentati di attivazione che includano non solo indisponibilità infrastrutturale, ma anche eventi o anomalie di sicurezza che richiedano la sospensione del modello principale; (c) criteri di uscita dalla modalità di fallback subordinati al ripristino controllato della versione principale e al superamento delle verifiche di sicurezza e robustezza previste dal ciclo di vita.