Gradient Routing (Anthropic): isolare i comportamenti di sicurezza in moduli separabili del modello
In una frase Anthropic propone gradient routing per confinare l'apprendimento di comportamenti specifici in zone isolate del modello, aprendo la strada a safety modules verificabili e separabili dall'architettura principale.
Uno dei problemi fondamentali del safety training degli LLM è che i comportamenti di sicurezza sono distribuiti in modo opaco attraverso miliardi di parametri del modello, intrecciati con tutto il resto. Non c'è un "modulo di sicurezza" identificabile e verificabile.
Il gradient routing è una tecnica di training che permette di guidare dove nel modello vengono appresi certi comportamenti. Specificando che i gradienti relativi ai comportamenti di sicurezza devono aggiornare solo certi layer o componenti, è possibile isolare il training di sicurezza in zone dedicate.
Il risultato è un modello in cui i comportamenti di sicurezza sono localizzati in componenti identificabili. Questo ha due vantaggi: è possibile verificare meccanisticamente cosa fa il modulo di sicurezza, e in teoria è possibile aggiornarlo o sostituirlo senza toccare il resto del modello.
È ancora una ricerca preliminare, ma indica una direzione promettente verso modelli la cui sicurezza è verificabile piuttosto che assunta.
Aziende
Anthropic
Tool
—
Tag
Fonti