Llama Guard: un LLM addestrato a fare da guardiano di altri LLM
In una frase Meta rilascia Llama Guard, classificatore fine-tuned su LLaMA che distingue input e output pericolosi in 6 categorie di danno, progettato come layer di sicurezza plug-in per applicazioni LLM.
Costruire un chatbot sicuro richiede di filtrare sia quello che l'utente scrive sia quello che il modello risponde. La soluzione tradizionale usa liste di parole vietate o regole fisse, ma sono facili da aggirare con parafrasi o lingue diverse.
Meta propone un approccio diverso: usare un LLM per controllare un altro LLM. Llama Guard è un modello fine-tuned su LLaMA che riceve in input un messaggio e restituisce una classificazione: sicuro o non sicuro, con la categoria di danno specifica.
Copre sei aree di rischio, tra cui violenza, contenuto sessuale, crimini, e privacy. Può essere inserito come layer prima dell'LLM principale (filtraggio input) o dopo (verifica output), senza modificare il modello base.
Aziende
Meta
Tool
LlamaGuard, LLaMA
Tag
Fonti