Llama Guard: un LLM addestrato a fare da guardiano di altri LLM

In una frase Meta rilascia Llama Guard, classificatore fine-tuned su LLaMA che distingue input e output pericolosi in 6 categorie di danno, progettato come layer di sicurezza plug-in per applicazioni LLM.

Verificato Fonte ufficiale

CondividiLinkedIn X

Costruire un chatbot sicuro richiede di filtrare sia quello che l'utente scrive sia quello che il modello risponde. La soluzione tradizionale usa liste di parole vietate o regole fisse, ma sono facili da aggirare con parafrasi o lingue diverse.

Meta propone un approccio diverso: usare un LLM per controllare un altro LLM. Llama Guard è un modello fine-tuned su LLaMA che riceve in input un messaggio e restituisce una classificazione: sicuro o non sicuro, con la categoria di danno specifica.

Copre sei aree di rischio, tra cui violenza, contenuto sessuale, crimini, e privacy. Può essere inserito come layer prima dell'LLM principale (filtraggio input) o dopo (verifica output), senza modificare il modello base.