Salta al contenuto
AImpact
IT EN
Alto Sicurezza AI · 1 min lettura

Llama Guard: un LLM addestrato a fare da guardiano di altri LLM

In una frase Meta rilascia Llama Guard, classificatore fine-tuned su LLaMA che distingue input e output pericolosi in 6 categorie di danno, progettato come layer di sicurezza plug-in per applicazioni LLM.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Costruire un chatbot sicuro richiede di filtrare sia quello che l'utente scrive sia quello che il modello risponde. La soluzione tradizionale usa liste di parole vietate o regole fisse, ma sono facili da aggirare con parafrasi o lingue diverse.

Meta propone un approccio diverso: usare un LLM per controllare un altro LLM. Llama Guard è un modello fine-tuned su LLaMA che riceve in input un messaggio e restituisce una classificazione: sicuro o non sicuro, con la categoria di danno specifica.

Copre sei aree di rischio, tra cui violenza, contenuto sessuale, crimini, e privacy. Può essere inserito come layer prima dell'LLM principale (filtraggio input) o dopo (verifica output), senza modificare il modello base.

Aziende

Meta

Tool

LlamaGuard, LLaMA

Tag

MetaLlamaGuardContent SafetyClassificatoreInput Output Filtering

Fonti