Sicurezza Intermedio Anche noto come: Classificatore di sicurezza · Content filter

Safety classifier

Modello separato che analizza input o output di un LLM per intercettare contenuti pericolosi, violenti, illegali o fuori policy prima che arrivino all'utente.

CondividiLinkedIn X

In pratica

È una rete di sicurezza in cascata: se il modello principale sbaglia, il classificatore lo blocca. OpenAI Moderation, Llama Guard di Meta sono esempi gratuiti. Per servizi pubblici è quasi obbligatorio averne uno.

Termini collegati

Alignment Jailbreak Red teaming

Visto in azione

1 voci che lo citano

15 aprile 2021

OpenAI Content Filter: prima infrastruttura di moderazione AI-side

Medio

← Tutti i termini