OpenAI Content Filter: prima infrastruttura di moderazione AI-side

In una frase OpenAI rilascia il content filter endpoint per classificare output GPT-3 in safe/sensitive/unsafe, primo strumento di moderazione integrato in un'API di foundation model commerciale.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

OpenAI fa un'aggiunta che sembra tecnica ma è importante: rilascia un content filter, cioè un sistema che guarda quello che GPT-3 ha generato e lo classifica in "sicuro / sensibile / non sicuro".

L'idea: prima di mostrare l'output a un utente, lo fai passare per il filtro. Se è "non sicuro", lo blocchi o lo modifichi. Se è "sensibile", magari aggiungi un disclaimer.

Sembra ovvio oggi, ma è la prima volta che un fornitore di LLM offre un endpoint di moderazione integrato. Prima toccava al singolo developer reinventare la ruota. Diventerà obbligatorio per chi mette in produzione GPT-3 ed evolverà in Moderation API.