InstructGPT: il fine-tuning che insegna a GPT a obbedire

In una frase OpenAI presenta InstructGPT: un GPT-3 raffinato con feedback umano (RLHF) che segue istruzioni meglio del modello base da 175B pur essendo molto più piccolo (1.3B parametri).

Verificato Fonte ufficiale

CondividiLinkedIn X

Fino al 2022 GPT-3, per quanto potente, andava convinto a fare quello che chiedevi: il prompt giusto era un'arte oscura. OpenAI mostra che un modello molto più piccolo, addestrato con feedback di persone vere, può seguire istruzioni meglio del fratello maggiore.

La tecnica si chiama RLHF (Reinforcement Learning from Human Feedback): umani classificano le risposte del modello, e da quei voti si addestra un secondo modello che fa da "giudice" per allineare il modello principale.

È la ricetta che, dieci mesi dopo, diventerà ChatGPT.