s1: 1000 esempi e un trucco di prompt per replicare un reasoning model

In una frase Paper Stanford/UW: con 1000 esempi curati e una tecnica chiamata 'budget forcing' fanno fine-tune di Qwen2.5-32B fino a competere con o1-preview su matematica. Costo training: <$50.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Un team di Stanford e University of Washington pubblica s1, un modello reasoning che eguaglia o1-preview su alcuni benchmark matematici — ma il punto non è il modello: è come l'hanno ottenuto.

Hanno preso un modello già esistente (Qwen2.5-32B-Instruct), 1000 esempi di reasoning di alta qualità (s1K, distillati da Gemini Thinking), un fine-tune supervisionato di 26 minuti su 16 GPU H100. Costo cloud: meno di 50 dollari.

Più la trovata: "budget forcing". Per far ragionare il modello più a lungo, sopprimono il token di fine pensiero e iniettano la parola "Wait". Il modello si auto-corregge e continua il reasoning. È un'evidenza forte che molto del "reasoning" è già nei modelli base e va solo evocato.