Kimi VL Thinking (Moonshot AI): primo modello visivo open con ragionamento a catena di pensiero via RL

In una frase Moonshot AI rilascia Kimi VL Thinking: modello visivo che combina visual encoding con long chain-of-thought reasoning tramite reinforcement learning. Risolve geometria multi-step, analisi di grafici scientifici, interpretazione di figure. Primo modello visivo open a parità con GPT-4o su task visivi multi-step.

Da rivedere Fonte autorevole

CondividiLinkedIn X

La maggior parte dei modelli che capiscono le immagini funzionano così: guardi l'immagine, dai una risposta. Veloce, ma spesso sbagliato su problemi complessi.

Kimi VL Thinking di Moonshot AI (un'azienda cinese di AI) funziona in modo diverso: quando riceve un problema visivo difficile — un diagramma geometrico, un grafico scientifico, una sequenza di immagini con un ragionamento da seguire — si ferma a "pensare". Genera una lunga catena di riflessioni intermedie (in stile "prima osservo X, poi deduco Y, quindi posso concludere Z") prima di dare la risposta finale.

Questo approccio, chiamato chain-of-thought reasoning, era già noto nel testo (ChatGPT lo fa quando dice "ragioniamo step by step"). Kimi VL è il primo modello open-source a portarlo sistematicamente alle immagini, grazie a un addestramento basato su reinforcement learning che premia le catene di ragionamento corrette.

Il risultato pratico: su problemi di geometria, fisica con diagrammi, o analisi di grafici scientifici, Kimi VL arriva allo stesso livello di GPT-4o — che è uno dei migliori modelli al mondo e costa molto di più da usare. Ed è disponibile gratuitamente per chiunque voglia usarlo o studiarne il funzionamento.