GPT-4V: ChatGPT impara a vedere (per davvero)
In una frase OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.
A marzo OpenAI aveva detto "GPT-4 sa anche guardare immagini" ma la funzione era rimasta dietro le quinte. Sei mesi dopo la attiva per davvero in ChatGPT: carichi una foto e ne parli.
Esempi che fanno il giro del web: foto di un frigo aperto → "cosa posso cucinare?", schermata di errore → "spiegami questo bug", schema a mano libera → "scrivimi il codice corrispondente".
Insieme alla voce (Whisper per l'input, TTS proprietario per l'output) ChatGPT smette di essere una casella di testo e diventa un'interfaccia multi-modale completa.
Aziende
OpenAI
Tool
GPT-4V, ChatGPT
Tag
Fonti