GPT-4V: ChatGPT impara a vedere (per davvero)

In una frase OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.

Verificato Fonte ufficiale

CondividiLinkedIn X

A marzo OpenAI aveva detto "GPT-4 sa anche guardare immagini" ma la funzione era rimasta dietro le quinte. Sei mesi dopo la attiva per davvero in ChatGPT: carichi una foto e ne parli.

Esempi che fanno il giro del web: foto di un frigo aperto → "cosa posso cucinare?", schermata di errore → "spiegami questo bug", schema a mano libera → "scrivimi il codice corrispondente".

Insieme alla voce (Whisper per l'input, TTS proprietario per l'output) ChatGPT smette di essere una casella di testo e diventa un'interfaccia multi-modale completa.