Percorso
Specialista AI multimodale
Testo, immagine, audio, video: i modelli che unificano i sensi dell'AI.
Sei un ricercatore o developer che segue l'evoluzione dei modelli capaci di ragionare su più modalità contemporaneamente. Questo percorso parte dalle fondamenta contrastive di CLIP e DALL-E, attraversa la rivoluzione dei modelli vision-language come GPT-4V e Gemini, e arriva ai modelli nativamente audio e video del 2025-2026 — dove testo, immagine, voce e clip diventano un'unica superficie cognitiva per l'AI.
- 01
Perché conta per te
CLIP introduce l'embedding condiviso testo-immagine tramite contrastive learning: la fondazione teorica su cui è costruita quasi ogni pipeline multimodale successiva, dalla ricerca semantica ai generativi.
Alto AI multimodaleDALL·E e CLIP: testo e immagini si parlano davvero
OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.
- 02
Perché conta per te
DALL-E 2 dimostra che la diffusione guidata da CLIP può generare immagini fotorealistiche da testo: apre la corsa ai modelli generativi multimodali e fissa gli standard qualitativi del campo.
Alto Generazione immagini & videoDALL·E 2: il salto in qualità della generazione di immagini
OpenAI annuncia DALL·E 2, un modello text-to-image basato su diffusion che produce immagini fotorealistiche a 1024×1024. Accesso inizialmente via waitlist, poi pubblico a luglio.
- 03
Perché conta per te
Stable Diffusion porta la diffusione latente in open source: abbassa la barriera a zero e trasforma ogni sviluppatore Python in un potenziale builder di pipeline testo-immagine customizzate.
Pietra miliare Generazione immagini & videoStable Diffusion: la generazione di immagini diventa open
Stability AI rilascia pubblicamente pesi e codice di un modello latent diffusion text-to-image che gira anche su una GPU consumer. La generazione di immagini AI lascia il cloud.
- 04
Perché conta per te
GPT-4V integra vision nel modello di reasoning più capace disponibile: il primo LLM commerciale che capisce immagini arbitrarie in chat, aprendo applicazioni multimodali production-ready.
Alto AI multimodaleGPT-4V: ChatGPT impara a vedere (per davvero)
OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.
- 05
Perché conta per te
Llama 3.2 porta le capacità vision nei modelli open weight di Meta: per la prima volta un modello multimodale frontier-class è ispezionabile, fine-tunable e deployabile senza API esterne.
Alto Modelli open sourceLlama 3.2: Meta porta visione e edge ai modelli aperti
Meta rilascia Llama 3.2 in 4 taglie: 1B e 3B per edge/mobile, 11B e 90B multimodali (vision). Prima volta che Meta entra serio in multimodale open + on-device.
- 06
Perché conta per te
Moshi di Kyutai è il primo modello speech-to-speech full-duplex con reasoning interno: dimostra che l'audio nativo non è solo trascrizione ma comprensione e generazione end-to-end in tempo reale.
Alto Voce & audioMoshi: il primo voice assistant full-duplex open source di Kyutai
Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.
- 07
Perché conta per te
Veo 3 genera video con audio sincronizzato nativo — dialoghi, SFX, musica coerenti con la scena: il primo sistema che unifica testo, immagine, audio e video in un'unica pipeline generativa.
Alto Generazione immagini & videoVeo 3 al Google I/O: generazione video con audio sincronizzato nativo
Al Google I/O 2025, DeepMind presenta Veo 3 (video generation con audio nativo, dialoghi, effetti), Imagen 4 (immagini più dettagliate) e Flow (tool video AI per creativi).