Specialista AI multimodale

Testo, immagine, audio, video: i modelli che unificano i sensi dell'AI.

Sei un ricercatore o developer che segue l'evoluzione dei modelli capaci di ragionare su più modalità contemporaneamente. Questo percorso parte dalle fondamenta contrastive di CLIP e DALL-E, attraversa la rivoluzione dei modelli vision-language come GPT-4V e Gemini, e arriva ai modelli nativamente audio e video del 2025-2026 — dove testo, immagine, voce e clip diventano un'unica superficie cognitiva per l'AI.

01

Perché conta per te

CLIP introduce l'embedding condiviso testo-immagine tramite contrastive learning: la fondazione teorica su cui è costruita quasi ogni pipeline multimodale successiva, dalla ricerca semantica ai generativi.

5 gennaio 2021 Alto AI multimodale

DALL·E e CLIP: testo e immagini si parlano davvero

OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.
02

Perché conta per te

DALL-E 2 dimostra che la diffusione guidata da CLIP può generare immagini fotorealistiche da testo: apre la corsa ai modelli generativi multimodali e fissa gli standard qualitativi del campo.

6 aprile 2022 Alto Generazione immagini & video

DALL·E 2: il salto in qualità della generazione di immagini

OpenAI annuncia DALL·E 2, un modello text-to-image basato su diffusion che produce immagini fotorealistiche a 1024×1024. Accesso inizialmente via waitlist, poi pubblico a luglio.
03

Perché conta per te

Stable Diffusion porta la diffusione latente in open source: abbassa la barriera a zero e trasforma ogni sviluppatore Python in un potenziale builder di pipeline testo-immagine customizzate.

22 agosto 2022 Pietra miliare Generazione immagini & video

Stable Diffusion: la generazione di immagini diventa open

Stability AI rilascia pubblicamente pesi e codice di un modello latent diffusion text-to-image che gira anche su una GPU consumer. La generazione di immagini AI lascia il cloud.
04

Perché conta per te

GPT-4V integra vision nel modello di reasoning più capace disponibile: il primo LLM commerciale che capisce immagini arbitrarie in chat, aprendo applicazioni multimodali production-ready.

25 settembre 2023 Alto AI multimodale

GPT-4V: ChatGPT impara a vedere (per davvero)

OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.
05

Perché conta per te

Llama 3.2 porta le capacità vision nei modelli open weight di Meta: per la prima volta un modello multimodale frontier-class è ispezionabile, fine-tunable e deployabile senza API esterne.

25 settembre 2024 Alto Modelli open source

Llama 3.2: Meta porta visione e edge ai modelli aperti

Meta rilascia Llama 3.2 in 4 taglie: 1B e 3B per edge/mobile, 11B e 90B multimodali (vision). Prima volta che Meta entra serio in multimodale open + on-device.
06

Perché conta per te

Moshi di Kyutai è il primo modello speech-to-speech full-duplex con reasoning interno: dimostra che l'audio nativo non è solo trascrizione ma comprensione e generazione end-to-end in tempo reale.

3 luglio 2024 Alto Voce & audio

Moshi: il primo voice assistant full-duplex open source di Kyutai

Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.
07

Perché conta per te

Veo 3 genera video con audio sincronizzato nativo — dialoghi, SFX, musica coerenti con la scena: il primo sistema che unifica testo, immagine, audio e video in un'unica pipeline generativa.

20 maggio 2025 Alto Generazione immagini & video

Veo 3 al Google I/O: generazione video con audio sincronizzato nativo

Al Google I/O 2025, DeepMind presenta Veo 3 (video generation con audio nativo, dialoghi, effetti), Imagen 4 (immagini più dettagliate) e Flow (tool video AI per creativi).

Specialista AI multimodale

DALL·E e CLIP: testo e immagini si parlano davvero

DALL·E 2: il salto in qualità della generazione di immagini

Stable Diffusion: la generazione di immagini diventa open

GPT-4V: ChatGPT impara a vedere (per davvero)

Llama 3.2: Meta porta visione e edge ai modelli aperti

Moshi: il primo voice assistant full-duplex open source di Kyutai

Veo 3 al Google I/O: generazione video con audio sincronizzato nativo