Salta al contenuto
AImpact
IT EN
← Percorsi

Percorso

Specialista AI multimodale

Testo, immagine, audio, video: i modelli che unificano i sensi dell'AI.

Sei un ricercatore o developer che segue l'evoluzione dei modelli capaci di ragionare su più modalità contemporaneamente. Questo percorso parte dalle fondamenta contrastive di CLIP e DALL-E, attraversa la rivoluzione dei modelli vision-language come GPT-4V e Gemini, e arriva ai modelli nativamente audio e video del 2025-2026 — dove testo, immagine, voce e clip diventano un'unica superficie cognitiva per l'AI.

  1. 01

    Perché conta per te

    CLIP introduce l'embedding condiviso testo-immagine tramite contrastive learning: la fondazione teorica su cui è costruita quasi ogni pipeline multimodale successiva, dalla ricerca semantica ai generativi.

    Alto AI multimodale

    DALL·E e CLIP: testo e immagini si parlano davvero

    OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.

  2. 02

    Perché conta per te

    DALL-E 2 dimostra che la diffusione guidata da CLIP può generare immagini fotorealistiche da testo: apre la corsa ai modelli generativi multimodali e fissa gli standard qualitativi del campo.

    Alto Generazione immagini & video

    DALL·E 2: il salto in qualità della generazione di immagini

    OpenAI annuncia DALL·E 2, un modello text-to-image basato su diffusion che produce immagini fotorealistiche a 1024×1024. Accesso inizialmente via waitlist, poi pubblico a luglio.

  3. 03

    Perché conta per te

    Stable Diffusion porta la diffusione latente in open source: abbassa la barriera a zero e trasforma ogni sviluppatore Python in un potenziale builder di pipeline testo-immagine customizzate.

    Pietra miliare Generazione immagini & video

    Stable Diffusion: la generazione di immagini diventa open

    Stability AI rilascia pubblicamente pesi e codice di un modello latent diffusion text-to-image che gira anche su una GPU consumer. La generazione di immagini AI lascia il cloud.

  4. 04

    Perché conta per te

    GPT-4V integra vision nel modello di reasoning più capace disponibile: il primo LLM commerciale che capisce immagini arbitrarie in chat, aprendo applicazioni multimodali production-ready.

    Alto AI multimodale

    GPT-4V: ChatGPT impara a vedere (per davvero)

    OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.

  5. 05

    Perché conta per te

    Llama 3.2 porta le capacità vision nei modelli open weight di Meta: per la prima volta un modello multimodale frontier-class è ispezionabile, fine-tunable e deployabile senza API esterne.

    Alto Modelli open source

    Llama 3.2: Meta porta visione e edge ai modelli aperti

    Meta rilascia Llama 3.2 in 4 taglie: 1B e 3B per edge/mobile, 11B e 90B multimodali (vision). Prima volta che Meta entra serio in multimodale open + on-device.

  6. 06

    Perché conta per te

    Moshi di Kyutai è il primo modello speech-to-speech full-duplex con reasoning interno: dimostra che l'audio nativo non è solo trascrizione ma comprensione e generazione end-to-end in tempo reale.

    Alto Voce & audio

    Moshi: il primo voice assistant full-duplex open source di Kyutai

    Il laboratorio non-profit francese Kyutai presenta Moshi, voice assistant full-duplex con latenza ~200ms basato su un singolo modello multimodale che gestisce simultaneamente audio in ingresso e uscita.

  7. 07

    Perché conta per te

    Veo 3 genera video con audio sincronizzato nativo — dialoghi, SFX, musica coerenti con la scena: il primo sistema che unifica testo, immagine, audio e video in un'unica pipeline generativa.

    Alto Generazione immagini & video

    Veo 3 al Google I/O: generazione video con audio sincronizzato nativo

    Al Google I/O 2025, DeepMind presenta Veo 3 (video generation con audio nativo, dialoghi, effetti), Imagen 4 (immagini più dettagliate) e Flow (tool video AI per creativi).