Transfusion — Meta Unisce Diffusion e LLM in un Singolo Modello

Cos'è: Transfusion è una ricetta di training multimodale presentata da Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer e Omer Levy (Meta, con contributi Waymo) ad agosto 2024. Un unico transformer viene addestrato contemporaneamente con due obiettivi: next-token prediction sul testo discreto e diffusion loss sulle immagini continue (representate come patch in spazio latente). Niente tokenizzazione delle immagini, niente encoder visivo separato come CLIP: un solo modello genera testo e immagini in modo nativo. Le scaling laws mostrano comportamento prevedibile fino a 7B parametri, indicando che l'approccio scala oltre la sperimentazione.

Il bivio della multimodalità: tokenize-everything vs encoder-separato

Fino a Transfusion, i modelli multimodali aperti seguivano due strade ben definite. La prima, rappresentata da Chameleon (Meta, maggio 2024), è "tokenize-everything": le immagini vengono quantizzate in token discreti tramite un VQ-VAE (vector-quantized variational autoencoder), poi il transformer le tratta esattamente come testo. Vantaggio: un solo obiettivo di training, una sola architettura. Svantaggio: la quantizzazione è lossy. Per quanto raffinata, la pipeline VQ-VAE comprime un'immagine continua in un alfabeto finito di codici, perdendo dettagli fini (texture, gradiente, alta frequenza) che il modello poi non può più recuperare.

La seconda strada è l'approccio "encoder visivo separato": un encoder pre-addestrato (CLIP, SigLIP, DINOv2) estrae features dalle immagini, e queste features vengono proiettate nello spazio degli embedding del language model. È la ricetta di GPT-4V, Claude 3 Vision, Llava, Gemini. Funziona bene per la comprensione (image-to-text) ma è asimmetrica: il modello sa "vedere" ma non sa "disegnare". Per generare immagini serve un sistema separato (DALL-E, Imagen, Stable Diffusion) chiamato come tool esterno.

Transfusion propone una terza strada che evita entrambi i compromessi. Le immagini restano in spazio continuo (rappresentate come sequenze di patch latenti via VAE non-quantizzato), e il modello impara a generarle con un obiettivo di diffusion. Il testo resta discreto e usa next-token prediction. Lo stesso transformer fa entrambe le cose, dentro lo stesso forward pass, sulla stessa sequenza mista di token testuali e patch d'immagine.

L'architettura: un transformer, due obiettivi, attenzione mista

Il design è elegante nella sua minimalità. Una sequenza di input in Transfusion è una concatenazione: testo seguito da un'immagine seguita da altro testo, in qualsiasi ordine. I token di testo sono token discreti standard. I "token" d'immagine sono in realtà patch continue: l'immagine viene codificata da un VAE pre-addestrato in un grid di patch latenti (tipicamente 16x16 patch per un'immagine 256x256), e ogni patch è un vettore continuo proiettato nella dimensione del modello.

I confini tra le modalità sono segnalati da token speciali BOI (begin of image) ed EOI (end of image). Tra BOI ed EOI il modello sa di trovarsi in "modalità immagine" e attiva l'obiettivo di diffusion: le patch durante il training sono noised con un livello di rumore casuale, e il modello deve predire il rumore (denoising objective standard DDPM/EDM). Fuori da BOI/EOI è "modalità testo" e l'obiettivo è next-token cross-entropy standard.

Una scelta importante riguarda l'attenzione. Per il testo si usa attenzione causale (un token vede solo il passato). Per le patch d'immagine all'interno di un blocco BOI...EOI si usa attenzione bidirezionale: ogni patch può attendere a tutte le altre patch della stessa immagine, perché in diffusion la generazione non è sequenziale ma simultanea (tutte le patch vengono denoised insieme). Questo "attenzione mista" è implementata con maschere block-diagonal: causale nel testo, full nel blocco immagine, causale tra blocchi diversi.

Scaling laws unificate: un solo asse di scala per due modalità

Il contributo forse più importante del paper non è l'architettura ma la dimostrazione empirica delle scaling laws. Gli autori addestrano Transfusion a sette scale (da 163M a 7B parametri) e misurano la loss separata per testo e immagine in funzione del compute. Entrambe le loss seguono una power law pulita rispetto al compute speso, con esponenti diversi ma comportamento prevedibile. Questo è cruciale: significa che un team può estrapolare il guadagno atteso dallo scaling, esattamente come per i language model puri (Chinchilla scaling laws).

Confronto diretto con Chameleon a parità di compute: Transfusion ottiene FID più bassi (qualità d'immagine migliore) e CIDEr più alti (qualità di image captioning) usando circa 1/3 dei FLOPs per raggiungere lo stesso livello di performance. Il vantaggio cresce con la scala. La spiegazione plausibile è che la quantizzazione VQ di Chameleon introduce un floor di rumore che limita asintoticamente la qualità raggiungibile, mentre la diffusion in spazio continuo non ha questo limite.

Su benchmark di generazione testo-to-image standard (MS-COCO 2014), Transfusion 7B raggiunge FID 6.78, competitivo con SDXL e DALL-E 3 a parità di scala, pur essendo un modello generalista che fa anche testo. Su image captioning (CIDEr su COCO) supera Chameleon 7B di circa 5 punti.

Implicazioni: la strada verso Llama 4 multimodal e oltre

Transfusion è chiaramente un paper "di piattaforma", non un prodotto. Pubblicato ad agosto 2024 con tre mesi di anticipo sul ciclo di rilascio Llama, segnala la direzione architetturale che Meta sta esplorando per la generazione successiva. Llama 3.2 (settembre 2024) ha introdotto multimodalità via encoder visivo separato, ricetta classica. Llama 4 e successori, plausibilmente, adotteranno l'approccio Transfusion: un modello unico, nativamente multimodale, capace sia di leggere immagini sia di generarle senza sistemi esterni.

Le implicazioni vanno oltre Meta. Il messaggio del paper è che la separazione "modello linguistico più modello d'immagine più collante" è un'imposizione storica, non una necessità. Un transformer abbastanza grande può imparare entrambe le distribuzioni purché gli si dia l'obiettivo giusto su ciascuna. Gli autori suggeriscono esplicitamente l'estensione ad audio (waveform continue, diffusion) e video (sequenze di frame, diffusion temporale), aprendo la prospettiva di un modello "unified generative" come traguardo realistico.

C'è anche un tema di efficienza operativa: per il deployment, mantenere un solo modello in memoria invece di tre o quattro (LLM, encoder visivo, decoder di immagine, eventualmente decoder audio) semplifica drasticamente l'infrastruttura. Per i provider commerciali con miliardi di richieste al giorno, la differenza è enorme.

Link alla fonte originale

arxiv.org/abs/2408.11039 →

Paper originale EN, Zhou et al. Meta & Waymo, agosto 2024. Codice non rilasciato pubblicamente al momento della pubblicazione, ma l'approccio è stato discusso da Meta come direzione di ricerca per future generazioni Llama.