MiniGPT-4 (KAUST): chatbot visivo open-source con un singolo layer di allineamento

In una frase KAUST mostra come costruire un visual chatbot capace collegando BLIP-2 e Vicuna con un singolo projection layer addestrato su 5.000 coppie immagine-testo. Prima dimostrazione che bastano ore di training su una GPU per creare un VLM funzionante.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Dopo che GPT-4 aveva mostrato di capire le immagini, tutti si chiedevano: quanto è difficile costruire qualcosa di simile? Servono miliardi di parametri, mesi di training e server enormi?

Ricercatori dell'Università King Abdullah di Arabia Saudita (KAUST) hanno risposto con un esperimento sorprendente. Hanno preso due modelli già esistenti — BLIP-2 (un encoder visivo che converte immagini in "descrizioni" comprensibili da un LLM) e Vicuna (una versione open-source di LLaMA addestrata a chattare) — e li hanno collegati con uno strato di traduzione molto semplice chiamato "projection layer".

Questo strato di traduzione è stato addestrato su sole 5.000 coppie di immagini e descrizioni. Non milioni, non miliardi: cinquemila esempi. Il training ha richiesto poche ore su una singola GPU.

Il risultato — MiniGPT-4 — era capace di descrivere immagini, rispondere a domande su foto, e persino generare siti web da uno screenshot. Non perfetto, ma sorprendentemente capace.

La lezione che il mondo del ricerca ha imparato: non serve reinventare tutto. Puoi "collegare" un occhio visivo già fatto a un cervello linguistico già fatto con pochissimo sforzo. Questa ricetta ha generato decine di VLM open-source nei mesi successivi.