MiniGPT-4 (KAUST): chatbot visivo open-source con un singolo layer di allineamento
In una frase KAUST mostra come costruire un visual chatbot capace collegando BLIP-2 e Vicuna con un singolo projection layer addestrato su 5.000 coppie immagine-testo. Prima dimostrazione che bastano ore di training su una GPU per creare un VLM funzionante.
Dopo che GPT-4 aveva mostrato di capire le immagini, tutti si chiedevano: quanto è difficile costruire qualcosa di simile? Servono miliardi di parametri, mesi di training e server enormi?
Ricercatori dell'Università King Abdullah di Arabia Saudita (KAUST) hanno risposto con un esperimento sorprendente. Hanno preso due modelli già esistenti — BLIP-2 (un encoder visivo che converte immagini in "descrizioni" comprensibili da un LLM) e Vicuna (una versione open-source di LLaMA addestrata a chattare) — e li hanno collegati con uno strato di traduzione molto semplice chiamato "projection layer".
Questo strato di traduzione è stato addestrato su sole 5.000 coppie di immagini e descrizioni. Non milioni, non miliardi: cinquemila esempi. Il training ha richiesto poche ore su una singola GPU.
Il risultato — MiniGPT-4 — era capace di descrivere immagini, rispondere a domande su foto, e persino generare siti web da uno screenshot. Non perfetto, ma sorprendentemente capace.
La lezione che il mondo del ricerca ha imparato: non serve reinventare tutto. Puoi "collegare" un occhio visivo già fatto a un cervello linguistico già fatto con pochissimo sforzo. Questa ricetta ha generato decine di VLM open-source nei mesi successivi.
Aziende
KAUST
Tool
—
Tag
Fonti