OpenFlamingo (LAION/UW): riproduzione open di Flamingo con few-shot visivo multi-immagine

In una frase LAION e University of Washington rilasciano OpenFlamingo, riproduzione open-source di Flamingo di DeepMind: apprendimento few-shot visivo da esempi immagine+testo, varianti da 3B e 9B parametri. Primo modello open per ricerca multimodale senza costi API.

Da rivedere Fonte autorevole

CondividiLinkedIn X

Nel 2022 DeepMind aveva presentato Flamingo — un modello straordinario che poteva imparare nuovi task visivi semplicemente guardando pochi esempi nella conversazione. Mostragli tre foto di cani con le loro razze, e poi dagli una foto sconosciuta: capisce da solo cosa vuoi che faccia.

Il problema: Flamingo era proprietario, accessibile solo tramite API a pagamento, e il codice non era pubblico. Per i ricercatori universitari o i team con budget limitato, era praticamente irraggiungibile.

LAION (la community tedesca che aveva già costruito LAION-5B, il dataset gigantesco usato per addestrare Stable Diffusion) e l'Università di Washington si sono messi al lavoro per riprodurre Flamingo con risorse pubbliche.

Il risultato è OpenFlamingo: due versioni (3B e 9B parametri), codice completamente aperto, pesi scaricabili gratuitamente. Dato un set di esempi nella forma "immagine → descrizione, immagine → descrizione, immagine → ?", il modello completa il pattern.

Questa capacità di apprendimento da pochi esempi (few-shot) era innovativa perché non richiedeva nessun fine-tuning aggiuntivo — bastava strutturare bene il prompt. Per la prima volta, chi non aveva accesso a cluster GPU enormi poteva fare ricerca su questa classe di modelli.