29 aprile 2022 Alto AI multimodale · 1 min lettura

DeepMind Flamingo: il primo visual language model few-shot

In una frase Flamingo porta il few-shot learning al mondo visivo: SOTA su VQA e captioning senza fine-tuning su task specifici.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

Flamingo è un modello creato da DeepMind che capisce sia testo che immagini insieme. La cosa straordinaria è che riesce a rispondere a domande su immagini o descriverle mostrando solo pochi esempi, senza dover essere ri-addestrato da capo. È stato il primo modello a raggiungere risultati all'avanguardia su benchmark visivi usando pochissimi esempi dimostrativi. Ha aperto la strada ai moderni assistenti multimodali.

Aziende

DeepMind

Tool

Flamingo

Tag

Visual Language ModelFew-Shot LearningVQAImage CaptioningDeepMind

Fonti

https://arxiv.org/abs/2204.14198