Florence-2: un solo modello visivo per caption, detection, segmentazione e OCR

In una frase Microsoft rilascia Florence-2, un vision foundation model unificato che gestisce caption, object detection, segmentazione e OCR con un'unica architettura sequence-to-sequence prompt-based.

Verificato Fonte ufficiale

CondividiLinkedIn X

Di solito per ogni task visivo serve un modello diverso: uno per descrivere le immagini, uno per trovare gli oggetti, uno per ritagliare le sagome, uno per leggere il testo nelle foto. Florence-2 fa tutto questo con un unico modello.

Il segreto è l'approccio sequence-to-sequence: ogni task visivo viene convertito in una coppia prompt-risposta testuale. Vuoi una descrizione? Dai un prompt. Vuoi le coordinate di un oggetto? Stesso modello, prompt diverso. Il modello impara a rispondere a tutti questi "compiti" in modo unificato.

Florence-2 è piccolo (230M e 770M parametri) e veloce, il che lo rende pratico da usare in produzione senza hardware dedicato.