8 maggio 2024 Medio AI multimodale · 1 min lettura

Qwen-VL-Chat: il miglior VLM open in cinese con bounding box

In una frase Alibaba rilascia Qwen-VL-Chat, VLM 7B con localizzazione bounding box in output, OCR bilingue cinese-inglese e comprensione avanzata del layout di documenti.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

I modelli vision-language occidentali erano ottimi in inglese ma fragili con il cinese. Alibaba ha colmato questo gap con Qwen-VL-Chat: un modello da 7 miliardi di parametri che non solo capisce immagini e testo in entrambe le lingue, ma è in grado di localizzare oggetti nell'immagine indicando le coordinate esatte. Questo significa che puoi chiedergli "dov'è il titolo del documento?" e lui ti restituisce un rettangolo preciso. Utilissimo per leggere fatture, moduli e documenti scannerizzati.

Aziende

Alibaba

Tool

Qwen-VL, Qwen-VL-Chat

Tag

VLMOCRDocument UnderstandingChineseBounding Box

Fonti

https://arxiv.org/abs/2308.12966