Salta al contenuto
AImpact
IT EN
Medio AI multimodale · 1 min lettura

Qwen-VL-Chat: il miglior VLM open in cinese con bounding box

In una frase Alibaba rilascia Qwen-VL-Chat, VLM 7B con localizzazione bounding box in output, OCR bilingue cinese-inglese e comprensione avanzata del layout di documenti.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

I modelli vision-language occidentali erano ottimi in inglese ma fragili con il cinese. Alibaba ha colmato questo gap con Qwen-VL-Chat: un modello da 7 miliardi di parametri che non solo capisce immagini e testo in entrambe le lingue, ma è in grado di localizzare oggetti nell'immagine indicando le coordinate esatte. Questo significa che puoi chiedergli "dov'è il titolo del documento?" e lui ti restituisce un rettangolo preciso. Utilissimo per leggere fatture, moduli e documenti scannerizzati.

Aziende

Alibaba

Tool

Qwen-VL, Qwen-VL-Chat

Tag

VLMOCRDocument UnderstandingChineseBounding Box

Fonti