Medio AI multimodale · 1 min lettura
Qwen-VL-Chat: il miglior VLM open in cinese con bounding box
In una frase Alibaba rilascia Qwen-VL-Chat, VLM 7B con localizzazione bounding box in output, OCR bilingue cinese-inglese e comprensione avanzata del layout di documenti.
Livello di lettura
I modelli vision-language occidentali erano ottimi in inglese ma fragili con il cinese. Alibaba ha colmato questo gap con Qwen-VL-Chat: un modello da 7 miliardi di parametri che non solo capisce immagini e testo in entrambe le lingue, ma è in grado di localizzare oggetti nell'immagine indicando le coordinate esatte. Questo significa che puoi chiedergli "dov'è il titolo del documento?" e lui ti restituisce un rettangolo preciso. Utilissimo per leggere fatture, moduli e documenti scannerizzati.
Aziende
Alibaba
Tool
Qwen-VL, Qwen-VL-Chat
Tag
VLMOCRDocument UnderstandingChineseBounding Box
Fonti