Alto AI multimodale · 1 min lettura
Qwen2-VL: dynamic resolution, computer use e OCR doc-level a 72B
In una frase Alibaba lancia Qwen2-VL 72B con dynamic resolution per qualunque dimensione immagine, agent visivo con computer use e OCR a livello documento completo.
Livello di lettura
Qwen2-VL è un modello di Alibaba capace di analizzare immagini di qualsiasi dimensione senza ritagliarle o ridimensionarle — le elabora nella loro risoluzione nativa. Può leggere documenti interi, fare OCR su pagine di PDF e persino controllare un computer guardando lo schermo come farebbe un umano. Con 72 miliardi di parametri è tra i modelli multimodali open più potenti mai rilasciati.
Aziende
Alibaba, Qwen Team
Tool
Qwen2-VL
Tag
Qwen2-VLDynamic ResolutionComputer UseOCRAlibabaAgent
Fonti