5 settembre 2024 Alto AI multimodale · 1 min lettura

Qwen2-VL: dynamic resolution, computer use e OCR doc-level a 72B

In una frase Alibaba lancia Qwen2-VL 72B con dynamic resolution per qualunque dimensione immagine, agent visivo con computer use e OCR a livello documento completo.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

Qwen2-VL è un modello di Alibaba capace di analizzare immagini di qualsiasi dimensione senza ritagliarle o ridimensionarle — le elabora nella loro risoluzione nativa. Può leggere documenti interi, fare OCR su pagine di PDF e persino controllare un computer guardando lo schermo come farebbe un umano. Con 72 miliardi di parametri è tra i modelli multimodali open più potenti mai rilasciati.

Aziende

Alibaba, Qwen Team

Tool

Qwen2-VL

Tag

Qwen2-VLDynamic ResolutionComputer UseOCRAlibabaAgent

Fonti

https://qwenlm.github.io/blog/qwen2-vl/