30 gennaio 2024 Alto AI multimodale · 1 min lettura

InternVL: encoder visivo 6B parametri alla pari con GPT-4V

In una frase Shanghai AI Lab lancia InternVL con encoder visivo da 6B parametri open source, performance comparabili a GPT-4V su benchmark multimodal standard.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

InternVL è stato uno dei primi modelli open source a competere seriamente con GPT-4V nei test di comprensione visiva. La sua caratteristica principale è un encoder di immagini molto grande — 6 miliardi di parametri — molto più potente di CLIP. È stato progettato per scalare il lato visivo dei modelli multimodali con la stessa cura solitamente dedicata al lato linguistico. Ha poi servito da base per molte versioni successive più potenti.

Aziende

Shanghai AI Laboratory

Tool

InternVL, InternViT

Tag

InternVLOpen SourceVisual EncoderGPT-4V ComparableShanghai AI Lab

Fonti

https://internvl.github.io