Alto AI multimodale · 1 min lettura
InternVL: encoder visivo 6B parametri alla pari con GPT-4V
In una frase Shanghai AI Lab lancia InternVL con encoder visivo da 6B parametri open source, performance comparabili a GPT-4V su benchmark multimodal standard.
Livello di lettura
InternVL è stato uno dei primi modelli open source a competere seriamente con GPT-4V nei test di comprensione visiva. La sua caratteristica principale è un encoder di immagini molto grande — 6 miliardi di parametri — molto più potente di CLIP. È stato progettato per scalare il lato visivo dei modelli multimodali con la stessa cura solitamente dedicata al lato linguistico. Ha poi servito da base per molte versioni successive più potenti.
Aziende
Shanghai AI Laboratory
Tool
InternVL, InternViT
Tag
InternVLOpen SourceVisual EncoderGPT-4V ComparableShanghai AI Lab
Fonti