3 ottobre 2023 Alto AI multimodale · 1 min lettura

CogVLM: visual expert separato per evitare la degradazione testuale

In una frase Tsinghua introduce CogVLM con visual expert indipendente dai parametri LLM, eliminando la performance degradation su testo puro e raggiungendo SOTA su VQA e OCR.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

CogVLM è un modello dell'università di Tsinghua che risolve un problema comune nei modelli multimodali: quando si aggiunge la comprensione visiva, spesso le capacità testuali peggiorano. CogVLM usa parametri separati per il ragionamento visivo — un "esperto visivo" — che non tocca i pesi del modello linguistico originale. Il risultato è un modello che eccelle sia su immagini che su testo puro.

Aziende

Tsinghua University, Zhipu AI

Tool

CogVLM

Tag

CogVLMVisual ExpertVQAOCRTsinghua University

Fonti

https://github.com/THUDM/CogVLM