Alto AI multimodale · 1 min lettura
CogVLM: visual expert separato per evitare la degradazione testuale
In una frase Tsinghua introduce CogVLM con visual expert indipendente dai parametri LLM, eliminando la performance degradation su testo puro e raggiungendo SOTA su VQA e OCR.
Livello di lettura
CogVLM è un modello dell'università di Tsinghua che risolve un problema comune nei modelli multimodali: quando si aggiunge la comprensione visiva, spesso le capacità testuali peggiorano. CogVLM usa parametri separati per il ragionamento visivo — un "esperto visivo" — che non tocca i pesi del modello linguistico originale. Il risultato è un modello che eccelle sia su immagini che su testo puro.
Aziende
Tsinghua University, Zhipu AI
Tool
CogVLM
Tag
CogVLMVisual ExpertVQAOCRTsinghua University
Fonti