Llama 4 Scout: 109B MoE multimodale con 10M di context e vision SOTA
Meta rilascia Llama 4 Scout, modello MoE 109B con 17B parametri attivi, 10M token di contesto, supporto immagini multiple e benchmark vision SOTA tra i modelli open.
Categoria
39 voci
Meta rilascia Llama 4 Scout, modello MoE 109B con 17B parametri attivi, 10M token di contesto, supporto immagini multiple e benchmark vision SOTA tra i modelli open.
Moonshot AI rilascia Kimi VL Thinking: modello visivo che combina visual encoding con long chain-of-thought reasoning tramite reinforcement learning. Risolve geometria multi-step, analisi di grafici scientifici, interpretazione di figure. Primo modello visivo open a parità con GPT-4o su task visivi multi-step.
Google rilascia Gemma 3 con supporto vision nativo: encoder SigLIP, 128k token di contesto, frame video multipli e licenza Apache 2.0 per la variante 27B.
Alibaba rilascia Qwen2.5-VL in versione 72B e 7B, con analisi avanzata di PDF, tabelle e grafici, superando GPT-4o su DocVQA e stabilendo nuovi SOTA nella comprensione documentale.
Google DeepMind porta il reasoning trasparente al multimodal: Gemini 2.0 Flash Thinking mostra i passi intermedi di analisi su immagini complesse con chain-of-thought visivo.
HuggingFace rilascia SmolVLM2, modello visivo da 2.2B parametri che supera modelli 3x più grandi su video e immagini. Gira con 8GB di RAM. Primo VLM tiny con comprensione dei frame video. Porta il multimodale su laptop e dispositivi mobili.
Google DeepMind rilascia Gemini 2.0 Flash Experimental: input testo+immagine+audio+video, output testo+immagine+audio, latenza ~50ms per token con tool use agente integrato.
Shanghai AI Lab rilascia InternVL 2.5 da 78B parametri con Apache 2.0, SOTA su MathVista, OCRBench e ChartQA, superando GPT-4V su numerosi benchmark multimodali.
Mistral rilascia Pixtral 12B (settembre, Apache 2.0) e Pixtral Large 124B (novembre): primi modelli multimodali europei competitivi. Forte attenzione su document understanding e OCR.
BAAI presenta EMU3, modello unificato che genera testo, immagini e video con un singolo transformer autoregressivo addestrato su token discreti visivi.
Mistral debutta nel multimodal con Pixtral 12B: encoder visivo nativo (non CLIP), multi-image e testo-immagine interleaved, licenza Apache 2.0.
Allen AI rilascia Molmo, VLM open weight full-pipeline con capacità di pointing preciso su oggetti in immagini, superando GPT-4V su benchmark di grounding visivo.
Alibaba lancia Qwen2-VL 72B con dynamic resolution per qualunque dimensione immagine, agent visivo con computer use e OCR a livello documento completo.
LLaVA-NeXT estende il multimodal alle sequenze video con frame sampling efficiente, raggiungendo QA video zero-shot senza training su dataset video-specifici.
HuggingFace rilascia SmolVLM, famiglia di VLM da 256M a 2B parametri con supporto multi-immagine, video e OCR, Apache 2.0, ottimizzata per deployment edge.
Microsoft porta il multimodal sull'edge con Phi-3 Vision: 4.2B parametri, context 128k token, performance competitive con modelli 10x più grandi su benchmark visivi.
Microsoft rilascia Phi-3-Vision-128K: 4.2 miliardi di parametri, contesto da 128k token, comprensione di grafici e diagrammi, document Q&A. Supera modelli da 13-20B su benchmark di document understanding. Il miglior VLM compatto per deployment edge e inferenza enterprise cost-sensitive.
OpenAI presenta GPT-4o (omni), un modello unico che processa nativamente testo, audio e immagini con latenza voce di ~320 ms e qualità GPT-4 sul testo, gratuito anche per utenti free.
Alibaba rilascia Qwen-VL-Chat, VLM 7B con localizzazione bounding box in output, OCR bilingue cinese-inglese e comprensione avanzata del layout di documenti.
HuggingFace lancia IDEFICS2, 8B parametri Apache 2.0, training nativo su PDF e OCR, gestione superiore del testo nelle immagini rispetto ai predecessori.
Shanghai AI Lab lancia InternVL con encoder visivo da 6B parametri open source, performance comparabili a GPT-4V su benchmark multimodal standard.
Moondream è un VLM da soli 1.6B parametri capace di captioning, VQA e object detection su hardware edge come Raspberry Pi e smartphone Android.
LLaVA si estende al video con frame sampling e positional encoding temporale, raggiungendo risultati competitivi su NExT-QA e ActivityNet senza training video dedicato.
Tsinghua introduce CogVLM con visual expert indipendente dai parametri LLM, eliminando la performance degradation su testo puro e raggiungendo SOTA su VQA e OCR.
ChatGPT Plus su iOS/Android riceve conversazione vocale (5 voci sintetiche) e input immagini (GPT-4V). Da chat testuale a assistente conversazionale completo.
OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.
LAION e University of Washington rilasciano OpenFlamingo, riproduzione open-source di Flamingo di DeepMind: apprendimento few-shot visivo da esempi immagine+testo, varianti da 3B e 9B parametri. Primo modello open per ricerca multimodale senza costi API.
HuggingFace rilascia IDEFICS, replica open weight di Flamingo in versione 9B e 80B, addestrata su LAION-5B e WikiMedia con few-shot visual in-context learning.
Salesforce estende BLIP-2 con instruction tuning visivo su 26 dataset: benchmark superiori a GPT-4V su visual reasoning con architettura open.
KAUST mostra come costruire un visual chatbot capace collegando BLIP-2 e Vicuna con un singolo projection layer addestrato su 5.000 coppie immagine-testo. Prima dimostrazione che bastano ore di training su una GPU per creare un VLM funzionante.
LLaVA combina CLIP + LLaMA con 150k esempi generati da GPT-4 per creare il primo assistente visivo open source di qualità.
Salesforce introduce BLIP-2: un modulo Q-Former leggero connette encoder visivo e LLM congelati, SOTA su captioning con 8x meno parametri trainabili.
DeepMind presenta Gato, una rete Transformer da 1.2 miliardi di parametri che con gli stessi pesi gioca a videogame Atari, controlla un braccio robotico, descrive immagini e dialoga.
Flamingo porta il few-shot learning al mondo visivo: SOTA su VQA e captioning senza fine-tuning su task specifici.
AI2 e University of Washington presentano UnifiedIO: il primo modello sequence-to-sequence capace di gestire testo, immagini, audio, video e strutture dati in input e output attraverso una singola architettura, addestrato su 80+ task simultaneamente.
A Google I/O, l'azienda annuncia MUM (Multitask Unified Model), basato su T5, 1000 volte più potente di BERT secondo Google, capace di lavorare su 75 lingue e contenuti multimodali.
OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.
Google Research presenta il Vision Transformer, che applica un transformer puro a patch di immagini come fossero token, dimostrando che con sufficiente pre-training supera le CNN su ImageNet e benchmark vision.
OpenAI presenta Image GPT (iGPT), un transformer che tratta i pixel come token e mostra che il pre-training generativo sequenziale di GPT funziona anche sulle immagini, raggiungendo prestazioni competitive su CIFAR-10.