Categoria

AI multimodale

46 voci

9 maggio 2026 Alto

Google lancia Gemini 3.1 Pro con comprensione nativa dei video

Gemini 3.1 Pro analizza video fino a un'ora di durata fotogramma per fotogramma, estrae eventi e risponde a domande sul contenuto. Alimenta i riepiloghi AI di YouTube e i clip video di Google Search, con una finestra di contesto da 2 milioni di token che include i frame video.

AI multimodale Video UnderstandingGeminiLong Context

10 aprile 2026 Medio

OpenAI aggiorna gpt-image-1: testo accurato, ritratti fotorealistici e inpainting API

OpenAI potenzia la generazione nativa di immagini in GPT-4o con gpt-image-1: testo accurato, ritratti fotorealistici, coerenza del personaggio tra immagini e inpainting via API. Sostituisce DALL-E 3 come backend principale.

AI multimodale

18 marzo 2026 Medio

Claude 4: aggiornamento capacità visive con analisi PDF fino a 1000 pagine

Anthropic potenzia le capacità visive di Claude 4: comprensione avanzata di grafici e documenti, analisi PDF fino a 1000 pagine, ragionamento 3D da immagini 2D e mixing multimodale del contesto.

AI multimodale

12 febbraio 2026 Medio

Google rilascia Imagen 3.5: il miglior modello text-to-image di Google

Google DeepMind rilascia Imagen 3.5 con output fotorealistici, testo accurato nelle immagini e watermark SynthID di default. Integrato in Gemini, Workspace e Vertex AI.

AI multimodale

16 gennaio 2026 Alto

DeepSeek rilascia Janus Pro: un solo modello per capire e generare immagini

Janus Pro è un modello multimodale unificato da 7 miliardi di parametri che comprende immagini e le genera da testo, superando DALL-E 3 e Stable Diffusion 3 sul benchmark GenEval. È open source e gira localmente.

AI multimodale DeepSeekMultimodalImage Generation

10 gennaio 2026 Pietra miliare

Alibaba lancia Qwen2.5-VL 72B: il miglior modello multimodale open source batte GPT-4o

Alibaba rilascia Qwen2.5-VL 72B con licenza Apache 2.0: supera GPT-4o su diversi benchmark multimodali e supporta documenti, grafici, video lunghi, OCR multilingua e azioni su interfacce UI.

AI multimodale QwenAlibabaOpen Source

12 settembre 2025 Medio

Mistral rilascia Pixtral 12B: modello multimodale che gira su GPU consumer

Pixtral 12B è il primo modello vision-language di Mistral, gestisce più immagini e grafici con licenza Apache 2.0, eseguibile su una singola GPU consumer.

AI multimodale

28 maggio 2025 Alto

Llama 4 Scout: 109B MoE multimodale con 10M di context e vision SOTA

Meta rilascia Llama 4 Scout, modello MoE 109B con 17B parametri attivi, 10M token di contesto, supporto immagini multiple e benchmark vision SOTA tra i modelli open.

AI multimodale Llama 4MoELong Context

18 aprile 2025 Alto

Kimi VL Thinking (Moonshot AI): primo modello visivo open con ragionamento a catena di pensiero via RL

Moonshot AI rilascia Kimi VL Thinking: modello visivo che combina visual encoding con long chain-of-thought reasoning tramite reinforcement learning. Risolve geometria multi-step, analisi di grafici scientifici, interpretazione di figure. Primo modello visivo open a parità con GPT-4o su task visivi multi-step.

AI multimodale Kimi VLvisual reasoningchain-of-thought

1 aprile 2025 Alto

Gemma 3: la prima versione multimodale con vision e 128k context

Google rilascia Gemma 3 con supporto vision nativo: encoder SigLIP, 128k token di contesto, frame video multipli e licenza Apache 2.0 per la variante 27B.

AI multimodale GemmaVisionOpen Source

25 febbraio 2025 Alto

Qwen2.5-VL: document understanding SOTA che supera GPT-4o su DocVQA

Alibaba rilascia Qwen2.5-VL in versione 72B e 7B, con analisi avanzata di PDF, tabelle e grafici, superando GPT-4o su DocVQA e stabilendo nuovi SOTA nella comprensione documentale.

AI multimodale VLMDocument UnderstandingPDF

18 febbraio 2025 Alto

Gemini 2.0 Flash Thinking: ragionamento multimodale con chain-of-thought visivo

Google DeepMind porta il reasoning trasparente al multimodal: Gemini 2.0 Flash Thinking mostra i passi intermedi di analisi su immagini complesse con chain-of-thought visivo.

AI multimodale Gemini 2.0Multimodal ReasoningChain-of-Thought

20 gennaio 2025 Medio

SmolVLM2 (HuggingFace): VLM da 2.2B per video e immagini su hardware consumer

HuggingFace rilascia SmolVLM2, modello visivo da 2.2B parametri che supera modelli 3x più grandi su video e immagini. Gira con 8GB di RAM. Primo VLM tiny con comprensione dei frame video. Porta il multimodale su laptop e dispositivi mobili.

AI multimodale SmolVLM2HuggingFacetiny VLM

10 gennaio 2025 Pietra miliare

Gemini 2.0 Flash: multimodale nativo con output audio e immagini

Google DeepMind rilascia Gemini 2.0 Flash Experimental: input testo+immagine+audio+video, output testo+immagine+audio, latenza ~50ms per token con tool use agente integrato.

AI multimodale GeminiMultimodal NativeAudio

22 novembre 2024 Alto

InternVL 2.5: 78B open source che batte GPT-4V su OCR e matematica

Shanghai AI Lab rilascia InternVL 2.5 da 78B parametri con Apache 2.0, SOTA su MathVista, OCRBench e ChartQA, superando GPT-4V su numerosi benchmark multimodali.

AI multimodale VLMSOTAMath

18 novembre 2024 Medio

Pixtral: Mistral porta la visione nei modelli open europei

Mistral rilascia Pixtral 12B (settembre, Apache 2.0) e Pixtral Large 124B (novembre): primi modelli multimodali europei competitivi. Forte attenzione su document understanding e OCR.

AI multimodale MistralPixtralVision

20 ottobre 2024 Alto

EMU3: un unico transformer per testo, immagini e video

BAAI presenta EMU3, modello unificato che genera testo, immagini e video con un singolo transformer autoregressivo addestrato su token discreti visivi.

AI multimodale Unified ModelAutoregressiveImage Generation

3 ottobre 2024 Alto

Pixtral 12B: primo modello multimodal Mistral con encoder visivo nativo

Mistral debutta nel multimodal con Pixtral 12B: encoder visivo nativo (non CLIP), multi-image e testo-immagine interleaved, licenza Apache 2.0.

AI multimodale PixtralMistralNative Vision Encoder

17 settembre 2024 Alto

Molmo: il VLM open weight che supera GPT-4V nel pointing

Allen AI rilascia Molmo, VLM open weight full-pipeline con capacità di pointing preciso su oggetti in immagini, superando GPT-4V su benchmark di grounding visivo.

AI multimodale VLMOpen SourcePointing

5 settembre 2024 Alto

Qwen2-VL: dynamic resolution, computer use e OCR doc-level a 72B

Alibaba lancia Qwen2-VL 72B con dynamic resolution per qualunque dimensione immagine, agent visivo con computer use e OCR a livello documento completo.

AI multimodale Qwen2-VLDynamic ResolutionComputer Use

25 luglio 2024 Alto

LLaVA-NeXT Video: comprensione video senza training dedicato

LLaVA-NeXT estende il multimodal alle sequenze video con frame sampling efficiente, raggiungendo QA video zero-shot senza training su dataset video-specifici.

AI multimodale LLaVA-NeXTVideo UnderstandingFrame Sampling

23 luglio 2024 Medio

SmolVLM: la famiglia VLM 256M-2B per dispositivi edge

HuggingFace rilascia SmolVLM, famiglia di VLM da 256M a 2B parametri con supporto multi-immagine, video e OCR, Apache 2.0, ottimizzata per deployment edge.

AI multimodale Edge AIVLMSmall Model

30 maggio 2024 Alto

Microsoft Phi-3 Vision: 4.2B parametri multimodal su dispositivi edge

Microsoft porta il multimodal sull'edge con Phi-3 Vision: 4.2B parametri, context 128k token, performance competitive con modelli 10x più grandi su benchmark visivi.

AI multimodale Phi-3Edge AISmall Language Model

14 maggio 2024 Medio

Phi-3-Vision-128K (Microsoft): VLM da 4.2B che batte modelli 4x più grandi su documenti

Microsoft rilascia Phi-3-Vision-128K: 4.2 miliardi di parametri, contesto da 128k token, comprensione di grafici e diagrammi, document Q&A. Supera modelli da 13-20B su benchmark di document understanding. Il miglior VLM compatto per deployment edge e inferenza enterprise cost-sensitive.

AI multimodale Phi-3 VisionMicrosoftsmall VLM

13 maggio 2024 Alto

GPT-4o: testo, voce e immagini in un solo modello

OpenAI presenta GPT-4o (omni), un modello unico che processa nativamente testo, audio e immagini con latenza voce di ~320 ms e qualità GPT-4 sul testo, gratuito anche per utenti free.

AI multimodale OpenAIGPT-4oVoice

8 maggio 2024 Medio

Qwen-VL-Chat: il miglior VLM open in cinese con bounding box

Alibaba rilascia Qwen-VL-Chat, VLM 7B con localizzazione bounding box in output, OCR bilingue cinese-inglese e comprensione avanzata del layout di documenti.

AI multimodale VLMOCRDocument Understanding

8 marzo 2024 Alto

IDEFICS2: 8B multimodal open con OCR nativo su documenti PDF

HuggingFace lancia IDEFICS2, 8B parametri Apache 2.0, training nativo su PDF e OCR, gestione superiore del testo nelle immagini rispetto ai predecessori.

AI multimodale IDEFICS2HuggingFaceOCR

30 gennaio 2024 Alto

InternVL: encoder visivo 6B parametri alla pari con GPT-4V

Shanghai AI Lab lancia InternVL con encoder visivo da 6B parametri open source, performance comparabili a GPT-4V su benchmark multimodal standard.

AI multimodale InternVLOpen SourceVisual Encoder

18 gennaio 2024 Medio

Moondream 1: il VLM da 1.6B che gira su Raspberry Pi

Moondream è un VLM da soli 1.6B parametri capace di captioning, VQA e object detection su hardware edge come Raspberry Pi e smartphone Android.

AI multimodale Edge AIVLMTiny Model

14 novembre 2023 Medio

LLaVA-NeXT e VideoLLaVA: LLaVA conquista il video

LLaVA si estende al video con frame sampling e positional encoding temporale, raggiungendo risultati competitivi su NExT-QA e ActivityNet senza training video dedicato.

AI multimodale VLMVideo UnderstandingLLaVA

3 ottobre 2023 Alto

CogVLM: visual expert separato per evitare la degradazione testuale

Tsinghua introduce CogVLM con visual expert indipendente dai parametri LLM, eliminando la performance degradation su testo puro e raggiungendo SOTA su VQA e OCR.

AI multimodale CogVLMVisual ExpertVQA

25 settembre 2023 Alto

ChatGPT vede, sente e parla: voice + vision in app mobile

ChatGPT Plus su iOS/Android riceve conversazione vocale (5 voci sintetiche) e input immagini (GPT-4V). Da chat testuale a assistente conversazionale completo.

AI multimodale OpenAIChatGPTvoice

25 settembre 2023 Alto

GPT-4V: ChatGPT impara a vedere (per davvero)

OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.

AI multimodale OpenAIGPT-4VVision

15 agosto 2023 Medio

OpenFlamingo (LAION/UW): riproduzione open di Flamingo con few-shot visivo multi-immagine

LAION e University of Washington rilasciano OpenFlamingo, riproduzione open-source di Flamingo di DeepMind: apprendimento few-shot visivo da esempi immagine+testo, varianti da 3B e 9B parametri. Primo modello open per ricerca multimodale senza costi API.

AI multimodale OpenFlamingoFlamingoopen source

15 giugno 2023 Alto

IDEFICS: la prima replica open source di Flamingo

HuggingFace rilascia IDEFICS, replica open weight di Flamingo in versione 9B e 80B, addestrata su LAION-5B e WikiMedia con few-shot visual in-context learning.

AI multimodale VLMOpen SourceFew-Shot Learning

30 maggio 2023 Alto

InstructBLIP: instruction tuning visivo su 26 dataset batte GPT-4V

Salesforce estende BLIP-2 con instruction tuning visivo su 26 dataset: benchmark superiori a GPT-4V su visual reasoning con architettura open.

AI multimodale InstructBLIPInstruction TuningVisual Reasoning

2 maggio 2023 Alto

MiniGPT-4 (KAUST): chatbot visivo open-source con un singolo layer di allineamento

KAUST mostra come costruire un visual chatbot capace collegando BLIP-2 e Vicuna con un singolo projection layer addestrato su 5.000 coppie immagine-testo. Prima dimostrazione che bastano ore di training su una GPU per creare un VLM funzionante.

AI multimodale MiniGPT-4KAUSTBLIP-2

20 aprile 2023 Alto

LLaVA: Visual Instruction Tuning apre il multimodal open source

LLaVA combina CLIP + LLaMA con 150k esempi generati da GPT-4 per creare il primo assistente visivo open source di qualità.

AI multimodale LLaVAVisual Instruction TuningOpen Source

30 gennaio 2023 Alto

BLIP-2: il Q-Former come ponte tra vision e linguaggio

Salesforce introduce BLIP-2: un modulo Q-Former leggero connette encoder visivo e LLM congelati, SOTA su captioning con 8x meno parametri trainabili.

AI multimodale BLIP-2Q-FormerImage Captioning

12 maggio 2022 Alto

Gato: DeepMind prova un singolo agente per 600+ compiti

DeepMind presenta Gato, una rete Transformer da 1.2 miliardi di parametri che con gli stessi pesi gioca a videogame Atari, controlla un braccio robotico, descrive immagini e dialoga.

AI multimodale DeepMindGatoGeneralist Agent

29 aprile 2022 Alto

DeepMind Flamingo: il primo visual language model few-shot

Flamingo porta il few-shot learning al mondo visivo: SOTA su VQA e captioning senza fine-tuning su task specifici.

AI multimodale Visual Language ModelFew-Shot LearningVQA

24 gennaio 2022 Medio

UnifiedIO (AI2): primo modello sequence-to-sequence unificato per testo, immagini, audio e video

AI2 e University of Washington presentano UnifiedIO: il primo modello sequence-to-sequence capace di gestire testo, immagini, audio, video e strutture dati in input e output attraverso una singola architettura, addestrato su 80+ task simultaneamente.

AI multimodale UnifiedIOmultimodalunified model

18 maggio 2021 Medio

MUM: Google presenta il modello multitask per Search

A Google I/O, l'azienda annuncia MUM (Multitask Unified Model), basato su T5, 1000 volte più potente di BERT secondo Google, capace di lavorare su 75 lingue e contenuti multimodali.

AI multimodale GoogleMUMSearch

5 gennaio 2021 Alto

DALL·E e CLIP: testo e immagini si parlano davvero

OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.

AI multimodale OpenAIDALL-ECLIP

22 ottobre 2020 Pietra miliare

Vision Transformer (ViT): "An Image is Worth 16x16 Words"

Google Research presenta il Vision Transformer, che applica un transformer puro a patch di immagini come fossero token, dimostrando che con sufficiente pre-training supera le CNN su ImageNet e benchmark vision.

AI multimodale GoogleVision TransformerViT

17 giugno 2020 Medio

Image GPT: pre-training generativo per le immagini

OpenAI presenta Image GPT (iGPT), un transformer che tratta i pixel come token e mostra che il pre-training generativo sequenziale di GPT funziona anche sulle immagini, raggiungendo prestazioni competitive su CIFAR-10.

AI multimodale OpenAIImage GPTGenerative Pretraining