MCP a 18 mesi: l'ecosistema dei server raggiunge la massa critica
A 18 mesi dal lancio (novembre 2024), Model Context Protocol consolida: migliaia di server pubblici, adozione cross-vendor confermata, primo registry ufficiale stabile.
Categoria
54 voci
A 18 mesi dal lancio (novembre 2024), Model Context Protocol consolida: migliaia di server pubblici, adozione cross-vendor confermata, primo registry ufficiale stabile.
Google rilascia due agenti di ricerca sul Gemini API: Deep Research (veloce) e Deep Research Max (deep+lento, 93.3% su DeepSearchQA). MCP support per dati privati, visualizzazioni native con Nano Banana 2.
OpenAI riorganizza Operator (gennaio 2025) e ChatGPT Agent (luglio 2025) in una piattaforma unificata, con SDK aggiornato e nuove modalità di esecuzione async multi-task.
Anthropic rilascia Cowork in research preview: un agente desktop con accesso a shell sandbox e file locali, pensato per chi non vive nel terminale come fa Claude Code.
Il Model Context Protocol, lanciato da Anthropic a novembre 2024, raggiunge masse critiche: MCP Inspector GA, MCP-UI per server con interfaccia, registry ufficiale, supporto OpenAI/Google. Diventa lo 'USB-C dei tool LLM'.
Anthropic introduce Skills: bundle di istruzioni + script + risorse che Claude carica automaticamente quando il task lo richiede. Sostituisce di fatto la maggior parte dei prompt sistemi custom enterprise.
OpenAI lancia 'ChatGPT Agent': fusione di Operator (browser use), Deep Research (ricerca lunga) e ChatGPT classico, in un agente unico che ha browser virtuale + terminale + API tools.
L'Universita' della British Columbia pubblica ADAS (Automated Design of Agentic Systems): un meta-agente che cerca nuove architetture agente scrivendo e valutando codice Python. Scopre pattern originali (critic dinamico, step-back abstraction) che superano agenti disegnati da umani. Primo sistema che automatizza la ricerca sull'architettura degli agenti.
Google annuncia A2A (Agent-to-Agent) Protocol con 50+ partner, standard aperto per comunicazione tra agenti AI di vendor diversi, complementare a MCP per l'interoperabilità nell'ecosistema agente.
Google lancia ADK (Agent Development Kit) open source per costruire agenti Gemini e il protocollo A2A per la comunicazione standardizzata tra agenti di vendor diversi.
Ricercatori MIT e Google dimostrano che far dibattere e criticare piu' istanze LLM le stesse risposte per N round porta a risposte piu' accurate: +20% su benchmark aritmetici e di ragionamento vs singolo agente. Fonda il pattern di verifica basata sul dibattito negli agenti moderni.
Butterfly Effect lancia Manus, agente AI cinese ad accesso invito che esegue task autonomi (analisi azionarie, ricerca, screening CV) producendo report con file. Hype paragonabile a Devin 2024, accesso a invito.
OpenAI lancia Deep Research, agente autonomo basato su o3 che naviga il web per 10-30 minuti, esegue centinaia di ricerche e produce report con citazioni verificate.
Google lancia ADK, SDK open source per costruire agenti multi-livello gerarchici su Gemini con tool calling strutturato, state machine native e orchestrazione multi-agent nativa.
Microsoft Research pubblica UFO (UI-Focused Agent), un agente che osserva lo schermo Windows (app attiva + screenshot + albero controlli), pianifica azioni e le esegue tramite Windows UI Automation e Win32 API. Primo sistema Windows-native con supporto workflow multi-applicazione affidabile.
OpenAI lancia Operator (research preview): un agente AI che esegue task nel browser per conto dell'utente. Visita siti, compila form, prenota servizi. Disponibile per gli abbonati ChatGPT Pro USA.
Browser Use e' una libreria Python open source che permette a GPT-4, Claude e Gemini di controllare un browser Chromium via Playwright in modo affidabile. 30k stelle GitHub nel primo mese. Primo layer di controllo browser veramente usabile senza estensioni custom. Abilita web agent tasks affidabili su qualsiasi sito.
Hugging Face rilascia smolagents, libreria minimale per agenti LLM in ~1000 righe. Promuove il paradigma 'code agents': l'agente scrive snippet Python invece di chiamate tool JSON.
Google rilascia Gemini 2.0 Flash (multimodale nativo, tool use, output immagine/audio) e presenta Project Astra (assistente video real-time), Mariner (browser agent), Jules (coding agent).
Microsoft Research pubblica Magentic-One: un sistema con Orchestrator + 4 agenti specializzati (WebSurfer, FileSurfer, Coder, ComputerTerminal). Prima posizione su GAIA benchmark. Insight chiave: agenti stateless specializzati + orchestratore stateful superano un agente monolitico. Open source MIT.
Anthropic abilita 'Computer Use' su Claude 3.5 Sonnet: l'agente guarda screenshot del desktop, sposta il cursore, clicca, digita. Per la prima volta un LLM commerciale opera direttamente sull'interfaccia grafica.
n8n aggiunge nodi AI Agent nativi al suo workflow builder, permettendo di connettere loop agentici LLM a 400+ app aziendali senza codice, segnando l'arrivo degli agenti nell'automazione mainstream.
OpenAI pubblica Swarm su GitHub, framework Python minimalista per orchestrare più agenti con handoff e routine, esplicitamente positioned come 'educational' precursor di un futuro Agents SDK.
Flowise v2 introduce sequential e parallel tool use negli agenti, tipi di memoria multipli (buffer, summary, vector), agent loops configurabili visivamente e supporto a LlamaIndex.
Dify 0.7 porta un visual builder no-code/low-code per workflow agentici complessi, RAG integrato con parsing documenti, supporto a 10+ provider LLM e deployment self-hostable su Docker.
UIUC pubblica Agentless: un pipeline a due fasi (localizza il fault, genera la repair) senza loop agentici complessi. Supera AutoCodeRover e SWE-agent su SWE-bench. Primo sistema open in cima alla classifica SWE-bench al momento della pubblicazione. Sfida l'assunzione che piu' complessita' agente significhi piu' performance.
Agno, rinominato da Phidata, è un framework agente Python model-agnostic con memory, storage, tool e knowledge base modulari, native multimodal support e performance 10x superiori a LangChain.
Princeton presenta SWE-agent, agente con interfaccia ACI dedicata che risolve issue reali di GitHub su SWE-bench al 12.5% — da 6x a 12x meglio dei sistemi precedenti.
Cognition Labs presenta Devin, agente AI che pianifica, scrive codice, debugga ed esegue task SWE end-to-end. Demo virale, SWE-bench 13.86%. Definisce la categoria 'AI software engineer'.
TaskWeaver di Microsoft è un agent framework code-first che converte ogni richiesta in codice Python eseguibile in sandbox, con stato persistente tra step e plugin system strutturato.
Mufeed VH pubblica Devika, un agente AI software engineer open source: accetta obiettivi di programmazione ad alto livello, li decompone, cerca sul web, scrive codice ed esegue test. Prima vera alternativa open a Devin. 15k stelle GitHub in 72 ore.
CrewAI lancia un framework Python per orchestrare squadre di agenti LLM con ruoli definiti, obiettivi individuali e backstory, supportando processi sia sequenziali sia paralleli.
LangChain lancia LangGraph, framework per costruire agenti come grafi di nodi con stato persistente, supporto a cicli, branching condizionale ed esecuzione parallela di workflow complessi.
XLab (SUTD Singapore) pubblica OpenAgents: una piattaforma deployabile con tre agenti specializzati (navigazione web, analisi dati, esecuzione codice) accessibili da browser senza API key. Prima dimostrazione di capacita' agentiche reali per utenti comuni, con codice open source completo.
Tsinghua presenta AgentBench, prima benchmark completa per agenti LLM su 8 ambienti operativi. Rivela un gap enorme tra GPT-4 e i migliori modelli open-source.
SuperAGI offre una piattaforma open source per agenti autonomi con dashboard web, marketplace di tool e la possibilita' di avviare agenti in background senza scrivere codice. Prima soluzione a portare l'esperienza 'monitor agent' a utenti non programmatori. Concorrente di AutoGPT ma orientata alla produzione.
Microsoft Research pubblica AutoGen, un framework dove si definiscono agenti con ruoli diversi e li si lascia conversare tra loro per risolvere un task. Primo framework a formalizzare il pattern 'agent-to-agent communication'. Diventa fondamento di molti workflow enterprise multi-agente.
MIT e Northeastern propongono Reflexion: agenti che fanno self-reflection in linguaggio naturale dopo ogni fallimento, accumulando insight in memoria episodica senza modificare i pesi.
MetaGPT assegna a ogni agente LLM un ruolo aziendale specifico (PM, Architect, Engineer, QA) e li fa collaborare producendo codice funzionante da un singolo requisito testuale.
Anton Osika pubblica GPT-Engineer su GitHub: descrivi il software che vuoi in linguaggio naturale, l'agente fa domande di chiarimento, poi scrive tutti i file e li esegue. 50k stelle in una settimana. Prima implementazione virale del concetto 'one-shot project generator'.
UC Berkeley presenta Gorilla, LLaMA fine-tuned con retrieval per chiamate API accurate: riduce l'hallucination sulle API dall'83% al 3%, superando GPT-4 su questo task.
Princeton e DeepMind propongono Tree of Thoughts: l'LLM genera e valuta molteplici percorsi di ragionamento come un albero di ricerca, superando nettamente il Chain-of-Thought.
NVIDIA crea Voyager, agente lifelong-learning in Minecraft che usa GPT-4 per scrivere skill in JavaScript e accumularle in una libreria persistente, senza mai dimenticare.
Stanford crea 25 agenti LLM che simulano vita quotidiana in un villaggio virtuale, con memoria episodica, riflessione e planning. Prima società artificiale credibile.
Yohei Nakajima pubblica BabyAGI, task manager autonomo in ~200 righe Python con GPT-4 e Pinecone che crea ed esegue subtask in loop infinito, virale su Twitter in 24 ore.
Un developer pubblica su GitHub AutoGPT: dato un obiettivo testuale, il sistema chiama GPT-4 in loop per pianificare task, eseguirli e auto-criticarsi. In due settimane diventa la repo più stellata della storia.
OpenAI lancia i plugin per ChatGPT: il modello può navigare il web, eseguire codice Python in sandbox, prenotare voli (Expedia, Kayak), fare la spesa (Instacart). Primo grande esperimento di tool use mainstream.
Microsoft Research usa ChatGPT come planner centrale che decompone task complessi e delega l'esecuzione a modelli HuggingFace specializzati per visione, audio e NLP.
Microsoft apre al pubblico Semantic Kernel, un SDK open source in C#, Python e Java per integrare LLM in applicazioni aziendali. Introduce 'skills' (funzioni AI riusabili) e 'planner' (catene automatiche verso un obiettivo). Diventa il layer standard di orchestrazione AI per i Copilot Microsoft.
KAUST presenta CAMEL, framework role-playing dove un LLM 'AI user' e un LLM 'AI assistant' collaborano autonomamente su task senza intervento umano a ogni step.
Meta AI presenta Toolformer: un LLM che apprende autonomamente quando e come chiamare tool esterni (calcolatrice, Wikipedia, calendario) usando pochi esempi self-supervised.
Harrison Chase rilascia LangChain, libreria Python open source per concatenare LLM con prompt template, memoria, tool e fonti dati esterne. Diventerà la stack di default delle prime app LLM.
Il paper di Yao et al. introduce ReAct, schema che alterna pensieri espliciti (Thought) e azioni concrete (Act) nell'LLM, fondamento teorico di tutti gli agenti moderni.
OpenAI pubblica WebGPT, fine-tuning di GPT-3 che impara a usare un browser testuale per cercare risposte sul web, con citazioni delle fonti, addestrato via imitation learning + RLHF.