Voice AI realtime: latenza sotto-secondo e multilingue diventano la norma
Le API voice realtime di OpenAI, Google ed ElevenLabs convergono su latenza < 500ms, multilingue fluente e prosodia naturale. Il telefono come canale agentico diventa pratico.
27 voci
Le API voice realtime di OpenAI, Google ed ElevenLabs convergono su latenza < 500ms, multilingue fluente e prosodia naturale. Il telefono come canale agentico diventa pratico.
A 18 mesi dal lancio (novembre 2024), Model Context Protocol consolida: migliaia di server pubblici, adozione cross-vendor confermata, primo registry ufficiale stabile.
Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.
OpenAI chiude l'app Sora il 26 aprile 2026; l'API Sora 2 sarà spenta il 24 settembre. Costi operativi stimati attorno a $1M/giorno, shift di compute verso ChatGPT/GPT-5.5 e core enterprise.
DeepSeek rilascia V4 Preview open source: V4-Pro (1.6T totali, 49B attivi) e V4-Flash (284B totali, 13B attivi). Contesto nativo 1M token, attenzione ibrida CSA+HCA per ridurre KV cache del 90%.
OpenAI rilascia GPT-5.5, GPT-5.5 Thinking e GPT-5.5 Pro: progettati come "agent runtime" per workflow multi-step persistenti. 23% più fattualmente accurato vs GPT-5.4. File Library, shopping side-by-side e image gen migliorata.
A circa 100 giorni dall'entrata in vigore (agosto 2026) degli obblighi sui sistemi AI high-risk, la Commissione UE pubblica linee guida operative e l'AI Office si attiva.
Google rilascia due agenti di ricerca sul Gemini API: Deep Research (veloce) e Deep Research Max (deep+lento, 93.3% su DeepSearchQA). MCP support per dati privati, visualizzazioni native con Nano Banana 2.
Con il rilascio di Claude for Word ad aprile 2026, Anthropic completa l'integrazione nativa dell'AI in Office 365. Shared context cross-app, pivot/chart in Excel, slide editing in PowerPoint, contratti in Word.
Un laboratorio robotics (Physical Intelligence o concorrente) pubblica un nuovo foundation model multi-embodiment per manipolazione generale, addestrato su dataset cross-robot.
Anthropic annuncia Claude Mythos Preview: modello con capacità cyber straordinaria (identificate migliaia di zero-day in OS e browser, 181 exploit funzionanti su Firefox). Non rilasciato pubblicamente — Project Glasswing dà accesso a 40+ partner critici.
Anysphere rilascia Cursor 3 (codename Glass): nuovo Agents Window con agenti paralleli su locale, worktree, cloud e SSH remoto. Pensato per developer che orchestrano agenti più che scrivere singole linee.
OpenAI riorganizza Operator (gennaio 2025) e ChatGPT Agent (luglio 2025) in una piattaforma unificata, con SDK aggiornato e nuove modalità di esecuzione async multi-task.
Mistral rilascia Small 4 unificando Magistral (reasoning), Pixtral (multimodale visione) e Devstral (coding agentico) in un unico modello open weight, semplificando lo stack di deployment.
Al GTC 2026 NVIDIA conferma la cadenza annuale: dettagli su Rubin (successore di Blackwell), nuove configurazioni rack-scale, software stack aggiornato per training e inference.
GitHub aggiorna l'agente di Copilot: ora può scegliere il modello per task, auto-revisiona le PR prima di aprirle, esegue code/secret/dependency scanning, supporta custom agents in .github/agents/ e handoff con la CLI.
Google rilascia Nano Banana 2 (alias Gemini 3.1 Flash Image): rendering testi più fedele, coerenza fino a 5 personaggi e 14 oggetti, default per generazione immagini in app Gemini, Flow, Lens e Search AI Mode.
Mistral AI annuncia un nuovo modello flagship con capacità di ragionamento estese, pesi aperti per la variante research. Risposta europea a DeepSeek R2 e ai reasoning models USA.
Google rilascia Gemini 3.1 Pro: 77.1% su ARC-AGI-2 (più del doppio di Gemini 3 Pro), 80.6% SWE-Bench Verified, 94.3% GPQA Diamond. Stesso prezzo di 3 Pro: $2/M input.
Anthropic rilascia Sonnet 4.6: 79.6% su SWE-bench Verified, 72.5% su OSWorld-Verified (alla pari con Opus 4.6), miglior resistenza al prompt injection. Prezzo invariato $3/$15.
Anthropic aggiorna Sonnet con la 4.7: focus su affidabilità degli agenti su task lunghi, miglior tool use, integrazione più stretta con Claude Code e Claude Agent SDK.
Anthropic rilascia Opus 4.6: prima Opus con contesto 1M token in beta, agent teams in Claude Code, leadership su Terminal-Bench 2.0 e Humanity's Last Exam. Prezzo invariato a $5/$25.
Mistral rilascia Voxtral Transcribe 2: due modelli STT open source (Batch + Realtime, 4B parametri) con latenza configurabile fino a 200ms, Apache 2.0, 13 lingue.
DeepSeek pubblica R2, successore di R1: ragionamento step-by-step più efficiente, pesi aperti, training cost contenuto. Nuova pressione sui modelli reasoning chiusi.
Google DeepMind annuncia Gemini 3 con varianti Pro e Flash: reasoning migliorato, context lungo nativo, integrazione più profonda in Workspace e Android.
Google rilascia Veo 3.1 e Veo 3.1 Lite: generazione video con "ingredients" (riferimenti multipli per character/scene consistency), output 1080p/4K, formato verticale per Shorts. Veo 3.1 Lite è la versione cost-effective.
Anthropic rilascia Cowork in research preview: un agente desktop con accesso a shell sandbox e file locali, pensato per chi non vive nel terminale come fa Claude Code.