AnythingLLM: RAG completo in locale con UI web e vector DB embedded
AnythingLLM porta un sistema RAG full-stack con interfaccia web, supporto Ollama/LocalAI come backend LLM, e vector database embedded, tutto offline in un singolo container.
158 voci
AnythingLLM porta un sistema RAG full-stack con interfaccia web, supporto Ollama/LocalAI come backend LLM, e vector database embedded, tutto offline in un singolo container.
StyleTTS2 usa style diffusion e adversarial training per generare voci con naturalezza umana su LJSpeech, open source, superando Voicebox sull'intelligibilità.
Microsoft Research rilascia Phi-2, 2.7B parametri addestrato su dati 'textbook quality'. Batte LLaMA 2 7B e Mistral 7B in benchmark di reasoning, gira su laptop. Filosofia 'small + clean data'.
Mistral rilascia Mixtral 8x7B via magnet link senza preavviso: SMoE con 8 esperti da 7B, 13B parametri attivi su 47B totali. Performance pari/superiore a GPT-3.5. Apache 2.0.
Tesla mostra Optimus Gen 2 con velocità di movimento 30% superiore, sensori di forza in ogni dito e la capacità dimostrata di manipolare uova crude senza romperle.
Google annuncia Gemini Ultra/Pro/Nano, prima famiglia di modelli multimodali nativi (testo, immagini, audio, video). Ultra batte GPT-4 su MMLU 90.0% vs 86.4%. Demo video controversa.
Jan.ai lancia la prima versione stabile: client LLM locale open source con thread persistenti, sistema di estensioni e server OpenAI-compatible integrato.
Apple Research rilascia MLX, framework ML open source ottimizzato per M1/M2/M3: sfrutta la unified memory condivisa tra CPU e GPU per inference LLM con performance vicine a GPU dedicata.
Stanford combina le braccia bimanuali ALOHA con una piattaforma mobile su ruote, creando il primo sistema low-cost per manipolazione whole-body. Con 50 dimostrazioni impara a cucinare, fare il bucato e pulire, aprendo la strada ai robot domestici accessibili.
JetBrains lancia AI Assistant out of beta, portando refactoring intelligente, documentazione automatica e code chat in tutti i suoi IDE: IntelliJ, PyCharm, GoLand, WebStorm e altri.
01.ai di Kai-Fu Lee pubblica Yi-34B: 34B parametri addestrati su 3.1T token, architettura Llama-2 modificata, bilingue EN/ZH, top-3 open weight a novembre 2023.
Anthropic rilascia Claude 2.1: context window 200K token (~500 pagine), 2× riduzione di risposte false su domande borderline, tool use in beta. Risposta a GPT-4 Turbo 128K.
OpenAI lancia la TTS API con 6 voci, pricing a 1000 caratteri per $0.015, bassa latenza per streaming e integrazione diretta nell'ecosistema ChatGPT e Assistants.
Google rende MusicLM disponibile pubblicamente via Google Labs: generazione musicale da descrizione testuale in stile specifico, prima integrazione consumer di music AI da un big tech.
Upstage presenta Solar 10.7B, creato fondendo i layer intermedi di due LLaMA-2 fine-tuned (depth upscaling), vincendo la MBTI-OpenLLM leaderboard a novembre 2023.
LLaVA si estende al video con frame sampling e positional encoding temporale, raggiungendo risultati competitivi su NExT-QA e ActivityNet senza training video dedicato.
Amazon Q Developer porta l'AI coding direttamente nelle console AWS e negli IDE: spiega risorse cloud, debugga errori, migra codice Java legacy e aggiorna dipendenze in automatico.
Ollama lancia la versione 0.1: CLI minimale per scaricare e avviare modelli LLM in locale con un singolo comando, abbattendo la complessita' di setup a zero.
Alla prima conferenza developer di OpenAI: GPT-4 Turbo (128K context, prezzi più bassi), GPTs (versioni personalizzate di ChatGPT shareabili), Assistants API (agenti gestiti). Pivot prodotto + sviluppo.
xAI di Elon Musk lancia Grok-1, un modello integrato con X (Twitter) per informazioni in tempo reale, con architettura MoE a 314B parametri rilasciata come open weights nel marzo 2024.
Pika Labs lancia Pika 1.0: piattaforma consumer per generazione video da testo o immagine, animazione di regioni specifiche, controllo aspect ratio. Raggiunge 500k utenti Discord. Finanziata da Khosla Ventures a 55 milioni di dollari.
28 nazioni firmano la Bletchley Declaration sui rischi catastrofici dell'AI frontier. Nasce il primo AI Safety Institute (UK). Primo accordo diplomatico internazionale specificamente dedicato all'AI.
Microsoft 365 Copilot raggiunge la disponibilità generale a 30 USD/utente/mese. Arriva anche Copilot Studio per agenti personalizzati enterprise.
Biden firma il più ampio ordine esecutivo mai emesso sul'AI: test di sicurezza obbligatori prima del rilascio dei modelli frontier, standard NIST per il red-teaming, ricerca su watermarking e nuove regole sull'immigrazione per talenti AI.
Whisper Large v3 riduce il tasso di errore sulle lingue a basse risorse, migliora la precisione dei timestamp e aggiunge nuove lingue, rimanendo il modello ASR open source più largamente deployato.
Tsinghua University pubblica LCM: distillazione di un diffusion model che riduce il campionamento da 50 passi a 4 con perdita minima di qualita. LCM-LoRA porta ogni modello SD a 10x velocita. Prima tecnica per generazione real-time su hardware consumer.
HuggingFace addestra Zephyr-7B con dSFT + Direct Preference Optimization su Mistral 7B base, ottenendo MT-Bench score superiore a Llama-2-70B-chat con 10x meno parametri.
Zoom integra AI Companion nei piani Pro senza costi aggiuntivi: riassume le riunioni in real-time, estrae action item automatici e risponde nelle chat Zoom.
Sanctuary AI presenta Phoenix con Carbon AI, un sistema neuro-simbolico che combina ragionamento simbolico e reti neurali per seguire istruzioni linguistiche articolate senza programmazione esplicita.
NVIDIA presenta Eureka, il primo sistema che usa un LLM (GPT-4) per generare automaticamente funzioni di reward per il reinforcement learning robotico. Il sistema raggiunge manipolazione destrezza a livello esperto, incluso lo spinning della penna, senza reward design manuale.
Google DeepMind e 33 laboratori raccolgono 527k episodi da 22 robot diversi: il primo dataset unificato per addestrare policy generaliste che funzionano su piattaforme multiple.
LangChain lancia LangGraph, framework per costruire agenti come grafi di nodi con stato persistente, supporto a cicli, branching condizionale ed esecuzione parallela di workflow complessi.
MITRE rilascia ATLAS v2 (Adversarial Threat Landscape for AI Systems), tassonomia estesa delle tecniche di attacco ai sistemi AI con casi studio reali di adversarial ML e mapping a MITRE ATT&CK.
XLab (SUTD Singapore) pubblica OpenAgents: una piattaforma deployabile con tre agenti specializzati (navigazione web, analisi dati, esecuzione codice) accessibili da browser senza API key. Prima dimostrazione di capacita' agentiche reali per utenti comuni, con codice open source completo.
Il team WizardLM applica Evol-Instruct al codice, riscrivendo iterativamente i problemi per aumentarne la complessità. WizardCoder-34B raggiunge il 73.2% su HumanEval, pareggiando GPT-4 al momento del rilascio.
Tsinghua presenta AgentBench, prima benchmark completa per agenti LLM su 8 ambienti operativi. Rivela un gap enorme tra GPT-4 e i migliori modelli open-source.
LLaVA-1.5 combina CLIP ViT-L, un MLP projection a due strati e Vicuna per superare 11 benchmark multimodali usando solo 1.2M di dati di fine-tuning.
Il Technology Innovation Institute rilascia Falcon-180B, il modello open-source più grande disponibile con 180 miliardi di parametri e 3,5 trilioni di token di training, che supera Llama 2 su tutta la linea.
OpenAI lancia DALL-E 3 integrato in ChatGPT: aderenza al prompt drasticamente migliorata rispetto a DALL-E 2, caption synthesis automatica per il training, testo nelle immagini più leggibile.
Tsinghua introduce CogVLM con visual expert indipendente dai parametri LLM, eliminando la performance degradation su testo puro e raggiungendo SOTA su VQA e OCR.
AudioPaLM fonde PaLM-2 con un tokenizer audio per creare un LLM che processa nativamente token audio e di testo, abilitando traduzione vocale con preservazione dell'identità del parlante.
HuggingFace rilascia il codice sorgente di chat.huggingface.co: interfaccia web self-hostable via Docker per Llama 2, Mistral, Code Llama e modelli custom, con supporto per tool calls e web search.
Mistral AI (Parigi), startup di tre mesi fondata da ex Meta/DeepMind, rilascia Mistral 7B con licenza Apache 2.0. Batte Llama 2 13B sulla maggior parte dei benchmark con metà dei parametri.
CMU e UPenn pubblicano PAIR: un LLM attaccante che affina automaticamente i propri prompt contro un LLM bersaglio, trovando jailbreak efficaci in meno di 20 tentativi senza intervento umano.
NVIDIA open-source TensorRT-LLM, un framework per compilare e ottimizzare LLM per GPU NVIDIA con supporto FP8, INT4, sparse attention e tensor parallelism multi-GPU out of the box.
Con l'update 23H2, Windows 11 integra Copilot di default come pannello laterale di sistema. Bing Chat viene rebrandato in Copilot. AI come feature OS, non app.
AWS investe 1.25 miliardi di dollari in Anthropic. Claude diventa disponibile su Amazon Bedrock con infrastruttura Trainium e Inferentia dedicata.
ChatGPT Plus su iOS/Android riceve conversazione vocale (5 voci sintetiche) e input immagini (GPT-4V). Da chat testuale a assistente conversazionale completo.
OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.
Slack integra AI nativa nei piani Pro+: riassume canali e thread, risponde a domande sulla cronologia conversazioni, supporta Claude e OpenAI come provider LLM.
Adobe lancia Firefly Enterprise in Creative Cloud Teams con garanzia legale copyright (indemnification) e controllo delle brand guidelines aziendali su ogni immagine generata.
ExLlamaV2 introduce il formato EXL2 con bit-rate misti per layer (2-8 bit), offrendo throughput superiore a llama.cpp su GPU NVIDIA e permettendo di far girare modelli 70B su singola RTX 3090.
Cornell/UIUC introducono Medusa: N teste di decodifica aggiuntive sul modello principale predicono N token in avanti simultaneamente, 2.2x speedup senza necessità di un secondo modello draft.
Ricercatori dimostrano che LLM fine-tuned possono contenere backdoor comportamentali silenti, attivabili solo in presenza di trigger specifici invisibili durante la normale valutazione del modello.
Adobe lancia Firefly 1.0 GA, primo modello image generation addestrato solo su contenuti licenziati, integrato in Photoshop come Generative Fill per uso commerciale sicuro.
Tencent AI Lab pubblica IP-Adapter, un adapter leggero per Stable Diffusion che condiziona la generazione su un'immagine reference senza riqualificare il modello base.
Un LLM che gira in locale e può scrivere ed eseguire codice Python, JS e Shell in autonomia, navigare il web e modificare file sul tuo computer.
Microsoft Research dimostra che 1,3B parametri addestrati su dati sintetici di qualità 'da manuale scolastico' producono capacità di ragionamento multi-step comparabili a modelli 5 volte più grandi.
LM Studio lancia la prima versione pubblica: interfaccia grafica per esplorare, scaricare e usare modelli LLM locali con chat integrata e server OpenAI-compatible.
Meta rilascia AudioCraft, suite open source che include MusicGen per generare musica strutturata e AudioGen per suoni ambientali, entrambi controllabili da descrizione testuale.
OpenAI lancia il piano enterprise di ChatGPT: GPT-4 illimitato, context 32K, advanced data analysis incluso, SOC 2, dati cliente non usati per training. Risposta alle preoccupazioni IT.
SuperAGI offre una piattaforma open source per agenti autonomi con dashboard web, marketplace di tool e la possibilita' di avviare agenti in background senza scrivere codice. Prima soluzione a portare l'esperienza 'monitor agent' a utenti non programmatori. Concorrente di AutoGPT ma orientata alla produzione.
Meta rilascia Code Llama (7B, 13B, 34B), fine-tune di Llama 2 specializzato su codice. Tre varianti per task: base, Python-specifico, instruction-tuned. Licenza commerciale come Llama 2.
Shanghai AI Lab pubblica AnimateDiff: un motion module plug-in che aggiunge consistenza temporale a qualsiasi checkpoint SD esistente, trasformando ogni modello image-only in un generatore video senza riaddestrarlo.
DeepSeek rilascia modelli di coding da 1B a 33B parametri addestrati su 2 trilioni di token con FIM avanzato, battendo tutti gli open source su HumanEval.
LAION e University of Washington rilasciano OpenFlamingo, riproduzione open-source di Flamingo di DeepMind: apprendimento few-shot visivo da esempi immagine+testo, varianti da 3B e 9B parametri. Primo modello open per ricerca multimodale senza costi API.
Google annuncia TPU v5e, un chip AI cost-optimized con 4x meglio performance per dollaro rispetto a TPU v4 per l'inferenza, disponibile tramite Google Kubernetes Engine per workload containerizzati.
Sourcegraph lancia Cody in beta, un AI code assistant che comprende l'intera codebase — dipendenze, architettura, relazioni tra file — grazie all'indice di codice di Sourcegraph.
OWASP pubblica la prima lista ufficiale delle 10 vulnerabilità più critiche nelle applicazioni LLM, da prompt injection a insecure output handling, diventata lo standard di riferimento del settore.
RT-2 di DeepMind unisce vision-language pretraining e controllo robotico: il robot trasferisce ragionamento semantico da web a braccio fisico senza addestramento specifico.
Tri Dao riscrive FlashAttention con 2x speedup su FA1: migliore parallelismo su seq-len, supporto head-dim fino a 256, query parallelism per MHA, MQA e GQA. Standard de facto per il training.
Microsoft Research addestra Orca 13B su spiegazioni passo-passo di GPT-4 (explanation traces), superando ChatGPT su BigBench e AGIEval con 13 miliardi di parametri.
Stability rilascia SDXL 1.0 (base 3.5B + refiner 6.6B), output 1024×1024 nativi, prompt più corti. Open source con licenza commerciale, pesi su HuggingFace.
Meta rilascia Llama 2 (7B, 13B, 70B) con licenza che permette uso commerciale fino a 700M utenti attivi. Per la prima volta un LLM serio è davvero deployabile in produzione senza dipendere da un'API.
SeamlessM4T è il primo sistema multimodale a gestire speech-to-text, text-to-speech e speech-to-speech in oltre 100 lingue con un unico modello, alimentando le funzioni di traduzione in tempo reale di Meta.
Microsoft Research pubblica AutoGen, un framework dove si definiscono agenti con ruoli diversi e li si lascia conversare tra loro per risolvere un task. Primo framework a formalizzare il pattern 'agent-to-agent communication'. Diventa fondamento di molti workflow enterprise multi-agente.
Appare sul dark web il primo LLM addestrato esplicitamente per attività criminali: nessun filtro di sicurezza, fine-tuning su dati malware, venduto in abbonamento mensile.
Anthropic lancia Claude 2 con context window di 100.000 token (~75.000 parole) e apre claude.ai al pubblico generale (inizialmente USA e UK). Long-context entra nel mainstream.
IBM presenta watsonx.ai a Think 2023: piattaforma con i modelli Granite addestrati su dati curati, studio di fine-tuning, AI factsheet per la governance e piena tracciabilità dei dati. Pensata per banche, sanità e pubblica amministrazione.
Zou et al. (CMU) dimostrano suffix ottimizzati che jailbreakano simultaneamente GPT-3.5/4, Claude e Gemini: prima prova sistematica di trasferibilità degli attacchi tra modelli diversi.
MIT e Northeastern propongono Reflexion: agenti che fanno self-reflection in linguaggio naturale dopo ogni fallimento, accumulando insight in memoria episodica senza modificare i pesi.
MetaGPT assegna a ogni agente LLM un ruolo aziendale specifico (PM, Architect, Engineer, QA) e li fa collaborare producendo codice funzionante da un singolo requisito testuale.
llama.cpp introduce le K-quants (Q2_K–Q8_K): quantizzazione per-layer che assegna bit diversi in base all'importanza del tensore. Q4_K_M raggiunge la qualità di Q5_1 con file più piccoli, diventando lo standard de facto per tutti i modelli GGUF moderni.
Anton Osika pubblica GPT-Engineer su GitHub: descrivi il software che vuoi in linguaggio naturale, l'agente fa domande di chiarimento, poi scrive tutti i file e li esegue. 50k stelle in una settimana. Prima implementazione virale del concetto 'one-shot project generator'.
MIT Han Lab pubblica AWQ: quantizzazione 4-bit che preserva i pesi salientes identificati tramite analisi delle attivazioni, ottenendo migliore accuracy-throughput di GPTQ per deployment edge.
Lakera Guard è un'API SaaS che protegge applicazioni LLM da prompt injection, jailbreak e PII leakage con latenza inferiore al millisecondo, pensata per uso in ambienti di produzione ad alto traffico.
Voicebox usa flow matching con masked training per sintetizzare, editare e trasferire stili vocali in 6 lingue, senza cloning esplicito o fine-tuning.
HuggingFace rilascia IDEFICS, replica open weight di Flamingo in versione 9B e 80B, addestrata su LAION-5B e WikiMedia con few-shot visual in-context learning.
WizardLM usa Evol-Instruct — istruzioni semplificate e complicate automaticamente da GPT-4 — e raggiunge il 97% di ChatGPT su WizardEval con un modello 70B.
OpenAI introduce nell'API la 'function calling': il modello restituisce JSON strutturato conforme a uno schema, abilitando integrazioni affidabili con tool esterni senza prompt engineering fragile.
Suno AI rilascia Bark su HuggingFace: modello TTS open source capace di generare paralinguistica — risate, sospiri, effetti sonori, musica — direttamente da prompt testuali.
GitHub annuncia Copilot X con chat integrata in VS Code basata su GPT-4, generazione automatica di PR description e test, un assistente per la CLI e voice coding in preview.
Microsoft Research pubblica Phi-1, 1.3B parametri addestrati su dati sintetici di alta qualità ('textbooks'), che supera modelli 10x più grandi su HumanEval.
HuggingFace rilascia Text Generation Inference, un container Docker ottimizzato per servire LLM in produzione con continuous batching, tensor parallelism e Flash Attention 2 integrati.
UC Berkeley presenta Gorilla, LLaMA fine-tuned con retrieval per chiamate API accurate: riduce l'hallucination sulle API dall'83% al 3%, superando GPT-4 su questo task.
MIT e Columbia applicano i modelli di diffusione denoising all'imitation learning robotico, apprendendo distribuzioni di azione multi-modali invece di policy deterministiche. Ottengono un miglioramento del 46,9% sui benchmark di manipolazione.
Salesforce estende BLIP-2 con instruction tuning visivo su 26 dataset: benchmark superiori a GPT-4V su visual reasoning con architettura open.
Princeton e DeepMind propongono Tree of Thoughts: l'LLM genera e valuta molteplici percorsi di ragionamento come un albero di ricerca, superando nettamente il Chain-of-Thought.
Stability AI lancia SDXL 0.9 beta con architettura dual-encoder e modello refiner separato per immagini 1024x1024 di qualità fotografica.
Alla Build 2023 Microsoft annuncia Windows Copilot, Copilot in Edge e nei prodotti 365, e adotta lo standard plugin di OpenAI. Strategia: 'AI co-pilot' come UI primaria.
Il Technology Innovation Institute UAE rilascia Falcon 40B: addestrato su 1T token di RefinedWeb, batte LLaMA 65B sui benchmark con licenza commerciale.
SoundStorm usa MaskGIT su token EnCodec per generare audio in parallelo anziché token per token: 30s di dialogo in 0.5s, mantenendo coerenza del parlante.
NVIDIA crea Voyager, agente lifelong-learning in Minecraft che usa GPT-4 per scrivere skill in JavaScript e accumularle in una libreria persistente, senza mai dimenticare.
Prima dimostrazione pubblica di un agente LLM enterprise su dati operativi reali e sensibili: routing logistico militare via linguaggio naturale. AIP isola l'output del modello dai dati grezzi con un layer di sandboxing. Svolta per AI in difesa e governo.
Stanford presenta TidyBot, un sistema robotico che usa i LLM per personalizzare il comportamento di riordino domestico a partire da pochi esempi dell'utente. Raggiunge il 91,2% di completamento dei task, dimostrando la fattibilità della personalizzazione LLM-driven nella manipolazione.
imartinez pubblica privateGPT: RAG completo su PDF e TXT con LLM locale, zero dati cloud. La tua knowledge base rimane sul tuo disco.
Nomic AI lancia GPT4All v2: installer desktop che scarica e avvia modelli quantizzati senza riga di comando, con LocalDocs per interrogare documenti privati senza connessione internet.
mudler pubblica LocalAI, un server REST compatibile OpenAI che esegue modelli GGML/GGUF in locale: migra le tue app da cloud a self-hosted cambiando solo l'URL.
Al Google I/O 2023, PaLM 2 sostituisce LaMDA in Bard. Quattro taglie (Gecko, Otter, Bison, Unicorn), multilingue forte e ragionamento migliorato. Apre a Med-PaLM 2 e Sec-PaLM.
ServiceNow integra un LLM direttamente nella piattaforma ITSM: riassume i ticket aperti, suggerisce risoluzioni e automatizza l'escalation senza plugin esterni.
MosaicML lancia MPT-7B sotto licenza Apache 2.0 con 65.000 token di contesto grazie ad ALiBi, primo modello open progettato esplicitamente per deployment commerciale senza restrizioni.
BigCode e HuggingFace rilasciano StarCoder, 15.5B parametri addestrato su 1 trilione di token da The Stack con 86 linguaggi e governance dei dati opt-out.
KAUST mostra come costruire un visual chatbot capace collegando BLIP-2 e Vicuna con un singolo projection layer addestrato su 5.000 coppie immagine-testo. Prima dimostrazione che bastano ore di training su una GPU per creare un VLM funzionante.
LLaVA combina CLIP + LLaMA con 150k esempi generati da GPT-4 per creare il primo assistente visivo open source di qualità.
Stability AI rilascia StableLM 3B e 7B con licenza CC BY-SA 4.0, addestrati su 1.5T token. Risposta open ai modelli chiusi, ma quality ancora dietro LLaMA.
Microsoft Presidio raggiunge la disponibilità generale: framework open source per rilevare e anonimizzare dati personali nei testi elaborati da LLM, con NER e regex per 50+ tipi di entità.
LMSYS fa il fine-tuning di LLaMA-13B su 70.000 conversazioni ShareGPT e ottiene un chatbot open-source che GPT-4, usato come giudice, valuta al 90% della qualità di ChatGPT.
AWS annuncia Bedrock, servizio managed che espone Claude (Anthropic), Jurassic-2 (AI21), Stable Diffusion e i propri Titan via una API unica. Risposta a Azure OpenAI.
Stanford crea 25 agenti LLM che simulano vita quotidiana in un villaggio virtuale, con memoria episodica, riflessione e planning. Prima società artificiale credibile.
Yohei Nakajima pubblica BabyAGI, task manager autonomo in ~200 righe Python con GPT-4 e Pinecone che crea ed esegue subtask in loop infinito, virale su Twitter in 24 ore.
Un developer pubblica su GitHub AutoGPT: dato un obiettivo testuale, il sistema chiama GPT-4 in loop per pianificare task, eseguirli e auto-criticarsi. In due settimane diventa la repo più stellata della storia.
Nomic AI rilascia GPT4All, un installer punto-e-clicca per eseguire modelli LLM offline su Windows, Mac e Linux, abbassando la barriera tecnica al minimo.
L'interfaccia web open source più popolare per eseguire LLM locali: supporta GPTQ, GGML, transformers con UI Gradio, estensioni, character card e modalità chat/instruct.
OpenAI lancia i plugin per ChatGPT: il modello può navigare il web, eseguire codice Python in sandbox, prenotare voli (Expedia, Kayak), fare la spesa (Instacart). Primo grande esperimento di tool use mainstream.
Codeium lancia il suo assistente AI per il codice completamente gratuito per gli sviluppatori individuali, con supporto a oltre 70 linguaggi e integrazione in VS Code, JetBrains e Vim.
Microsoft Research usa ChatGPT come planner centrale che decompone task complessi e delega l'esecuzione a modelli HuggingFace specializzati per visione, audio e NLP.
Meta rilascia Llama Guard, classificatore fine-tuned su LLaMA che distingue input e output pericolosi in 6 categorie di danno, progettato come layer di sicurezza plug-in per applicazioni LLM.
Google apre Bard in preview pubblica in US e UK, basato su una versione leggera di LaMDA. Accoglienza tiepida: lento, prudente, meno utile di ChatGPT.
Runway lancia Gen-1: il primo modello commerciale che applica uno stile visivo testuale o da immagine di riferimento a un video esistente, frame per frame. Precursore della linea Gen-2/Gen-3.
Microsoft apre al pubblico Semantic Kernel, un SDK open source in C#, Python e Java per integrare LLM in applicazioni aziendali. Introduce 'skills' (funzioni AI riusabili) e 'planner' (catene automatiche verso un obiettivo). Diventa il layer standard di orchestrazione AI per i Copilot Microsoft.
Tesla pubblica il primo video di Optimus Gen 1 che cammina e compie task autonomamente in un ambiente di fabbrica reale. Target di prezzo dichiarato: 20.000 dollari.
Microsoft annuncia Copilot in tutta la suite M365: AI su 300 milioni di utenti aziendali, alimentato da GPT-4 e Microsoft Graph per contesto aziendale.
PyTorch 2.0 introduce torch.compile basato su TorchDynamo e il backend Inductor, offrendo fino a 2x di speedup su transformer senza modifiche al codice, rendendo PyTorch competitivo con XLA/JAX in produzione.
Anthropic lancia Claude, assistente AI addestrato con Constitutional AI. Stesso giorno del rilascio di GPT-4. Due versioni: Claude (full) e Claude Instant (più veloce ed economico).
Google annuncia Duet AI per Workspace: scrittura assistita in Docs, riassunti email in Gmail, generazione slide in Slides e formule in Sheets.
OpenAI rilascia GPT-4, multimodale (testo + immagine), con un livello di ragionamento, codice e affidabilità nettamente superiore a GPT-3.5. Supera esami da avvocato, medicina, programmazione.
KAUST presenta CAMEL, framework role-playing dove un LLM 'AI user' e un LLM 'AI assistant' collaborano autonomamente su task senza intervento umano a ogni step.
Georgi Gerganov porta LLaMA di Meta su CPU consumer con quantizzazione 4-bit in C++: primo modello foundation praticabile completamente offline su laptop.
Salesforce integra AI generativa direttamente nel CRM: suggerisce email di vendita, risposte ai casi e codice per Salesforce Flow, senza uscire dalla piattaforma.
Google presenta PaLM-E, modello multimodale da 562B parametri che riceve direttamente immagini e stato robotico nel transformer, capace di pianificazione long-horizon su robot reali.
DeepMind presenta RoboCat, un agente robotico che impara da poche dimostrazioni, si auto-addestra raccogliendo nuovi dati, e migliora iterativamente senza intervento umano. Con soli 10 demo raggiunge il 36% di successo su task nuovi.
Agility Robotics annuncia la partnership con Amazon per Digit v3, robot bipede da magazzino: prima implementazione industriale di un humanoid a scala reale.
OpenAI rilascia l'API di ChatGPT (gpt-3.5-turbo) a un decimo del prezzo di text-davinci-003, più API Whisper per lo speech-to-text. Inizia l'era dei wrapper.
Meta pubblica LLaMA in quattro taglie (7B, 13B, 33B, 65B) accessibili su richiesta a ricercatori. Una settimana dopo, i pesi finiscono in leak pubblico.
Amazon lancia CodeWhisperer in GA con una feature unica: segnala quando il codice generato ricorda snippets open source, indicando licenza e repo sorgente. Free tier per sviluppatori individuali.
Zhang et al. presentano ControlNet, un adapter che aggiunge controllo di posa, profondità e bordi a Stable Diffusion senza modificare i pesi del modello base.
Meta AI presenta Toolformer: un LLM che apprende autonomamente quando e come chiamare tool esterni (calcolatrice, Wikipedia, calendario) usando pochi esempi self-supervised.
Il team della UC Berkeley pubblica vLLM, libreria Python per inference LLM con PagedAttention che gestisce la KV cache come memoria virtuale OS, raggiungendo throughput 24x superiore alla baseline HuggingFace.
Microsoft integra in Bing un'AI conversazionale (poi rivelata essere basata su GPT-4 pre-rilascio) che risponde con citazioni dirette dalle pagine web. È la 'code red' di Google.
Salesforce introduce BLIP-2: un modulo Q-Former leggero connette encoder visivo e LLM congelati, SOTA su captioning con 8x meno parametri trainabili.
XTTS porta la clonazione vocale zero-shot multilingue in open source: basta un campione audio di 6 secondi per replicare una voce in 17 lingue diverse, con licenza MIT.
Google mostra come un LLM generi direttamente codice robot eseguibile da istruzioni in linguaggio naturale, senza fine-tuning, usando composizione gerarchica di funzioni.
ElevenLabs esce dalla beta pubblica con voice cloning da 1 minuto di audio, 29 lingue e TTS prosodicamente naturale, imponendosi come riferimento per creator e audiolibri.
Il governo USA pubblica il primo framework ufficiale per gestire i rischi dell'IA nelle organizzazioni: quattro funzioni core — Govern, Map, Measure, Manage.
Chen et al. (Google Brain) pubblicano Speculative Decoding: un modello piccolo propone token, il modello grande li verifica in parallelo. Stesso output, 2-3x più veloce senza toccare la qualità.
Microsoft rende disponibili i modelli OpenAI (GPT-3.5-Turbo, Codex, DALL-E) su Azure con SLA enterprise, VNet, compliance HIPAA e SOC2. Svolta epocale per l'adozione AI nelle grandi aziende.
Georgi Gerganov porta il modello Whisper di OpenAI su CPU tramite un'implementazione C++ minimale: trascrizione in tempo reale senza GPU e senza cloud.
VALL-E clona qualsiasi voce con soli 3 secondi di audio di riferimento, senza fine-tuning, usando in-context learning su token EnCodec. Primo TTS a qualità naturalistica zero-shot.