DeepMind RT-1: il primo Transformer addestrato su dati robotici reali
DeepMind lancia RT-1, un robotics transformer addestrato su 130.000 episodi reali con 13 robot diversi, capace di generalizzare a task mai visti prima.
52 voci
DeepMind lancia RT-1, un robotics transformer addestrato su 130.000 episodi reali con 13 robot diversi, capace di generalizzare a task mai visti prima.
Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.
Spot acquista capacità di navigazione autonoma avanzata e rilevamento anomalie industriali tramite AI visiva, senza necessità di mappe precaricate.
OpenAI lancia ChatGPT, un'interfaccia conversazionale gratuita su GPT-3.5 con allineamento via RLHF. In cinque giorni supera il milione di utenti.
Stability AI rilascia SD 2.0 con OpenCLIP al posto di CLIP, risoluzione nativa 768x768, nuovo modello depth2img e inpainting migliorato. Rilascio controverso per rottura della compatibilità con LoRA e prompt esistenti.
Notion lancia in alpha privata Notion AI, integrazione GPT dentro le pagine: riassumi, riscrivi, traduci, brainstorming senza uscire dal documento.
Meta presenta Galactica, un modello da 120B parametri addestrato su 48 milioni di paper scientifici. La demo pubblica viene ritirata dopo tre giorni per ondata di critiche su allucinazioni autorevoli.
NVIDIA consolida Triton come piattaforma open source per servire modelli PyTorch, TensorFlow e ONNX in produzione, con dynamic batching, supporto multi-GPU e API gRPC/HTTP.
HuggingFace Accelerate offre una API unificata che permette di eseguire lo stesso codice di training su qualsiasi hardware senza modifiche, diventando la spina dorsale dei pipeline open LLM.
Harrison Chase rilascia LangChain, libreria Python open source per concatenare LLM con prompt template, memoria, tool e fonti dati esterne. Diventerà la stack di default delle prime app LLM.
Il Weizmann Institute pubblica Textual Inversion: apprendimento di un nuovo token testuale che rappresenta un concetto custom a partire da 3-5 immagini, senza modificare i pesi del modello.
EnCodec comprime audio 24kHz stereo a soli 1.5–12 kbps con qualità superiore a Opus, e diventa il vocoder standard per i TTS neurali moderni.
Google pre-addestra una singola policy su oltre 800 task robotici e 57.000 ore di dati reali, dimostrando per la prima volta il trasferimento zero-shot a task nuovi tramite apprendimento multi-task offline.
Frantar et al. (ETH Zurich) pubblicano GPTQ: quantizzazione 4-bit accurata senza fine-tuning significativo, prima tecnica a rendere pratica l'inferenza di modelli da 175B su hardware consumer.
Il paper di Yao et al. introduce ReAct, schema che alterna pensieri espliciti (Thought) e azioni concrete (Act) nell'LLM, fondamento teorico di tutti gli agenti moderni.
Una settimana dopo Make-A-Video, Google Research presenta Imagen Video e, nello stesso periodo, Phenaki: due approcci diversi al text-to-video, con clip più lunghe e coerenti.
Meta AI mostra Make-A-Video, un sistema che genera brevi clip animate a partire da una descrizione testuale, riutilizzando un modello text-to-image pre-esistente.
Hugging Face lancia Inference Endpoints, servizio managed per deployare modelli del Hub su AWS, Azure o GCP con autoscaling, GPU on-demand e endpoint privati.
Google scala l'instruction tuning a 1.800 task e 540 miliardi di parametri, rilascia Flan-T5 open-source e dimostra che il chain-of-thought si insegna esplicitamente tramite fine-tuning.
OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.
Noam Shazeer e Daniel De Freitas, padri di LaMDA, lanciano Character.AI: piattaforma che permette a chiunque di creare e chattare con personaggi AI, da Einstein a personaggi anime.
Riley Goodside e Perez et al. formalizzano la Prompt Injection: un attacco in cui input malevolo nel testo utente sovrascrive le istruzioni di sistema di un LLM, annullando policy e guardrail.
AudioLM genera audio coerente a lungo termine usando due livelli di token — semantici e acustici — senza mai guardare testo o spartiti.
Google Research pubblica DreamBooth: fine-tune di un diffusion model su 3-5 immagini di un soggetto specifico per riprodurlo in qualsiasi contesto o stile. Fondamento di tutta la generazione AI personalizzata.
Stability AI rilascia pubblicamente pesi e codice di un modello latent diffusion text-to-image che gira anche su una GPU consumer. La generazione di immagini AI lascia il cloud.
GitHub pubblica i primi dati reali: il 40% del codice nei file con Copilot attivo è generato dall'AI. Primo benchmark quantitativo sull'impatto degli strumenti AI sul lavoro degli sviluppatori.
Google Robotics mostra come combinare un LLM per la pianificazione ad alto livello con value functions robotiche che filtrano solo le azioni fisicamente eseguibili.
Hugging Face rilascia diffusers, una libreria Python modulare per modelli di diffusione text-to-image, audio e oltre. Diventa rapidamente lo standard di fatto.
OpenAI apre DALL-E 2 in beta a oltre un milione di utenti dalla waitlist, con sistema di crediti pay-per-image. Primo prodotto consumer su larga scala di generazione di immagini.
Il collettivo BigScience rilascia BLOOM, un modello da 176 miliardi di parametri addestrato in 46 lingue e 13 linguaggi di programmazione, sotto licenza RAIL aperta.
Midjourney apre la sua beta pubblica con un modello text-to-image accessibile via bot Discord. Lo stile estetico marcato e la community trasformano la generazione di immagini in fenomeno di massa.
Perez et al. (DeepMind) dimostrano che un LLM può essere usato come attacker automatico contro un altro LLM, scoprendo comportamenti indesiderati su scala impossibile per i team umani.
Google Research combina in un unico modello da 20B i tre principali obiettivi di pretraining (autoregressive, autoencoding, prefix LM), battendo GPT-3 su molti benchmark pur avendo 8 volte meno parametri.
Tabnine lancia la versione 3.0 con supporto a modelli locali o cloud, diventando il primo prodotto maturo di code completion AI sul mercato prima dell'arrivo di Copilot.
Tri Dao (Stanford) pubblica FlashAttention: implementazione IO-aware che evita di materializzare la matrice di attenzione in HBM, con 2-4x speedup e 10x meno memoria GPU.
GitHub annuncia la disponibilità generale di Copilot per tutti gli sviluppatori a 10$/mese. È il primo strumento AI di massa nell'editor di codice quotidiano.
SoundStream introduce la Residual Vector Quantization per comprimere audio a 3kbps con qualità superiore a Opus a 12kbps, fondando l'architettura di tutti i codec neurali moderni usati negli audio LLM.
James Betker pubblica Tortoise TTS, modello open source con voice cloning da pochi secondi di audio e qualità vocale paragonabile all'umano, prima vera svolta nel TTS accessibile.
Google Research presenta Imagen, un modello di diffusione text-to-image che usa un encoder testuale T5 congelato e ottiene fedeltà fotorealistica superiore a DALL-E 2 sui benchmark.
DeepMind presenta Gato, una rete Transformer da 1.2 miliardi di parametri che con gli stessi pesi gioca a videogame Atari, controlla un braccio robotico, descrive immagini e dialoga.
Meta AI rilascia OPT-175B, un modello linguistico paragonabile a GPT-3 per dimensioni, con pesi disponibili ai ricercatori e un logbook di training pubblico.
Flamingo porta il few-shot learning al mondo visivo: SOTA su VQA e captioning senza fine-tuning su task specifici.
NaturalSpeech è il primo sistema TTS a ottenere un MOS statisticamente indistinguibile dalla voce umana registrata sul benchmark LJSpeech, segnando un traguardo storico per la sintesi vocale.
OpenAI annuncia DALL·E 2, un modello text-to-image basato su diffusion che produce immagini fotorealistiche a 1024×1024. Accesso inizialmente via waitlist, poi pubblico a luglio.
Google presenta PaLM, un modello da 540 miliardi di parametri addestrato sul nuovo sistema Pathways. Mostra capacità emergenti di reasoning quando guidato con chain-of-thought.
DeepMind pubblica il paper Chinchilla e dimostra che, a parità di compute, modelli più piccoli ma con molti più token di training battono modelli enormi sotto-addestrati.
Al GTC 2022 NVIDIA annuncia l'architettura Hopper e la GPU H100, con Transformer Engine FP8 e NVLink 4. Sarà la base hardware di quasi tutti i grandi LLM degli anni successivi.
Wang et al. (Google Brain) mostrano che campionare N percorsi di ragionamento diversi e prendere la risposta più frequente batte il greedy decoding su tutti i benchmark di ragionamento.
DeepMind presenta AlphaCode, un sistema che genera codice per problemi di programmazione competitiva e si piazza nella metà migliore dei partecipanti umani su Codeforces.
Coqui TTS è una libreria Python open source per text-to-speech di qualità, fork di Mozilla TTS, con supporto per oltre 1100 lingue e adottata dalla community HuggingFace.
OpenAI presenta InstructGPT: un GPT-3 raffinato con feedback umano (RLHF) che segue istruzioni meglio del modello base da 175B pur essendo molto più piccolo (1.3B parametri).
AI2 e University of Washington presentano UnifiedIO: il primo modello sequence-to-sequence capace di gestire testo, immagini, audio, video e strutture dati in input e output attraverso una singola architettura, addestrato su 80+ task simultaneamente.