2022

52 voci

16 dicembre 2022 Alto

DeepMind RT-1: il primo Transformer addestrato su dati robotici reali

DeepMind lancia RT-1, un robotics transformer addestrato su 130.000 episodi reali con 13 robot diversi, capace di generalizzare a task mai visti prima.

Robotica DeepMindRT-1Robotics Transformer

15 dicembre 2022 Medio

Constitutional AI: il modello si autocorregge senza umani nel loop

Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.

Sicurezza AI AnthropicConstitutional AIRLAIF

1 dicembre 2022 Medio

Boston Dynamics integra AI visiva su Spot: autonomia senza mappe

Spot acquista capacità di navigazione autonoma avanzata e rilevamento anomalie industriali tramite AI visiva, senza necessità di mappe precaricate.

Robotica Boston DynamicsSpotAutonomous Navigation

30 novembre 2022 Pietra miliare ★ Sul mio lavoro

ChatGPT: l'AI entra nei browser di tutti

OpenAI lancia ChatGPT, un'interfaccia conversazionale gratuita su GPT-3.5 con allineamento via RLHF. In cinque giorni supera il milione di utenti.

Modelli foundation OpenAIChatGPTGPT-3.5

24 novembre 2022 Medio

Stable Diffusion 2.0: architettura rinnovata e OpenCLIP

Stability AI rilascia SD 2.0 con OpenCLIP al posto di CLIP, risoluzione nativa 768x768, nuovo modello depth2img e inpainting migliorato. Rilascio controverso per rottura della compatibilità con LoRA e prompt esistenti.

Generazione immagini & video Stable Diffusion 2.0Stability AIOpenCLIP

16 novembre 2022 Medio

Notion AI in alpha: l'AI dentro lo strumento di lavoro

Notion lancia in alpha privata Notion AI, integrazione GPT dentro le pagine: riassumi, riscrivi, traduci, brainstorming senza uscire dal documento.

AI enterprise NotionNotion AIProductivity

15 novembre 2022 Medio

Galactica: Meta lancia (e ritira in tre giorni) un LLM per la scienza

Meta presenta Galactica, un modello da 120B parametri addestrato su 48 milioni di paper scientifici. La demo pubblica viene ritirata dopo tre giorni per ondata di critiche su allucinazioni autorevoli.

Modelli foundation MetaGalacticaScience LLM

9 novembre 2022 Alto

NVIDIA Triton Inference Server 2.x: lo standard de facto per l'inference in produzione

NVIDIA consolida Triton come piattaforma open source per servire modelli PyTorch, TensorFlow e ONNX in produzione, con dynamic batching, supporto multi-GPU e API gRPC/HTTP.

Infrastruttura AI NVIDIATritonInference Server

1 novembre 2022 Medio

HuggingFace Accelerate: un solo script Python per CPU, GPU, TPU e mixed precision

HuggingFace Accelerate offre una API unificata che permette di eseguire lo stesso codice di training su qualsiasi hardware senza modifiche, diventando la spina dorsale dei pipeline open LLM.

Infrastruttura AI AccelerateHuggingFacemulti-GPU

25 ottobre 2022 Pietra miliare

LangChain: nasce il framework per applicazioni LLM

Harrison Chase rilascia LangChain, libreria Python open source per concatenare LLM con prompt template, memoria, tool e fonti dati esterne. Diventerà la stack di default delle prime app LLM.

Agenti LangChainFrameworkLLM Apps

25 ottobre 2022 Medio

Textual Inversion: inietta un concetto personalizzato nei modelli di diffusione

Il Weizmann Institute pubblica Textual Inversion: apprendimento di un nuovo token testuale che rappresenta un concetto custom a partire da 3-5 immagini, senza modificare i pesi del modello.

Generazione immagini & video Textual Inversionpersonalizationembedding

24 ottobre 2022 Alto

EnCodec: Meta AI comprime l'audio con reti neurali e supera Opus

EnCodec comprime audio 24kHz stereo a soli 1.5–12 kbps con qualità superiore a Opus, e diventa il vocoder standard per i TTS neurali moderni.

Voce & audio EnCodecNeural CodecAudio Compression

15 ottobre 2022 Alto

MT-OPT: Google addestra un robot su 800 task con 57.000 ore di dati reali

Google pre-addestra una singola policy su oltre 800 task robotici e 57.000 ore di dati reali, dimostrando per la prima volta il trasferimento zero-shot a task nuovi tramite apprendimento multi-task offline.

Robotica MT-OPTmulti-task robot learningoffline RL

12 ottobre 2022 Alto

GPTQ: quantizzazione 4-bit post-training che rende pratica l'inferenza di modelli GPT-scale

Frantar et al. (ETH Zurich) pubblicano GPTQ: quantizzazione 4-bit accurata senza fine-tuning significativo, prima tecnica a rendere pratica l'inferenza di modelli da 175B su hardware consumer.

Infrastruttura AI GPTQQuantizzazione4-bit

6 ottobre 2022 Pietra miliare

ReAct: il framework che unisce ragionamento e azioni negli LLM

Il paper di Yao et al. introduce ReAct, schema che alterna pensieri espliciti (Thought) e azioni concrete (Act) nell'LLM, fondamento teorico di tutti gli agenti moderni.

Agenti ReActReasoningTool Use

5 ottobre 2022 Medio

Imagen Video e Phenaki: Google risponde sul text-to-video

Una settimana dopo Make-A-Video, Google Research presenta Imagen Video e, nello stesso periodo, Phenaki: due approcci diversi al text-to-video, con clip più lunghe e coerenti.

Generazione immagini & video GoogleImagen VideoPhenaki

29 settembre 2022 Medio

Make-A-Video: Meta presenta il primo text-to-video credibile

Meta AI mostra Make-A-Video, un sistema che genera brevi clip animate a partire da una descrizione testuale, riutilizzando un modello text-to-image pre-esistente.

Generazione immagini & video MetaMake-A-VideoText-to-Video

27 settembre 2022 Medio

Hugging Face Inference Endpoints: deploy LLM in due click

Hugging Face lancia Inference Endpoints, servizio managed per deployare modelli del Hub su AWS, Azure o GCP con autoscaling, GPU on-demand e endpoint privati.

Infrastruttura AI Hugging FaceInference EndpointsDeployment

22 settembre 2022 Alto

Flan-T5 e Flan-PaLM: l'instruction tuning scala a 1800 task

Google scala l'instruction tuning a 1.800 task e 540 miliardi di parametri, rilascia Flan-T5 open-source e dimostra che il chain-of-thought si insegna esplicitamente tramite fine-tuning.

Modelli foundation Flan-T5instruction tuningchain-of-thought

21 settembre 2022 Alto

Whisper open source: la trascrizione audio diventa commodity

OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.

Voce & audio OpenAIWhisperASR

16 settembre 2022 Medio

Character.AI: chatbot di personaggi, ex Google in fuga

Noam Shazeer e Daniel De Freitas, padri di LaMDA, lanciano Character.AI: piattaforma che permette a chiunque di creare e chattare con personaggi AI, da Einstein a personaggi anime.

Modelli foundation Character.AIChatbotPersona

14 settembre 2022 Alto

Prompt Injection: quando l'utente sovverte le istruzioni del sistema

Riley Goodside e Perez et al. formalizzano la Prompt Injection: un attacco in cui input malevolo nel testo utente sovrascrive le istruzioni di sistema di un LLM, annullando policy e guardrail.

Sicurezza AI Prompt InjectionLLM SecurityAdversarial Attacks

12 settembre 2022 Alto

AudioLM: Google insegna a un modello linguistico ad ascoltare e continuare l'audio

AudioLM genera audio coerente a lungo termine usando due livelli di token — semantici e acustici — senza mai guardare testo o spartiti.

Voce & audio AudioLMLanguage ModelAudio Generation

25 agosto 2022 Alto

DreamBooth: genera il tuo soggetto in qualsiasi stile con 3-5 foto

Google Research pubblica DreamBooth: fine-tune di un diffusion model su 3-5 immagini di un soggetto specifico per riprodurlo in qualsiasi contesto o stile. Fondamento di tutta la generazione AI personalizzata.

Generazione immagini & video DreamBoothpersonalizationfine-tuning

22 agosto 2022 Pietra miliare

Stable Diffusion: la generazione di immagini diventa open

Stability AI rilascia pubblicamente pesi e codice di un modello latent diffusion text-to-image che gira anche su una GPU consumer. La generazione di immagini AI lascia il cloud.

Generazione immagini & video Stable DiffusionStability AIDiffusion Models

16 agosto 2022 Medio

GitHub Copilot: il 40% del codice scritto dall'AI nei file attivi

GitHub pubblica i primi dati reali: il 40% del codice nei file con Copilot attivo è generato dall'AI. Primo benchmark quantitativo sull'impatto degli strumenti AI sul lavoro degli sviluppatori.

AI per il codice GitHub CopilotDeveloper ProductivityResearch

16 agosto 2022 Alto

SayCan: grounding dei LLM nelle affordance robotiche

Google Robotics mostra come combinare un LLM per la pianificazione ad alto livello con value functions robotiche che filtrano solo le azioni fisicamente eseguibili.

Robotica GoogleSayCanEmbodied AI

22 luglio 2022 Alto

diffusers v0.1: la libreria standard per i modelli di diffusione

Hugging Face rilascia diffusers, una libreria Python modulare per modelli di diffusione text-to-image, audio e oltre. Diventa rapidamente lo standard di fatto.

Modelli open source Hugging FaceDiffusersLibrary

20 luglio 2022 Medio

DALL-E 2 entra in beta: l'AI generativa di immagini al pubblico

OpenAI apre DALL-E 2 in beta a oltre un milione di utenti dalla waitlist, con sistema di crediti pay-per-image. Primo prodotto consumer su larga scala di generazione di immagini.

Generazione immagini & video OpenAIDALL-E 2Beta

12 luglio 2022 Alto

BLOOM 176B: il primo grande LLM multilingue veramente aperto

Il collettivo BigScience rilascia BLOOM, un modello da 176 miliardi di parametri addestrato in 46 lingue e 13 linguaggi di programmazione, sotto licenza RAIL aperta.

Modelli open source BigScienceBLOOMHugging Face

12 luglio 2022 Alto

Midjourney apre la beta pubblica su Discord

Midjourney apre la sua beta pubblica con un modello text-to-image accessibile via bot Discord. Lo stile estetico marcato e la community trasformano la generazione di immagini in fenomeno di massa.

Generazione immagini & video MidjourneyDiscordText-to-Image

6 luglio 2022 Alto

Red Teaming LLM con altri LLM: il paper DeepMind che ha cambiato l'approccio alla sicurezza

Perez et al. (DeepMind) dimostrano che un LLM può essere usato come attacker automatico contro un altro LLM, scoprendo comportamenti indesiderati su scala impossibile per i team umani.

Sicurezza AI Red TeamingDeepMindLLM Safety

27 giugno 2022 Medio

UL2: Google unifica i paradigmi di addestramento con Mixture-of-Denoisers

Google Research combina in un unico modello da 20B i tre principali obiettivi di pretraining (autoregressive, autoencoding, prefix LM), battendo GPT-3 su molti benchmark pur avendo 8 volte meno parametri.

Modelli foundation UL2mixture of denoiserspretraining

23 giugno 2022 Medio

Tabnine 3.0: completamento codice AI con privacy-first e modelli locali

Tabnine lancia la versione 3.0 con supporto a modelli locali o cloud, diventando il primo prodotto maturo di code completion AI sul mercato prima dell'arrivo di Copilot.

AI per il codice TabnineCode CompletionLocal AI

21 giugno 2022 Pietra miliare

FlashAttention: attenzione IO-aware che rivoluziona il training dei transformer

Tri Dao (Stanford) pubblica FlashAttention: implementazione IO-aware che evita di materializzare la matrice di attenzione in HBM, con 2-4x speedup e 10x meno memoria GPU.

Infrastruttura AI FlashAttentionAttentionTransformer

21 giugno 2022 Pietra miliare

GitHub Copilot: l'AI per il codice diventa prodotto per tutti

GitHub annuncia la disponibilità generale di Copilot per tutti gli sviluppatori a 10$/mese. È il primo strumento AI di massa nell'editor di codice quotidiano.

AI per il codice GitHubCopilotOpenAI

17 giugno 2022 Alto

SoundStream: il primo codec audio neurale real-time di Google

SoundStream introduce la Residual Vector Quantization per comprimere audio a 3kbps con qualità superiore a Opus a 12kbps, fondando l'architettura di tutti i codec neurali moderni usati negli audio LLM.

Voce & audio SoundStreamneural codecRVQ

6 giugno 2022 Medio

Tortoise TTS: clonazione vocale convincente da 3 secondi di audio

James Betker pubblica Tortoise TTS, modello open source con voice cloning da pochi secondi di audio e qualità vocale paragonabile all'umano, prima vera svolta nel TTS accessibile.

Voce & audio TTSVoice CloningOpen Source

23 maggio 2022 Alto

Imagen: Google entra nella generazione di immagini da testo

Google Research presenta Imagen, un modello di diffusione text-to-image che usa un encoder testuale T5 congelato e ottiene fedeltà fotorealistica superiore a DALL-E 2 sui benchmark.

Generazione immagini & video GoogleImagenText-to-Image

12 maggio 2022 Alto

Gato: DeepMind prova un singolo agente per 600+ compiti

DeepMind presenta Gato, una rete Transformer da 1.2 miliardi di parametri che con gli stessi pesi gioca a videogame Atari, controlla un braccio robotico, descrive immagini e dialoga.

AI multimodale DeepMindGatoGeneralist Agent

3 maggio 2022 Alto

Meta OPT-175B: il primo LLM da 175 miliardi aperto alla ricerca

Meta AI rilascia OPT-175B, un modello linguistico paragonabile a GPT-3 per dimensioni, con pesi disponibili ai ricercatori e un logbook di training pubblico.

Modelli open source MetaOPTOpen Source

29 aprile 2022 Alto

DeepMind Flamingo: il primo visual language model few-shot

Flamingo porta il few-shot learning al mondo visivo: SOTA su VQA e captioning senza fine-tuning su task specifici.

AI multimodale Visual Language ModelFew-Shot LearningVQA

20 aprile 2022 Alto

NaturalSpeech: Microsoft raggiunge la parità con la voce umana su LJSpeech

NaturalSpeech è il primo sistema TTS a ottenere un MOS statisticamente indistinguibile dalla voce umana registrata sul benchmark LJSpeech, segnando un traguardo storico per la sintesi vocale.

Voce & audio NaturalSpeechMicrosofthuman parity

6 aprile 2022 Alto

DALL·E 2: il salto in qualità della generazione di immagini

OpenAI annuncia DALL·E 2, un modello text-to-image basato su diffusion che produce immagini fotorealistiche a 1024×1024. Accesso inizialmente via waitlist, poi pubblico a luglio.

Generazione immagini & video OpenAIDALL-E 2Diffusion

5 aprile 2022 Medio

PaLM 540B: Google risponde a GPT-3 con il chain-of-thought

Google presenta PaLM, un modello da 540 miliardi di parametri addestrato sul nuovo sistema Pathways. Mostra capacità emergenti di reasoning quando guidato con chain-of-thought.

Modelli foundation GooglePaLMPathways

29 marzo 2022 Pietra miliare

Chinchilla: i modelli grandi erano sotto-addestrati

DeepMind pubblica il paper Chinchilla e dimostra che, a parità di compute, modelli più piccoli ma con molti più token di training battono modelli enormi sotto-addestrati.

Modelli foundation DeepMindChinchillaScaling Laws

22 marzo 2022 Pietra miliare

NVIDIA H100 e architettura Hopper: la GPU dei foundation model

Al GTC 2022 NVIDIA annuncia l'architettura Hopper e la GPU H100, con Transformer Engine FP8 e NVLink 4. Sarà la base hardware di quasi tutti i grandi LLM degli anni successivi.

Infrastruttura AI NVIDIAH100Hopper

21 marzo 2022 Alto

Self-Consistency: campionare più ragionamenti per rispondere meglio

Wang et al. (Google Brain) mostrano che campionare N percorsi di ragionamento diversi e prendere la risposta più frequente batte il greedy decoding su tutti i benchmark di ragionamento.

Modelli foundation Chain of ThoughtSelf-ConsistencyReasoning

2 febbraio 2022 Alto

AlphaCode: DeepMind sfida i programmatori competitivi

DeepMind presenta AlphaCode, un sistema che genera codice per problemi di programmazione competitiva e si piazza nella metà migliore dei partecipanti umani su Codeforces.

AI per il codice DeepMindAlphaCodeCompetitive Programming

27 gennaio 2022 Medio

Coqui TTS: sintesi vocale open source per tutti

Coqui TTS è una libreria Python open source per text-to-speech di qualità, fork di Mozilla TTS, con supporto per oltre 1100 lingue e adottata dalla community HuggingFace.

Voce & audio CoquiTTSOpen Source

27 gennaio 2022 Alto

InstructGPT: il fine-tuning che insegna a GPT a obbedire

OpenAI presenta InstructGPT: un GPT-3 raffinato con feedback umano (RLHF) che segue istruzioni meglio del modello base da 175B pur essendo molto più piccolo (1.3B parametri).

Modelli foundation OpenAIInstructGPTRLHF

24 gennaio 2022 Medio

UnifiedIO (AI2): primo modello sequence-to-sequence unificato per testo, immagini, audio e video

AI2 e University of Washington presentano UnifiedIO: il primo modello sequence-to-sequence capace di gestire testo, immagini, audio, video e strutture dati in input e output attraverso una singola architettura, addestrato su 80+ task simultaneamente.

AI multimodale UnifiedIOmultimodalunified model