GLIDE: OpenAI passa dai modelli autoregressivi a diffusion guidata da CLIP
OpenAI pubblica GLIDE, modello text-to-image basato su diffusion con classifier-free guidance, fondamento tecnico di DALL·E 2 e dei modelli che seguiranno.
31 voci
OpenAI pubblica GLIDE, modello text-to-image basato su diffusion con classifier-free guidance, fondamento tecnico di DALL·E 2 e dei modelli che seguiranno.
OpenAI pubblica WebGPT, fine-tuning di GPT-3 che impara a usare un browser testuale per cercare risposte sul web, con citazioni delle fonti, addestrato via imitation learning + RLHF.
DeepMind pubblica Gopher, modello dense da 280B parametri, accompagnato da uno studio sistematico su 152 task e da un paper sulle considerazioni etiche dei foundation models.
DeepMind pubblica RETRO, modello da 7B parametri che recupera passaggi rilevanti da un database di 2T token durante l'inferenza, eguagliando le prestazioni di modelli 25x più grandi.
Diciotto mesi dopo il paper GPT-3, OpenAI rimuove la waitlist per l'accesso all'API e permette a qualsiasi sviluppatore di iscriversi, accelerando l'adozione mainstream dei foundation models.
Primo AI coding tool integrato in un IDE browser: code completion intelligente per studenti e developer senza alcuna configurazione locale.
Jeff Dean illustra Pathways, l'architettura unificata di Google per modelli sparsi multitask multimodali, fondamento dell'infrastruttura che farà nascere PaLM e Gemini.
Google mostra che addestrare un modello su 60+ task formulati come istruzioni migliora drasticamente le prestazioni zero-shot su task mai visti prima.
Meta rilascia PyTorch 1.10 con CUDA Graphs integration, FX-based quantization, miglioramenti TorchScript, consolidando la leadership del framework per ricerca e produzione AI.
Microsoft e NVIDIA annunciano MT-NLG, modello dense da 530B parametri addestrato con DeepSpeed e Megatron-LM, all'epoca il più grande dense LM mai prodotto.
GitHub introduce Copilot Labs, estensione VS Code che ospita feature sperimentali oltre il semplice autocomplete: spiegazione codice, traduzione tra linguaggi, generazione test.
Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.
GitHub estende la technical preview di Copilot ai principali IDE JetBrains (IntelliJ, PyCharm, GoLand, WebStorm) e a Neovim, portando l'AI coding fuori dall'ecosistema VS Code.
Il Center for Research on Foundation Models di Stanford pubblica un report di 200+ pagine coniando il termine foundation models, oggi standard nel discorso tecnico, accademico e regolatorio.
OpenAI rilascia in private beta l'API di Codex, dando agli sviluppatori accesso diretto al modello di code generation dietro GitHub Copilot, gratuitamente durante la beta.
OpenAI rilascia Triton, linguaggio e compiler Python-like per scrivere kernel GPU custom con prestazioni vicine a CUDA scritto a mano, abbassando drasticamente la barriera per ottimizzare modelli.
DeepMind pubblica codice e pesi di AlphaFold 2 su GitHub e, con EMBL-EBI, rilascia il database con la struttura predetta di 350.000 proteine umane e di altri organismi modello.
NVIDIA aggiunge pipeline scheduling interleaved e sequence parallelism a Megatron-LM, permettendo di addestrare MT-NLG da 530B parametri su 2240 GPU A100 con Microsoft.
OpenAI rilascia il paper Evaluating Large Language Models Trained on Code che descrive Codex, il modello dietro GitHub Copilot, e introduce HumanEval, il benchmark standard per il code generation.
GitHub e OpenAI lanciano in technical preview un assistente che suggerisce intere righe e funzioni direttamente nell'editor, basato su un modello derivato da GPT-3 e addestrato su codice pubblico.
VITS unifica il modello acustico e il vocoder in un unico modello end-to-end, raggiungendo qualità superiore a Tacotron 2 con maggiore velocità di inferenza.
EleutherAI rilascia GPT-J, modello da 6B parametri addestrato in JAX su TPU, con prestazioni paragonabili a GPT-3 Curie, distribuito sotto licenza Apache 2.0.
EleutherAI pubblica The Pile, un dataset di 825 GB composto da 22 sotto-dataset diversificati, che diventerà la base per GPT-Neo, GPT-J, Pythia e gran parte dell'ecosistema open.
BAAI (Beijing Academy of Artificial Intelligence) presenta Wu Dao 2.0, modello multimodale Mixture of Experts da 1,75 trilioni di parametri, in risposta a GPT-3 e Switch Transformer.
Dario e Daniela Amodei, ex VP of Research e VP of Safety di OpenAI, fondano Anthropic insieme a un gruppo di ricercatori, con focus esplicito su AI safety e interpretability.
A Google I/O, l'azienda annuncia MUM (Multitask Unified Model), basato su T5, 1000 volte più potente di BERT secondo Google, capace di lavorare su 75 lingue e contenuti multimodali.
A Google I/O, Sundar Pichai annuncia LaMDA (Language Model for Dialogue Applications), modello da 137B parametri addestrato specificamente sul dialogo, precursore diretto di Bard.
OpenAI rilascia il content filter endpoint per classificare output GPT-3 in safe/sensitive/unsafe, primo strumento di moderazione integrato in un'API di foundation model commerciale.
EleutherAI rilascia GPT-Neo 1.3B e 2.7B, modelli linguistici open source addestrati su The Pile, primo tentativo serio di replicare l'architettura GPT-3 con pesi pubblici.
Google Brain pubblica Switch Transformer, un modello sparse con 1,6 trilioni di parametri che attiva solo un esperto per token, dimostrando che il routing sparso può scalare oltre il dense.
OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.