2021

31 voci

20 dicembre 2021 Alto

GLIDE: OpenAI passa dai modelli autoregressivi a diffusion guidata da CLIP

OpenAI pubblica GLIDE, modello text-to-image basato su diffusion con classifier-free guidance, fondamento tecnico di DALL·E 2 e dei modelli che seguiranno.

Generazione immagini & video OpenAIGLIDEDiffusion

16 dicembre 2021 Alto

WebGPT: OpenAI insegna a GPT-3 a navigare il web

OpenAI pubblica WebGPT, fine-tuning di GPT-3 che impara a usare un browser testuale per cercare risposte sul web, con citazioni delle fonti, addestrato via imitation learning + RLHF.

Agenti OpenAIWebGPTBrowsing

8 dicembre 2021 Alto

Gopher 280B: DeepMind entra ufficialmente nella corsa ai LLM

DeepMind pubblica Gopher, modello dense da 280B parametri, accompagnato da uno studio sistematico su 152 task e da un paper sulle considerazioni etiche dei foundation models.

Modelli foundation DeepMindGopherScaling

8 dicembre 2021 Alto

RETRO: DeepMind anticipa il RAG con il retrieval da 2 trilioni di token

DeepMind pubblica RETRO, modello da 7B parametri che recupera passaggi rilevanti da un database di 2T token durante l'inferenza, eguagliando le prestazioni di modelli 25x più grandi.

Modelli foundation DeepMindRETRORetrieval

18 novembre 2021 Alto

OpenAI rimuove la waitlist: API GPT-3 disponibile per tutti

Diciotto mesi dopo il paper GPT-3, OpenAI rimuove la waitlist per l'accesso all'API e permette a qualsiasi sviluppatore di iscriversi, accelerando l'adozione mainstream dei foundation models.

AI enterprise OpenAIAPIGPT-3

29 ottobre 2021 Medio

Replit Ghostwriter: AI coding nel browser senza setup

Primo AI coding tool integrato in un IDE browser: code completion intelligente per studenti e developer senza alcuna configurazione locale.

AI per il codice Code CompletionBrowser IDEAI Assistant

28 ottobre 2021 Medio

Pathways: Google delinea l'architettura post-Transformer

Jeff Dean illustra Pathways, l'architettura unificata di Google per modelli sparsi multitask multimodali, fondamento dell'infrastruttura che farà nascere PaLM e Gemini.

Infrastruttura AI GooglePathwaysMultitask

21 ottobre 2021 Alto

FLAN: l'instruction tuning che insegna ai modelli a seguire istruzioni

Google mostra che addestrare un modello su 60+ task formulati come istruzioni migliora drasticamente le prestazioni zero-shot su task mai visti prima.

Modelli foundation FLANinstruction tuningzero-shot

21 ottobre 2021 Medio

PyTorch 1.10: CUDA Graphs, FX e maturazione del framework dominante

Meta rilascia PyTorch 1.10 con CUDA Graphs integration, FX-based quantization, miglioramenti TorchScript, consolidando la leadership del framework per ricerca e produzione AI.

Infrastruttura AI PyTorchFrameworkCUDA Graphs

11 ottobre 2021 Alto

Megatron-Turing NLG 530B: Microsoft e NVIDIA scalano il dense oltre GPT-3

Microsoft e NVIDIA annunciano MT-NLG, modello dense da 530B parametri addestrato con DeepSpeed e Megatron-LM, all'epoca il più grande dense LM mai prodotto.

Modelli foundation MicrosoftNVIDIAMegatron

29 settembre 2021 Basso

Copilot Labs: GitHub apre la sandbox per feature sperimentali

GitHub introduce Copilot Labs, estensione VS Code che ospita feature sperimentali oltre il semplice autocomplete: spiegazione codice, traduzione tra linguaggi, generazione test.

AI per il codice GitHubCopilot LabsCode Explain

9 settembre 2021 Medio

HuBERT: Meta porta self-supervised su speech, anticipa Whisper

Meta AI pubblica HuBERT, modello self-supervised per audio basato su masked prediction di cluster discreti, base concettuale che porterà a Whisper, w2v-BERT e modelli multimodali audio.

Voce & audio FacebookMetaAV-HuBERT

31 agosto 2021 Medio

Copilot arriva su JetBrains e Neovim

GitHub estende la technical preview di Copilot ai principali IDE JetBrains (IntelliJ, PyCharm, GoLand, WebStorm) e a Neovim, portando l'AI coding fuori dall'ecosistema VS Code.

AI per il codice GitHubCopilotJetBrains

16 agosto 2021 Alto

On the Opportunities and Risks of Foundation Models: Stanford conia il termine

Il Center for Research on Foundation Models di Stanford pubblica un report di 200+ pagine coniando il termine foundation models, oggi standard nel discorso tecnico, accademico e regolatorio.

Modelli foundation StanfordCRFMFoundation Models

10 agosto 2021 Alto

Codex API: OpenAI apre l'accesso al modello che alimenta Copilot

OpenAI rilascia in private beta l'API di Codex, dando agli sviluppatori accesso diretto al modello di code generation dietro GitHub Copilot, gratuitamente durante la beta.

AI per il codice OpenAICodexAPI

28 luglio 2021 Medio

OpenAI Triton: scrivere kernel GPU in Python diventa praticabile

OpenAI rilascia Triton, linguaggio e compiler Python-like per scrivere kernel GPU custom con prestazioni vicine a CUDA scritto a mano, abbassando drasticamente la barriera per ottimizzare modelli.

Infrastruttura AI OpenAITritonGPU

15 luglio 2021 Alto

AlphaFold 2: codice e database aperti, la biologia accelera

DeepMind pubblica codice e pesi di AlphaFold 2 su GitHub e, con EMBL-EBI, rilascia il database con la struttura predetta di 350.000 proteine umane e di altri organismi modello.

Infrastruttura AI DeepMindAlphaFoldProtein Folding

12 luglio 2021 Alto

Megatron-LM v2: parallelismo 3D per modelli da 530 miliardi di parametri

NVIDIA aggiunge pipeline scheduling interleaved e sequence parallelism a Megatron-LM, permettendo di addestrare MT-NLG da 530B parametri su 2240 GPU A100 con Microsoft.

Infrastruttura AI Megatron-LM3D parallelismpipeline parallelism

7 luglio 2021 Alto

Codex paper: OpenAI pubblica HumanEval e il modello dietro Copilot

OpenAI rilascia il paper Evaluating Large Language Models Trained on Code che descrive Codex, il modello dietro GitHub Copilot, e introduce HumanEval, il benchmark standard per il code generation.

AI per il codice OpenAICodexHumanEval

29 giugno 2021 Alto

GitHub Copilot: l'autocomplete diventa AI

GitHub e OpenAI lanciano in technical preview un assistente che suggerisce intere righe e funzioni direttamente nell'editor, basato su un modello derivato da GPT-3 e addestrato su codice pubblico.

AI per il codice GitHubCopilotCodex

15 giugno 2021 Alto

VITS: sintesi vocale end-to-end con autoencoder variazionale

VITS unifica il modello acustico e il vocoder in un unico modello end-to-end, raggiungendo qualità superiore a Tacotron 2 con maggiore velocità di inferenza.

Voce & audio VITSTTSend-to-end

4 giugno 2021 Alto

GPT-J 6B: il modello open source che batte GPT-3 Curie su molti benchmark

EleutherAI rilascia GPT-J, modello da 6B parametri addestrato in JAX su TPU, con prestazioni paragonabili a GPT-3 Curie, distribuito sotto licenza Apache 2.0.

Modelli open source EleutherAIGPT-JOpen Source

1 giugno 2021 Alto

The Pile: il dataset open source da 825 GB che alimenta l'open LLM

EleutherAI pubblica The Pile, un dataset di 825 GB composto da 22 sotto-dataset diversificati, che diventerà la base per GPT-Neo, GPT-J, Pythia e gran parte dell'ecosistema open.

Modelli open source EleutherAIThe PileDataset

1 giugno 2021 Medio

Wu Dao 2.0: la Cina annuncia un modello da 1,75T parametri

BAAI (Beijing Academy of Artificial Intelligence) presenta Wu Dao 2.0, modello multimodale Mixture of Experts da 1,75 trilioni di parametri, in risposta a GPT-3 e Switch Transformer.

Modelli foundation BAAIWu DaoChina

28 maggio 2021 Pietra miliare

Anthropic: nasce il laboratorio focalizzato su AI safety

Dario e Daniela Amodei, ex VP of Research e VP of Safety di OpenAI, fondano Anthropic insieme a un gruppo di ricercatori, con focus esplicito su AI safety e interpretability.

Sicurezza AI AnthropicAI SafetyFounding

18 maggio 2021 Medio

MUM: Google presenta il modello multitask per Search

A Google I/O, l'azienda annuncia MUM (Multitask Unified Model), basato su T5, 1000 volte più potente di BERT secondo Google, capace di lavorare su 75 lingue e contenuti multimodali.

AI multimodale GoogleMUMSearch

18 maggio 2021 Alto

LaMDA: Google presenta il modello conversazionale

A Google I/O, Sundar Pichai annuncia LaMDA (Language Model for Dialogue Applications), modello da 137B parametri addestrato specificamente sul dialogo, precursore diretto di Bard.

Modelli foundation GoogleLaMDADialogue

15 aprile 2021 Medio

OpenAI Content Filter: prima infrastruttura di moderazione AI-side

OpenAI rilascia il content filter endpoint per classificare output GPT-3 in safe/sensitive/unsafe, primo strumento di moderazione integrato in un'API di foundation model commerciale.

Sicurezza AI OpenAIContent FilterSafety

22 marzo 2021 Alto

GPT-Neo: il primo clone open source di GPT-3

EleutherAI rilascia GPT-Neo 1.3B e 2.7B, modelli linguistici open source addestrati su The Pile, primo tentativo serio di replicare l'architettura GPT-3 con pesi pubblici.

Modelli open source EleutherAIGPT-NeoOpen Source

12 gennaio 2021 Alto

Switch Transformer: Google scala a 1,6T parametri con Mixture of Experts

Google Brain pubblica Switch Transformer, un modello sparse con 1,6 trilioni di parametri che attiva solo un esperto per token, dimostrando che il routing sparso può scalare oltre il dense.

Modelli foundation GoogleMoESparse

5 gennaio 2021 Alto

DALL·E e CLIP: testo e immagini si parlano davvero

OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.

AI multimodale OpenAIDALL-ECLIP