2020

27 voci

31 dicembre 2020 Alto

The Pile: il dataset open source da 825 GB per addestrare LLM

EleutherAI rilascia The Pile, un dataset composito da 825 GB di testo curato da 22 fonti diverse (arXiv, GitHub, PubMed, libri, StackExchange…), pensato per il pre-training di language model open di grande scala.

Modelli open source EleutherAIThe PileDataset

23 dicembre 2020 Alto

MuZero su Nature: padroneggiare giochi senza conoscerne le regole

DeepMind pubblica MuZero su Nature: l'agente RL impara da solo le dinamiche del mondo e raggiunge prestazioni superumane su Go, scacchi, shogi e 57 giochi Atari senza che gli vengano date le regole.

Modelli foundation DeepMindMuZeroReinforcement Learning

8 dicembre 2020 Medio

Big Bird a NeurIPS 2020: attention sparsa per sequenze fino a 4096 token

Google Research presenta Big Bird a NeurIPS 2020, un transformer con attention sparsa (locale + globale + random) che scala linearmente, raggiunge SOTA su QA long-document e summarization e dimostra Turing-completeness.

Modelli foundation GoogleBig BirdSparse Attention

30 novembre 2020 Pietra miliare

AlphaFold 2 vince CASP14 e risolve il protein folding

DeepMind annuncia che AlphaFold 2 ha vinto la competizione CASP14 con accuratezza media GDT >90, equivalente a metodi sperimentali, considerata la soluzione del problema di protein folding aperto da 50 anni.

Modelli foundation DeepMindAlphaFoldCASP

4 novembre 2020 Medio

Bing in produzione su Turing: AI deep in search a scala mondiale

Microsoft annuncia il deployment in produzione su tutto Bing dei modelli Turing-NLR (next-generation NLP) su Azure GPU, descritto come la più grande migliorazione di qualità search di sempre.

AI enterprise MicrosoftBingTuring

26 ottobre 2020 Medio

DeepMind acquisisce MuJoCo e lo rende gratuito

DeepMind annuncia di aver acquisito MuJoCo, il simulatore fisico usato in gran parte della ricerca RL e robotica, e si impegna a renderlo gratuito per tutti — primo passo verso il rilascio open source completo nel 2022.

Robotica DeepMindMuJoCoPhysics Simulator

23 ottobre 2020 Medio

mT5: T5 multilingue su 101 lingue

Google Research pubblica mT5, una versione di T5 pre-addestrata su mC4 (Common Crawl multilingue) su 101 lingue, che diventa baseline standard per molti task NLP cross-lingual.

Modelli foundation GoogleT5mT5

22 ottobre 2020 Pietra miliare

Vision Transformer (ViT): "An Image is Worth 16x16 Words"

Google Research presenta il Vision Transformer, che applica un transformer puro a patch di immagini come fossero token, dimostrando che con sufficiente pre-training supera le CNN su ImageNet e benchmark vision.

AI multimodale GoogleVision TransformerViT

22 settembre 2020 Alto

Microsoft acquisisce la licenza esclusiva di GPT-3

Microsoft annuncia di aver ottenuto una licenza esclusiva per integrare e re-distribuire GPT-3 nei propri prodotti e servizi cloud, mentre l'API pubblica di OpenAI continua a funzionare. È il primo grande accordo enterprise sui foundation model.

AI enterprise MicrosoftOpenAIGPT-3

9 settembre 2020 Alto

DeepSpeed ZeRO-3: training di modelli oltre 100 miliardi di parametri

Microsoft annuncia ZeRO Stage 3 in DeepSpeed: shardando anche i parametri tra le GPU, oltre a gradienti e stati ottimizzatore, abilita training di modelli da 100B+ parametri su cluster di taglia ragionevole.

Infrastruttura AI MicrosoftDeepSpeedZeRO-3

4 agosto 2020 Medio

PyTorch Lightning 1.0: il training loop diventa boilerplate-free

William Falcon e team rilasciano PyTorch Lightning 1.0, un framework che separa la ricerca (model code) dall'ingegneria (training loop, distributed, checkpoint, logging) e diventa standard de facto per molti progetti open.

Infrastruttura AI PyTorch LightningOpen SourceTraining Loop

29 luglio 2020 Medio

Google annuncia TPU v4 con record MLPerf 0.7

Pubblicando i risultati MLPerf Training 0.7, Google rivela TPU v4, un nuovo acceleratore custom per il deep learning, e dichiara di aver costruito il "supercomputer di training più veloce al mondo" con un pod di 4096 chip.

Infrastruttura AI GoogleTPU v4Pod

22 luglio 2020 Medio

Longformer: sliding-window attention per documenti lunghi

Allen Institute for AI rilascia Longformer, un transformer che combina sliding-window attention locale e attention globale su token speciali, scalando linearmente fino a 4096 token e battendo RoBERTa su task long-document.

Modelli foundation AllenAILongformerLong Context

9 luglio 2020 Alto

HuggingFace Transformers 3.0: i tokenizer Rust e l'hub modelli

HuggingFace rilascia Transformers 3.0 con la libreria tokenizers in Rust (fino a 100× più veloci), nuove pipeline NLP e un'integrazione più stretta con il Model Hub, consolidando lo standard de facto per usare modelli pretrained in Python.

Modelli open source HuggingFaceTransformersTokenizers

3 luglio 2020 Alto

Nasce EleutherAI: la community per replicare GPT-3 in open source

Connor Leahy, Sid Black e Leo Gao fondano EleutherAI su Discord con l'obiettivo di replicare GPT-3 e rilasciare modelli, codice e dataset open, dando il via a progetti come GPT-Neo, GPT-J e The Pile.

Modelli open source EleutherAIGPT-NeoOpen Source

20 giugno 2020 Alto

wav2vec 2.0: il "BERT del parlato" arriva da Facebook AI

Facebook AI pubblica wav2vec 2.0, un modello self-supervised che apprende rappresentazioni dell'audio grezzo e raggiunge SOTA su LibriSpeech con appena 10 minuti di dati etichettati.

Voce & audio Facebook AIwav2vec 2.0Speech Recognition

17 giugno 2020 Medio

Image GPT: pre-training generativo per le immagini

OpenAI presenta Image GPT (iGPT), un transformer che tratta i pixel come token e mostra che il pre-training generativo sequenziale di GPT funziona anche sulle immagini, raggiungendo prestazioni competitive su CIFAR-10.

AI multimodale OpenAIImage GPTGenerative Pretraining

11 giugno 2020 Pietra miliare

OpenAI lancia l'API GPT-3 in beta privata

Due settimane dopo il paper, OpenAI apre una beta privata della prima API generale per i suoi modelli linguistici, accessibile a poche centinaia di sviluppatori per costruire applicazioni direttamente sopra GPT-3.

Modelli foundation OpenAIGPT-3API

28 maggio 2020 Pietra miliare

GPT-3: il paper che apre l'era delle scaling laws

OpenAI pubblica 'Language Models are Few-Shot Learners' e mostra che con 175 miliardi di parametri un modello impara nuovi compiti da pochi esempi nel prompt.

Modelli foundation OpenAIGPT-3Few-shot Learning

22 maggio 2020 Pietra miliare

RAG: Retrieval-Augmented Generation entra nella letteratura

Lewis et al. di Facebook AI pubblicano il paper RAG, che combina un retriever denso (DPR) con un seq2seq generativo (BART) per rispondere a domande knowledge-intensive senza memorizzare tutti i fatti nei pesi.

Modelli foundation Facebook AIRAGRetrieval-Augmented Generation

14 maggio 2020 Pietra miliare

NVIDIA A100: l'architettura Ampere e la GPU che addestra GPT-3

Al GTC 2020 Jensen Huang annuncia la GPU A100 basata sull'architettura Ampere: 54 miliardi di transistor, 40-80 GB HBM2e, TF32, sparsità strutturale 2:4 e supporto MIG.

Infrastruttura AI NVIDIAA100Ampere

30 aprile 2020 Medio

OpenAI Jukebox: generare canzoni intere con la voce

OpenAI rilascia Jukebox, un modello generativo che produce canzoni grezze (audio + voce + testo) condizionate su artista e genere, basato su una pila di VQ-VAE e transformer autoregressivi.

Voce & audio OpenAIJukeboxMusic Generation

9 aprile 2020 Basso

fairseq stabilizza il supporto a transformer modulari

Facebook AI Research consolida fairseq come framework di riferimento per sequence-to-sequence: aggiunge supporto modulare per BART, RoBERTa, mBART, wav2vec e diventa la codebase principale dei modelli FAIR del 2020.

Modelli open source MetaFacebook AIfairseq

23 marzo 2020 Medio

ELECTRA: pre-training NLP più efficiente di BERT

Clark, Luong, Le e Manning pubblicano ELECTRA a ICLR 2020: invece del masked language modeling, addestra il modello a distinguere token sostituiti da un piccolo generatore, raggiungendo BERT con un quarto del compute.

Modelli foundation GoogleStanfordELECTRA

13 febbraio 2020 Medio

Microsoft Turing-NLG: 17B parametri e nasce DeepSpeed

Microsoft Research presenta Turing-NLG, il modello linguistico più grande mai annunciato (17B), reso possibile dall'ottimizzatore DeepSpeed/ZeRO che taglia drasticamente la memoria GPU richiesta.

Modelli foundation MicrosoftTuring-NLGLarge Language Models

28 gennaio 2020 Medio

Google Meena: il chatbot end-to-end da 2.6B parametri

Google presenta Meena, un modello conversazionale da 2.6 miliardi di parametri addestrato su 341 GB di dialoghi social, e introduce la metrica SSA per valutare la qualità di un chatbot.

Modelli foundation GoogleMeenaDialogue

13 gennaio 2020 Medio

Reformer: il transformer che gestisce sequenze lunghissime

Google Research presenta Reformer, una variante del transformer che usa LSH attention e reversible layers per scendere da O(n²) a O(n log n) e gestire sequenze fino a 64k token.

Modelli foundation GoogleReformerEfficient Transformers