Switch Transformer: Google scala a 1,6T parametri con Mixture of Experts
In una frase Google Brain pubblica Switch Transformer, un modello sparse con 1,6 trilioni di parametri che attiva solo un esperto per token, dimostrando che il routing sparso può scalare oltre il dense.
Google pubblica un articolo su un nuovo tipo di rete neurale chiamata Switch Transformer, che porta i modelli linguistici a 1,6 trilioni di parametri — circa dieci volte più grande di GPT-3.
Il trucco si chiama Mixture of Experts: invece di accendere tutta la rete per ogni parola in ingresso, il modello sceglie un piccolo "esperto" specializzato. È come un grande studio di consulenti dove ogni domanda viene smistata all'esperto giusto, invece di mettere tutti i consulenti a lavorare contemporaneamente.
Il risultato: modelli enormi che costano meno energia per essere usati, perché solo una piccola parte della rete è attiva per ogni richiesta. È la prova che si può crescere oltre il "dense" senza che i costi esplodano.
Aziende
Tool
Switch Transformer
Tag
Fonti