Switch Transformer: Google scala a 1,6T parametri con Mixture of Experts

In una frase Google Brain pubblica Switch Transformer, un modello sparse con 1,6 trilioni di parametri che attiva solo un esperto per token, dimostrando che il routing sparso può scalare oltre il dense.

Verificato Fonte ufficiale

CondividiLinkedIn X

Google pubblica un articolo su un nuovo tipo di rete neurale chiamata Switch Transformer, che porta i modelli linguistici a 1,6 trilioni di parametri — circa dieci volte più grande di GPT-3.

Il trucco si chiama Mixture of Experts: invece di accendere tutta la rete per ogni parola in ingresso, il modello sceglie un piccolo "esperto" specializzato. È come un grande studio di consulenti dove ogni domanda viene smistata all'esperto giusto, invece di mettere tutti i consulenti a lavorare contemporaneamente.

Il risultato: modelli enormi che costano meno energia per essere usati, perché solo una piccola parte della rete è attiva per ogni richiesta. È la prova che si può crescere oltre il "dense" senza che i costi esplodano.