Groq LPU: l'inferenza a 500 token/secondo diventa virale

In una frase La demo pubblica di Groq su Llama 2 70B genera ~500 token/sec, ordini di grandezza più veloce di qualunque GPU. La latenza dei LLM smette di essere un dato di fatto.

Verificato Fonte ufficiale

CondividiLinkedIn X

Tutti i chatbot AI hanno la stessa cosa fastidiosa: aspetti che il testo "scorra" sullo schermo, parola dopo parola. Anche su GPT-4 o Claude succede.

Groq, una startup hardware fondata da un ex-Google (Jonathan Ross, padre della prima TPU), ha costruito un chip diverso, chiamato LPU (Language Processing Unit). Su Llama 2 70B la loro demo pubblica risponde a 500 token al secondo: tipo, l'intera risposta appare istantaneamente, più veloce di quanto possa leggerla.

Non è solo un trucco da demo: cambia cosa puoi costruire. Agenti AI che fanno 10 chiamate in serie? Diventano usabili. Voce in tempo reale? Possibile. La velocità dell'inferenza, fino a quel momento un collo di bottiglia, diventa improvvisamente un parametro variabile.