Google TPU v5e: chip AI ottimizzato per il costo dell'inferenza enterprise

In una frase Google annuncia TPU v5e, un chip AI cost-optimized con 4x meglio performance per dollaro rispetto a TPU v4 per l'inferenza, disponibile tramite Google Kubernetes Engine per workload containerizzati.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Fino al 2023, i chip AI di Google — i TPU — erano principalmente pensati per addestrare modelli enormi nel più breve tempo possibile, indipendentemente dal costo. Questo li rendeva potentissimi ma poco adatti per aziende che devono servire risposte AI a milioni di utenti ogni giorno a un costo gestibile.

TPU v5e cambia questa equazione. La "e" sta per "efficient" — Google ha progettato questo chip partendo da una domanda diversa: quanto AI possiamo erogare per ogni euro speso? Rispetto al TPU v4, la v5e offre quattro volte più operazioni AI per dollaro quando si usa per rispondere alle richieste degli utenti (inferenza), non per addestrare.

La vera novità per chi gestisce sistemi è che TPU v5e è disponibile direttamente tramite Google Kubernetes Engine, la stessa piattaforma che molte aziende già usano per i loro servizi. Questo significa che è possibile includere il chip AI nelle pipeline Kubernetes esistenti usando strumenti familiari, senza dover imparare un sistema completamente nuovo. Per le aziende che vogliono offrire funzionalità AI ma non possono permettersi i costi di servizi basati su GPU premium, questa è un'alternativa concreta.