WebLLM e LLM in WASM: inferenza LLM nel browser tramite WebGPU senza server

In una frase WebLLM abilita l'esecuzione di LLM come Llama 3 8B direttamente nel browser via WebGPU e WASM, compilando i modelli con Apache TVM per raggiungere 15 token/s in Chrome senza alcun server backend.

Verificato Fonte ufficiale

CondividiLinkedIn X

Normalmente per usare un modello AI hai bisogno di un server: il tuo browser manda le richieste a un computer remoto che esegue il modello e restituisce le risposte. WebLLM capovolge questo schema: il modello gira direttamente nel tuo browser, sul tuo computer.

La tecnologia che rende questo possibile è WebGPU, un'API moderna che permette al browser di accedere alla scheda grafica del computer per calcoli generali, non solo per grafica 3D. Combinata con la compilazione del modello tramite Apache TVM, è abbastanza veloce da essere pratica.

Il risultato più sorprendente: Llama 3 8B gira a circa 15 token al secondo in Chrome su un laptop con GPU discreta. Tutto il testo elaborato rimane sul tuo dispositivo — nessun dato esce mai verso server esterni. Ideale per applicazioni che richiedono privacy totale.