S-LoRA e Punica: serving di centinaia di fine-tuning LoRA da un singolo modello base
In una frase S-LoRA (UC Berkeley) e Punica (UW) abilitano il serving multi-tenant di centinaia di adapter LoRA da un singolo modello base con commutazione zero-copy e kernel CUDA dedicati, integrati in vLLM e SGLang.
LoRA è la tecnica più usata per fare il fine-tuning di modelli grandi: invece di modificare tutti i miliardi di parametri, si aggiungono piccole "matrici adattatori" che modificano il comportamento del modello per un compito specifico. Un'azienda può creare decine di fine-tuning diversi di LLaMA per usi diversi.
Il problema: se hai 200 versioni fine-tuned dello stesso modello base e vari utenti le usano contemporaneamente, devi tenere in memoria 200 copie del modello? Con S-LoRA e Punica la risposta è no. Si tiene in GPU una sola copia del modello base, e gli adapter LoRA — molto più piccoli — vengono caricati dinamicamente per ogni richiesta.
Il risultato è il serving simultaneo di centinaia di versioni personalizzate di un LLM con la memoria necessaria per un singolo modello. Integrato in vLLM e SGLang, è diventato il modo standard per offrire LLM personalizzati come servizio.
Aziende
UC Berkeley, University of Washington
Tool
vLLM, SGLang, S-LoRA, Punica, PyTorch
Tag
Fonti