bitsandbytes 0.43: QLoRA e quantizzazione NF4/FP4 per fine-tuning 4-bit

In una frase bitsandbytes 0.43 aggiorna il supporto QLoRA con NF4 e FP4 data types, inference-time dequantizzazione ottimizzata su A100/H100, e integrazione migliorata con PEFT per fine-tuning efficiente di LLM a 4 bit.

Verificato Fonte ufficiale

CondividiLinkedIn X

Per addestrare un modello AI su dati propri normalmente servono molte GPU costose. QLoRA è una tecnica che ha rivoluzionato questo scenario: permette di fare fine-tuning di modelli enormi su hardware molto più accessibile, come una singola GPU consumer da 24 GB.

Il trucco sta in due idee combinate: caricare il modello base in formato compresso a 4 bit (occupando molto meno spazio), e addestrare solo un piccolo sottoinsieme di parametri aggiuntivi (LoRA) in piena precisione. Si risparmia memoria mantenendo gran parte della qualità.

bitsandbytes 0.43 migliora questa tecnica con tipi numerici più precisi (NF4) e kernel GPU più veloci per A100 e H100, rendendo QLoRA una soluzione matura e affidabile per personalizzare modelli open source in produzione.