Latent Consistency Models: generazione immagini in 4 step in tempo reale
In una frase Tsinghua University pubblica LCM: distillazione di un diffusion model che riduce il campionamento da 50 passi a 4 con perdita minima di qualita. LCM-LoRA porta ogni modello SD a 10x velocita. Prima tecnica per generazione real-time su hardware consumer.
Un modello di diffusione standard per generare un'immagine fa 20-50 "passaggi" di denoising, ognuno un'inferenza completa della rete neurale. Su una GPU consumer ci vogliono 5-30 secondi. Non è esattamente "in tempo reale".
I Latent Consistency Models risolvono questo con una tecnica di distillazione: si "insegna" a un modello addestrato come saltare i passi intermedi e arrivare direttamente a un'immagine di buona qualità in 4 passaggi. Come insegnare a qualcuno a fare un calcolo a mente invece di usare la calcolatrice passo per passo.
Il risultato è radicale: generazione di immagini a 1-2 secondi su GPU domestiche, con qualità comparabile al modello standard. LCM-LoRA applica questa tecnica a qualsiasi modello SD esistente con un file da pochi MB. Per la prima volta, generare immagini in tempo reale mentre scrivi il prompt diventa possibile su hardware normale.
Aziende
Tsinghua University
Tool
—
Tag
Fonti