Latent Consistency Models: generazione immagini in 4 step in tempo reale

In una frase Tsinghua University pubblica LCM: distillazione di un diffusion model che riduce il campionamento da 50 passi a 4 con perdita minima di qualita. LCM-LoRA porta ogni modello SD a 10x velocita. Prima tecnica per generazione real-time su hardware consumer.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Un modello di diffusione standard per generare un'immagine fa 20-50 "passaggi" di denoising, ognuno un'inferenza completa della rete neurale. Su una GPU consumer ci vogliono 5-30 secondi. Non è esattamente "in tempo reale".

I Latent Consistency Models risolvono questo con una tecnica di distillazione: si "insegna" a un modello addestrato come saltare i passi intermedi e arrivare direttamente a un'immagine di buona qualità in 4 passaggi. Come insegnare a qualcuno a fare un calcolo a mente invece di usare la calcolatrice passo per passo.

Il risultato è radicale: generazione di immagini a 1-2 secondi su GPU domestiche, con qualità comparabile al modello standard. LCM-LoRA applica questa tecnica a qualsiasi modello SD esistente con un file da pochi MB. Per la prima volta, generare immagini in tempo reale mentre scrivi il prompt diventa possibile su hardware normale.