Textual Inversion: inietta un concetto personalizzato nei modelli di diffusione

In una frase Il Weizmann Institute pubblica Textual Inversion: apprendimento di un nuovo token testuale che rappresenta un concetto custom a partire da 3-5 immagini, senza modificare i pesi del modello.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

I modelli di generazione immagini capiscono parole come "cane", "tramonto", "impressionismo". Ma non conoscono il tuo gatto specifico, la tua lampada di design preferita, o il logo della tua azienda.

Textual Inversion risolve questo problema in modo elegante: invece di riaddestrare tutto il modello, impara solo una nuova parola — un token — che rappresenta il tuo concetto. Lo fa analizzando 3-5 foto del soggetto e trovando nella "mappa del linguaggio" del modello il punto esatto che descrive meglio quell'oggetto.

Una volta imparato il token, puoi usarlo nei prompt come qualsiasi altra parola: "una foto di [mio-gatto] su una spiaggia tropicale" o "una tazza di caffè nel stile di [mio-artista-preferito]". Il modello rimane intatto, solo il vocabolario è stato arricchito. Più leggero di DreamBooth, ottimo per sperimentare.