DALL·E e CLIP: testo e immagini si parlano davvero
In una frase OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.
OpenAI annuncia due modelli in uno stesso giorno: DALL·E, che disegna immagini partendo da una descrizione testuale, e CLIP, che capisce quale didascalia descrive meglio un'immagine.
DALL·E non è ancora pubblico, ma le demo (un'avocado-poltrona, un daikon che porta a passeggio un cane) circolano dappertutto. CLIP invece viene rilasciato open source e diventa subito un mattone di mezza ricerca generativa.
È il primo momento in cui un computer "vede" e "scrive" usando la stessa logica. Da qui in poi, ogni modello generativo di immagini userà varianti di CLIP per capire i prompt.
Aziende
OpenAI
Tool
DALL-E, CLIP
Tag
Fonti