5 gennaio 2021 Alto AI multimodale · 1 min lettura

DALL·E e CLIP: testo e immagini si parlano davvero

In una frase OpenAI presenta in coppia DALL·E (genera immagini da testo) e CLIP (collega immagini e testo nello stesso spazio semantico). Due tasselli del puzzle multimodale.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

OpenAI annuncia due modelli in uno stesso giorno: DALL·E, che disegna immagini partendo da una descrizione testuale, e CLIP, che capisce quale didascalia descrive meglio un'immagine.

DALL·E non è ancora pubblico, ma le demo (un'avocado-poltrona, un daikon che porta a passeggio un cane) circolano dappertutto. CLIP invece viene rilasciato open source e diventa subito un mattone di mezza ricerca generativa.

È il primo momento in cui un computer "vede" e "scrive" usando la stessa logica. Da qui in poi, ogni modello generativo di immagini userà varianti di CLIP per capire i prompt.

Aziende

OpenAI

Tool

DALL-E, CLIP

Tag

OpenAIDALL-ECLIPText-to-ImageMultimodal

Fonti