Google Gemini 1.0: multimodale nativo in tre taglie

In una frase Google annuncia Gemini Ultra/Pro/Nano, prima famiglia di modelli multimodali nativi (testo, immagini, audio, video). Ultra batte GPT-4 su MMLU 90.0% vs 86.4%. Demo video controversa.

Verificato Fonte ufficiale

CondividiLinkedIn X

Google rilascia Gemini, la sua famiglia di modelli successori di PaLM 2. La novità di principio: Gemini è multimodale nativo, cioè addestrato fin dall'inizio su testo, immagini, audio e video in un unico modello. GPT-4 Vision invece "incolla" insieme moduli diversi.

Tre taglie:

Ultra: il modello top, dichiarato superiore a GPT-4 in 30 dei 32 benchmark testati. Primo a superare l'85% su MMLU "human expert" (90.0%);
Pro: la taglia per Bard e Vertex AI, paragonabile a GPT-3.5;
Nano: gira on-device, su Pixel 8 Pro per la prima volta.

Il lancio è macchiato da una controversia: la demo video "Hands on with Gemini" viene editata e accelerata per sembrare in tempo reale. Google ammette che le risposte sono prompt-and-image, non video live. Ultra non è disponibile al lancio (arriva in Bard Advanced a febbraio 2024).