Google Gemini 1.0: multimodale nativo in tre taglie
In una frase Google annuncia Gemini Ultra/Pro/Nano, prima famiglia di modelli multimodali nativi (testo, immagini, audio, video). Ultra batte GPT-4 su MMLU 90.0% vs 86.4%. Demo video controversa.
Google rilascia Gemini, la sua famiglia di modelli successori di PaLM 2. La novità di principio: Gemini è multimodale nativo, cioè addestrato fin dall'inizio su testo, immagini, audio e video in un unico modello. GPT-4 Vision invece "incolla" insieme moduli diversi.
Tre taglie:
- Ultra: il modello top, dichiarato superiore a GPT-4 in 30 dei 32 benchmark testati. Primo a superare l'85% su MMLU "human expert" (90.0%);
- Pro: la taglia per Bard e Vertex AI, paragonabile a GPT-3.5;
- Nano: gira on-device, su Pixel 8 Pro per la prima volta.
Il lancio è macchiato da una controversia: la demo video "Hands on with Gemini" viene editata e accelerata per sembrare in tempo reale. Google ammette che le risposte sono prompt-and-image, non video live. Ultra non è disponibile al lancio (arriva in Bard Advanced a febbraio 2024).
Aziende
Google, DeepMind
Tool
Gemini Ultra, Gemini Pro, Gemini Nano, Bard
Tag
Fonti