Inferenza Intermedio Anche noto come: Massive Multitask Language Understanding

MMLU

/em-em-el-you/

Benchmark con circa 16.000 domande a scelta multipla su 57 materie, da matematica e diritto a medicina, usato per misurare la conoscenza generale di un LLM.

CondividiLinkedIn X

In pratica

È stato per anni il benchmark di riferimento citato negli annunci dei nuovi modelli. Oggi è saturo: i modelli di frontiera superano l'85% e si sta passando a benchmark più difficili come MMLU-Pro e GPQA.

Termini collegati

GPQA HELM Foundation model

Visto in azione

1 voci che lo citano

6 dicembre 2023

Google Gemini 1.0: multimodale nativo in tre taglie

Pietra miliare

← Tutti i termini