Salta al contenuto
AImpact
IT EN
Inferenza Intermedio Anche noto come: Massive Multitask Language Understanding

MMLU

/em-em-el-you/

Benchmark con circa 16.000 domande a scelta multipla su 57 materie, da matematica e diritto a medicina, usato per misurare la conoscenza generale di un LLM.

CondividiLinkedInX

In pratica

È stato per anni il benchmark di riferimento citato negli annunci dei nuovi modelli. Oggi è saturo: i modelli di frontiera superano l'85% e si sta passando a benchmark più difficili come MMLU-Pro e GPQA.

Termini collegati

← Tutti i termini