In pratica
Sostituisce MMLU come misura di conoscenza scientifica profonda. Gli umani esperti del dominio fanno circa 65%, i modelli di frontiera nel 2025 superano il 70%. Resta uno dei benchmark non ancora saturati.
Termini collegati
Visto in azione
0 voci che lo citanoNessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.