Inferenza Intermedio Anche noto come: Graduate-Level Google-Proof Q&A

GPQA

/jee-pee-kew-ay/

Benchmark di 448 domande scritte da dottorandi in biologia, fisica e chimica, pensate per essere difficili anche con accesso a Google.

CondividiLinkedIn X

In pratica

Sostituisce MMLU come misura di conoscenza scientifica profonda. Gli umani esperti del dominio fanno circa 65%, i modelli di frontiera nel 2025 superano il 70%. Resta uno dei benchmark non ancora saturati.

Termini collegati

MMLU Reasoning model Frontier model

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini