Inferenza Intermedio Anche noto come: Holistic Evaluation of Language Models

HELM

/helm/

Framework di valutazione olistico sviluppato da Stanford CRFM che misura un LLM su decine di benchmark coprendo accuratezza, robustezza, bias, calibrazione ed efficienza.

CondividiLinkedIn X

In pratica

Invece di una singola metrica, fornisce una scheda completa: utile per confrontare modelli a 360 gradi e non solo sui leaderboard accademici. Mantiene un sito pubblico con risultati aggiornati di tutti i grandi modelli.

Termini collegati

MMLU Foundation model

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini