Salta al contenuto
AImpact
IT EN
Inferenza Intermedio Anche noto come: Holistic Evaluation of Language Models

HELM

/helm/

Framework di valutazione olistico sviluppato da Stanford CRFM che misura un LLM su decine di benchmark coprendo accuratezza, robustezza, bias, calibrazione ed efficienza.

CondividiLinkedInX

In pratica

Invece di una singola metrica, fornisce una scheda completa: utile per confrontare modelli a 360 gradi e non solo sui leaderboard accademici. Mantiene un sito pubblico con risultati aggiornati di tutti i grandi modelli.

Termini collegati

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini