Solar 10.7B: depth upscaling per fondere layer di due LLaMA-2

In una frase Upstage presenta Solar 10.7B, creato fondendo i layer intermedi di due LLaMA-2 fine-tuned (depth upscaling), vincendo la MBTI-OpenLLM leaderboard a novembre 2023.

Verificato Fonte ufficiale

CondividiLinkedIn X

Solar 10.7B nasce da un'idea insolita: prendere due modelli LLaMA-2 fine-tuned e combinarli unendo i loro strati interni, come se si costruisse un edificio più alto prendendo piani da due edifici diversi.

Questa tecnica, chiamata depth upscaling, produce un modello da 10.7 miliardi di parametri che si comporta meglio dei due modelli originali separati.

Il modello di Upstage ha vinto la classifica open-source OpenLLM a novembre 2023, dimostrandosi competitivo con modelli di dimensioni molto maggiori.