Weave と Elyza-tasks-100 で ローカルLLMを評価する
「Weave」と「Elyza-tasks-100」で ローカルLLMの評価を試したので、まとめました。
1. Weave と Elyza-tasks-100「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。「評価関数」と「評価データセット」を用意するだけで、LLMの評価に必要な面倒な処理 (記録・集計など) をすべて肩代わりしてくれます。
「Elyza-tasks-100」はE