LLM評価データセット概観
研究開発本部 海老原樹
はじめにこのような記事を書くときは、最近では ChatGPT をはじめとした大規模言語モデル(Large Language Model: LLM) の力を大いに借りています。真面目な評価をしなくても、文章力において私はChatGPTに白旗を挙げています。。。
ただ、どのLLMを使うかを決めるときには、LLMの性能を調べる必要があります。特に自分でLLMを開発するときはLLMの性能評価は必須ですよね。社内でもLLMの評価について調査を進めています。今回