見出し画像

生成AI技術探索④:LLMの日本語精度評価


はじめに

NRIデジタルのCoE(Center of Exellence:組織横断の研究拠点)活動では、事業領域で今後必要とされそうな先端技術の知見を組織に蓄積・浸透させることを目的に、日々、新技術探索や発信を行っています。最近のテーマの1つが、生成AIです。本活動の中で行った、LLMの日本語精度評価について紹介します。
(執筆:NRIデジタル 工藤)

LLMとは

LLMとは、大規模なデータセットを用いた機械学習によって精度を高めた自然言語処理モデルのことです。2022年12月に発表された「ChatGPT」は、大規模言語モデルの応用例の一つです。

日本語LLMの登場

2023年の5月にCyberAgentのOpen CALM、および、rinnaの Rinna GPTが発表されたのを皮切りに、8月頃までに多くの日本語対応のLLMが発表されました。
CoE活動の中では、LLMのFineTuningも行っているため、FineTuning前後での応答精度の評価をする際に、性能を図れる指標が必要です。
今回は、日本語理解度を評価する指標であるJGLUEを用いて、どのLLMが一番日本語を理解しているかを評価してみました。

JGLUEについて

JGLUEとは


日本語の理解度を図る指標としてJGLUEを使用しました。
英語用の理解度評価のベンチマークにGLUEというものがあり、GLUEをベースに日本語評価行えるようにしたのがJGLUEです。早稲田大学とYahooが2022年10月に発表しました。 

JGLUEの構成要素


JGLUEは以下の5つのデータセットから構成されています。

評価結果

JGLUEの各データセットの正答率上位5つのモデルは以下の通りです。
今回の評価対象のモデルの中では、Llama2GPT3.5が、日本語の精度が高いという結果になりました。

まとめ

JGLUEの一部のテストではほぼ100%に近いスコアを出すことができおり、思っていた以上にLLMの日本語の理解度が高いことがわかりました。
LLMの精度はどんどん向上しているので、今後もより良い精度のLLMが登場することを期待します。

★NRIデジタル社員のテクノロジーに関する知見は、公式ホームページのTECHBLOGでも発信しています。ぜひご覧ください!


みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!