見出し画像

生成AI、プロの財務アナリストを超える シカゴ大学によるペーパーを解説

ドラフトとして2024年5月20日に公表されたペーパー「Financial Statement Analysis with Large Language Models」に記載されている結果は非常に興味深いものです。シカゴ大学のAlex G. Kim氏、Maximilian Muhn氏、Valeri V. Nikolaev氏によるものです。

企業の将来の業績予測についてLLM(大規模言語化モデル)が人であるプロの財務アナリストよりも良い結果を出しています。

多くの企業の財務諸表データを汎用的な生成AIモデルであるGPT4 Turboに渡した上で、その企業の翌年の業績が良くなるかどうかをAIに予測させています。この結果は財務分析に特化したAIが出しているわけではありません。

Accurancy(正確度)はプロの財務アナリストが52.7〜56.7%において今回、GPT(CoTあり)は60.4%でGPT4の方が上。

F1スコアもプロの財務アナリストが54.5〜56.8%において今回、GPT4(CoTあり)は60.9%でGPTの方が上。

比較的単純なモデル、プロのアナリスト、GPT4の業績予測精度の比較
引用元: Financial Statement Analysis with Large Language Models

図ではアナリストの文字の後ろに1m, 3m, 6mと書かれています。

アナリストの予想については、財務諸表発表の1ヶ月後に発表された個々のアナリスト予測の中央値を計算して、翌年の業績予想として使用しています。3ヶ月先、6ヶ月先の予想も使用しています。これらをGPT4の結果と比較します。

GPT4は財務諸表が発表された時点での指標を用いています。プロの財務アナリストによる予想は発表の1ヶ月後、3ヶ月後、6ヶ月後の方なので普通に考えたらGPT4の方が不利です。しかしながらこれらは財務アナリストが結果に反映するまでの時間差を考慮し含まれています。

結果は本当?どのように検証しているか

この話を知った時、真っ先に「偶然」を疑いました。サンプル数が少ないのではないか?しかしペーパーを見ている限りは偶然とは言い難いものでした。

企業の財務諸表のサンプルは1968年から2021年の期間で15,401社、150,678件の企業年のデータです。アナリストのサンプルは1983 年から 2021 年の期間で3,152 社、39,533 件のデータです。

数個のサンプルであれば偶然を疑いますがこれだけのサンプル数があれば統計的なパワーが生じることはわかります。

次に思ったことはLLM(大規模言語モデル)はその名称のとおり、もともとは言語モデルであり数値分析は簡単な足し算等であっても間違えることがたびたび報告されているよな、ということです。財務諸表の中の様々な文章をAIが見た上で予測しているのかどうか。

この研究では、通常において財務諸表に記載されている文章(テキスト)は全て除外されています。経営陣による分析や解説文はありません。

使われているのは指標となる数値のみです。フォーマットをあわせた貸借対照表と損益計算書を用意してGPT4に渡しています。

さらに企業名は省き、いつ(何年)の指標だったのかAIからはわからないようにしています。

しかしながら今回良い結果が出ています。それも財務分野に特化したAI(ANN, 人工ニューラルネットワーク)ではなく様々な文章を学習させた汎用的なGPT4において。なぜなのでしょうか。

CoTプロンプティングを用いた場合、プロの財務アナリストを超える結果に

大量の財務諸表やアナリストの過去の結果もさることながら、今回のポイントはCoT(Chain of Thought, 思考の連鎖)プロンプティングです。

CoTとは何か。今回にあてはめて簡単に説明すると、単に「企業の財務諸表から翌年の業績を予測してくれ」という指示をコンピュータに与えるのではなく「財務アナリストだったら、通常こう考えて、次にこう考えて、それで最終的に翌年の業績を予測するよ」という、思考の過程をコンピュータに伝えるというものです。

私たちが経験の少ない若手社員に、初めて複雑な仕事をお願いするときに「これ考えて、次にこれ考えて、それでこれ考えて、そしてこう導き出すの」といったことを教えてから仕事をお願いするようなものです。

今回のペーパーではGPT4に、まずは財務諸表分析を行うことを任務とする金融アナリストの役割を担うように指示します。

そしてモデルに対して以下のように指示します。

1.  特定の財務諸表項目の顕著な変化を特定する
2. 計算する必要のある比率のセットを明示的に制限することなく、主要な財務比率を計算するよう指示する。 比率を計算する際には、まず数式を述べ、次に簡単な計算を行うように促す
3. 計算された比率の経済的な解釈を提供するよう指示する。次に、基本的な定量的情報とそこから導かれる洞察を使って、翌期の収益が増加するのか減少するのかを予測するようモデルに指示する。指示とともにその根拠を詳しく説明するパラグラフを作成するようモデルに指示する。理論的根拠を伴う二値予測に加え、予測される収益変動の大きさとその答えに対する信頼度を提供するようモデルを促す。

この一連の指示は、人間であるプロのアナリストが財務諸表を分析して企業の業績を予想する方法を再現しています。

GPT4に用いたデータと一連の処理
引用元: Financial Statement Analysis with Large Language Models

CoTプロンプティングを用いると財務アナリストよりもGPT4の方が良い結果を示しています。

言語モデルなのに数値の扱いで良い結果を示している

この研究が明らかにしたいことは言語モデルの中でも比較的大きなLLM(大規模言語モデル)を、言語ではなく数値のデータである財務諸表だけを与えて、そこから企業の業績を予測させたらどうなるかというものです。

そして結果としてはプロのアナリストを超えるパフォーマンスをGPTが出しています(CoTプロンプティングを適用した場合において)。

言語モデルが、数値データである財務諸表からの業績予測で良い結果を出していることは注目に値します。

財務アナリストの仕事をAIが行う日は来るのか

この結果から予想することは、財務諸表の分析にかかる時間を大幅に削減できる可能性を秘めていることです。

もちろんCoTを適用した場合において良い結果が出ていることから、現段階では人がどのように進めるのか、その考え方の過程も含めてコンピュータに指示を出す仕事はすぐにはなくならないと思います。

また正確性という面でAIもミスするため、出てきた結果が正しそうであるかを検証する仕事はすぐには無くならないと思います。といいながら、本件はそもそも来年の業績の予測といったものなので、あっているかをその時点で検証することは容易ではありません。簡単な計算ミスをしていないかといったことは人が確認できると思います。

しかしながら高度な知識が求められて時間がかかるであろう、財務諸表の分析の工程をAIができるようになれば、その部分において省力化が可能になります。

アナリスト=分析者の名前にもなっている分析部分をAIが、それも汎用AIであるGPTが行う日はもう来ているかもしれないと私は考えます。

これだけのサンプル数で検証してプロの財務アナリストよりも良い結果を示しているためです。

財務アナリストの仕事は無くなるのか。結論としては指示出しやAIの結果の検証などすぐには完全にはなくならないであろう一方で、省力化が進むことが予想され、すでに他の分野でも起こっているように、職を失う人も出てくるかもしれません。

財務アナリストだけでなくこのような高度な知識や経験を必要とする専門職の仕事を生成AIが出来るのか、引き続きウォッチして、新しい情報が入り次第発信します。X(twitter)で最新の情報を発信しておりますのでフォローお気軽にしていただければと思います。


この記事が気に入ったらサポートをしてみませんか?