イケていない生成AIをどう使うか

2024年8月21日 10:03

ChatGPTの衝撃的登場から1年半が経ちました。生成AIの驚くべき能力とともにイケていないところも見えてきました。

生成AIが組織を変革できない理由

昔は生成AIが組織を変革できない理由として、次をあげていました：

マネジメントが生成AIを理解しない
生成AIのリスクが把握しきれない
組織を変革する部署がなく利用が場当たり的である
生成AIの進化速度が速くて直近の変化が見えない

などをあげていました。
これも該当するといえば該当するのですが、そもそも、生成AIがイケていないというのも厳然たる事実です。
企業のカスタム生成AIでも99%とか99.9%とかの精度をあげているものはほとんどありません。これではテストより先に使えないのも無理はありません。

生成AIがイケていない理由

最初に生成AIが出てきたときには次のような理解でした：

学習データが英語に偏っているので日本語の精度が落ちる
学習データが最新でないので正しく答えられない

今でも当てはまるといえば当てはまります。
一方、企業の社内データを読み込ませたカスタム生成AIで入力したデータに書かれていることが答えられないのは、また別の理由です。

大量の曖昧なデータを扱うのが難しい
問題解決のフレームワークを扱うのが難しい

第一の大量データに関しては、企業データをRAG（検索拡張生成）などでやった実験を見ていると、まちがった答えが出るたびにこれでもかこれでもかとたくさんのデータを与えてかえって精度が落ちている例があります。当たり前ですが、似たようなデータをたくさん与えて、その振り分けを行わせれば、それだけ精度は落ちます。
より的確なデータを選別して与える部分の知性を拡大しないと企業が要求するような精度はあがりません。
これはソフトウェア開発の自律エージェントの研究でも出ています。現行のデバッグを自動的に行う自律エージェントではそもそも20%くらいのケースでは直すべきファイルにたどり着かない例があります。たくさんのファイルの中から何が正しいかをよりわけること自体が高度な知的認知処理を伴う処理であり、その部分に高効率な推論機能を働かせないと、そもそも正解の入り口にたどり着きません。正しい答えが出ないからといってやみくもにたくさんのファイルを入力するとかえって精度が落ちます。

第二のフレームワークに関していえば、そもそも大規模言語モデルというのは単語の遷移確率をベースにして答えを作っています。実際の難しい問題解決は仮説をたてて検証し、その結果に基づき、次の仮説をたてて、というように仮説検証をしながら、問題解決の方法を絞っていきます。この部分は、遷移確率や報酬関数で組み立てている現時点の大規模言語モデルの弱いところです。

イケていない生成AIをどう使うか

自分で最高の生成AIを作ることができない場合は、現時点ではユーザレベルではマインドセットとプロンプトエンジニアリングでカバーしていくしかありません。

マインドセット：生成AIの大規模言語モデルは世界の現象を圧縮したモデルです。ここに入力をいれると出力がでてきます。うまく入力を選べばよい出力が出てきます。探索するマインドセットで使うことが重要です。また、得意な問題と不得意な問題があることを認識し、得意な問題で使うのが重要です。新しい市場のペルソナ設定とか新しい事業のアイディア出しとかオープンな問題がいいと思います。
プロンプトエンジニアリング：苦手な問題はプロンプトエンジニアリングで補っていくことが重要です。一番簡単なのは「ステップバイステップで考えて」「もっと違う答えを出して」「もっといい答えを出して」「違う観点から答えて」「出典を教えて」などです。単なるシミュレータなので、いろいろ聞いてみることが重要です。「この問題を解くいい方法を教えて」「この問題を解くプロンプトを教えて」「プロンプトを書き換えて」なども有効です。また、問題解決をさせるのにはReActなどのフレームワークをプロンプトの中で使うことも有効です ([ai300lab] [ai300lab_2])。例として「思考」「行動」「観察」を与えて、例に基づいて考察させることができます。

むすび

問題を見極めて、正しい問題設定を与えるのは人間の仕事です。さらにその問題設定にあうようにプロンプトを与えるところも人間の仕事です。
大規模言語モデルが大量のデータの事前学習と報酬モデルのアラインメントによってつくられたものから脱皮するまではこれがベストプラクティスといえそうです。

参考文献

[ai300lab] ソフトウェア開発エージェントに見る問題解決のフレームワーク　https://note.com/ai300lab/n/ne2d905fed7e0　2024年
[ai300lab_2] 5つのプロンプトと4つのフレームワークの推論精度向上の有効性の比較 https://note.com/ai300lab/n/nc2c050aac735 2024年

この記事が気に入ったらサポートをしてみませんか？