![見出し画像](https://assets.st-note.com/production/uploads/images/141100173/rectangle_large_type_2_3ce81832694c510a751894a9988a090d.png?width=1200)
【生成AI】入門者としておさえておきたい「大規模言語モデル(LLM)の現状の全体感」(3/3)
世間では、生成AIの話でもちきりになっている。企業内では、誰も彼もが生成AIを話題にする。だけれども、ニュース記事やスタートアップ企業のニュースリリース、今を時めく某研究者のコメントなど、局所的な取り組みについての話ばかり。
これから生成AI、その中でも大規模言語モデル(LLM)について理解したい人にとっては、「木を見て森を見ず」のような説明ばかりで、まったく全体像が理解できない。局所的な話ばかりで、互いの説明が矛盾しているように思えてしまう。
まずは、大規模言語モデル(LLM)に関する話の全体感をおさえておかないと、誰の話に注目したほうが良いのか、今後のトレンドを踏まえて、何に注力していくべきかわからない…
そこで、大規模言語モデル(LLM)に関する最近のサーベイ論文を読んで見て、全体感を整理してみる。全3回にわたり紹介したい。今回はその第3回目。
大規模言語モデル(LLM)の現状の制限を概観してみよう!
前回、前々回と同様に、大規模言語モデル(LLM)の全体感をおさえるために、次のサーベイ論文をarXivからピックアップして、頭の整理をしています。
Shervin Minaee et al. "Large Language Models: A Survey", arXiv:2402.06196v2 [cs.CL] 20 Feb 2024
さて前回、前々回では、大規模言語モデル(LLM)とはどのようなもので、どのような主要LLMがあるか、またLLMの構築方法の全体感をおさえておいた方が良いと考え、構築の流れの大枠を整理しました。この全体感は、入門者であっても把握しておいた方が良いとの趣旨から、整理したものとなります。気になる方は、第1回目、第2回目の記事を参照してください。
さて、第3回目である今回は、LLMの現状の制限、その制限を踏まえたLLM使用の拡張方法、LLMの課題と今後の方向性を整理したいと思います。
LLMの現状の制限を整理したものが下図となります。LLM はトークンを予測するように学習されているものであり、微調整と調整によりパフォーマンスが向上するものですが、現状、LLMを単純に使用した場合、いくつかの重要な制限が発生するということです。
![](https://assets.st-note.com/img/1716084875777-IkFQs9q90d.jpg?width=1200)
大きく分けて、5つの制限を挙げることができます。
LLMには状態/メモリがないという点は、前のプロンプトで何が入力されたのか記憶する仕組みはLLM自体にはなく、LLMと人間とのやり取りにおいて、履歴というものがないことを示します。ChatGPTなどのアプリケーションでは、一定程度、履歴を保持できるような仕組みになっていますが、LLMという意味では、履歴を保持できないということです。
次に、LLMは確率的なものという点が挙げられます。しばしば、同じプロンプトを入れているのに、出力結果が毎回異なる点を持って、生成AIは使えないという人もいます。用途によっては、確かにそうかもしれませんが、確率的に回答が多少異なるからこそ、人間に近いものであるというとらえ方をしている人もいます。
LLMは学習時点での情報しか持っておらず、それ自体は外部データにアクセスできない点も指摘されています。特に、ChatGPTが世の中で注目された初期の段階で、多くの人がこの点を気にしていました。ChatGPTで日々の時事情報を問い合わせても、回答できないので使えない…という主張もありました。
LLMは非常にサイズが大きいという点は、開発コスト、運用コストに大きな影響を与えます。LLMはサイズが尋常ではないくらい大きいものとなり、GPU等の計算資源や、ネットワークなどの通信環境を利用することから、トップクラスの規模を誇るLLMは普通の企業では扱えない代物となります。
LLMはハルシネーションを引き起こす点は、大きな制限となります。多くの人が同意する事項となります。どんなに自然言語で様々な指示や問い合わせをLLMにできるようになったとしても、その回答に嘘や間違いが相応の割合で含まれているとしたら、LLMは使えないものとなってしまいます。昨今、ハルシネーションをおさえるべく研究開発が進められていますが、今のところ本質的に、ハルシネーションをなくすことは難しいという考え方もあります。
大規模言語モデル(LLM)の使用方法と拡張方法
LLMを構築すると、それらを使用して様々なタスクに対して必要な出力を生成することができます。しかし、前項でまとめた通り、LLMにはいくつかの制限があり、そのままでは十分に効果を獲得することは困難となります。
LLMの可能性を最大限に活用し、またLLM自体の制限に対処するには、何らかの外部手段を通じて、LLMを強化する必要があります。
具体的には、LLMのプロンプトと拡張アプローチにより、LLMの制限に対処し、LLMを外部世界と接続する機能を備えた本格的なAIエージェントに進化させることができると言われています。
以下に、LLMの使用方法と拡張方法の4つの大きな方向性をまとめました。
![](https://assets.st-note.com/img/1716084961696-duPsGSwYa5.jpg?width=1200)
直悦的なLLMの使用(プロンプトエンジニアリング)
生成AIモデルのプロンプトは、モデルの出力をガイドするためにユーザが提供するテキスト入力のことです。その入力は、単純な質問から詳細な説明や特定のタスクまで多岐にわたります。
ただし、AIモデルから望ましい応答を引き出すには、プロンプトに指示または質問のいずれかを含める必要があるのは、現状では多くの人が知るところです。
以下に、プロンプト エンジニアリング アプローチのいくつかについて説明します。
![](https://assets.st-note.com/img/1716085013611-jHKGq2C4TQ.jpg?width=1200)
・思考連鎖 (Chain of Thought; CoT)
LLMの暗黙的な推論プロセスを明示的にするものです。推論に必要なステップの概要を説明することで、モデルは論理的で推論された出力に近づくように方向付けられます。
・思考の木 (Tree of Thought; ToT)
この方法により、LLMは、最も可能性の高いシナリオを決定する前に、複数シナリオを検討する人間の認知プロセスと同様に、様々な可能性や仮説を探索します。
・自己一貫性(Self-Consistency)
同じクエリに対して、複数の応答を生成するようにLLMに求めるものです。これらの応答間に一貫性を見ることで、応答の正確さと信頼性を確認できます。
・リフレクション(Reflection)
LLMに、LLM自身の出力を評価させ、場合によっては修正させるものです。つまり、初期応答を生成した後、モデルは、事実の正確さ、論理的一貫性、関連性などの要素を考慮して、自身の出力を反映するように求めるものです。
・エキスパート プロンプティング(Expert Prompting)
LLMに対して、複数の専門家の視点から回答を検討するよう求め、それぞれの回答を総合し、包括的でバランスのとれた最終回答が形成するものです。
・チェーン(Chains)
複数のコンポーネントをシーケンス内でリンクし、LLMで複雑なタスクを処理する方法です。
・Rails
事前定義されたルールまたはテンプレートを通じて、LLMの出力をガイドおよび制御する方法です。
・自動プロンプト エンジニアリング(Automatic Prompt Engineering; APE)
LLMのプロンプト作成プロセスの自動化に焦点を当てたものです。プロンプトの生成と評価にLLM 自体の機能を活用し、プロンプト設計プロセスの合理化と最適化を目指すものです。
外部知識による LLM の強化(RAG)
LLMの主な制限の1つは、最新知識がないこと、プライベートな情報やユースケース固有の情報にアクセスできないことが挙げられます。
ここで挙げる検索拡張生成 (RAG)は、入力プロンプトからクエリを抽出し、そのクエリを使用して外部知識ソースから関連情報を取得し、プロンプトに追加される仕組みとなります。
![](https://assets.st-note.com/img/1716085548818-EDcqYi3fPs.jpg)
外部ツールの使用
一般的に、LLMは、その機能を拡張するために、任意の数の外部ツール(サービスへのAPIなど)にアクセス可能です。なお、RAGは、いわゆる「ツール」のより広範なカテゴリの特定のインスタンスとして見ることができます。
ツール(LLM が利用できる外部機能またはサービス)により、基本的な情報の取得から外部データベースやAPIとの複雑な対話まで、LLMが実行できるタスクの範囲を拡張することができます。
LLMエージェント
LLMエージェントは、特定のタスクを自律的に実行できる (拡張された) LLMを用いた特殊なシステムを指します。
ユーザや環境と対話し、入力と対話の意図された目標に基づいて意思決定を行うように設計されるものであり、通常は単純な応答生成を超え、ある程度の自律性と意思決定を必要とするタスクを処理するように設計される仕組みとなります。
例えば、会話型情報探索のためのLLMエージェントの例としては下図の仕組みが考えられます。
![](https://assets.st-note.com/img/1716085131447-dLgQB7j1Sx.jpg)
上手では、LLMは次のようなプラグ・アンド・プレイ モジュールのセットで強化されます。
ダイアログの状態を追跡する作業メモリ
タスク実行計画を作成、次のアクションを選択するポリシー
ポリシーで選択したアクションを実行するアクション・エグゼキュータ (外部知識からの証拠を統合する、または LLM に生成を促す等)
LLMの応答とユーザの要望との整合性を確認し、パフォーマンスを向上させるためのフィードバックを生成するユーティリティ
大規模言語モデル(LLM)の課題と今後の方向性
大規模な言語モデルは、過去1~2年で目覚ましい成果を達成しています。同時に、進化とともに、多くの課題が残されています。
![](https://assets.st-note.com/img/1716085230383-BMf3VawK3n.jpg?width=1200)
より小型で効率的な言語モデル
当初、言語モデルは「大きいほど良い」と言われ、大きなモデルが精度とパフォーマンスを向上させてきました。ただし、大規模モデルはコストが高く、いくつかの点で非効率的です。特に、大規模モデルの完全な汎用性を必要としない特定タスクで使用する場合、LLMに代わる費用対効果の高い代替手段として小型言語モデル(SLM)を考案するのが現在の流れとなっています。
大きなモデルからより小さなモデルを構築するための方向性としては下記が挙げられます。
パラメータ効率のよい微調整 (PEFT)
教師/生徒、その他の形式の蒸留などの手法 等
アテンション機構を置き換える新しいアーキテクチャパラダイム
トランスフォーマーは、現在のLLMでは重要な技術となります。しかし、このアーキテクチャがいつまで主流となるかは見通せないというのも実態です。
近年、アテンション機構を置き換えるアプローチにも注目が集まっています。例えば、新しいアーキテクチャとして、状態空間モデル (SSM) が挙げられます。
マルチモーダルモデル
将来のLLMは、マルチモーダルであり、テキスト、画像、ビデオ、オーディオなどの様々な種類のデータを統合した方法で処理できるようになると予想できます。質問応答、コンテンツ生成、クリエイティブアート、ヘルスケア、ロボット工学等分野で、多様な応用の可能性が広がることが期待されます。
LLM の使用法と拡張技術の改善
ハルシネーション等のLLMの欠点や制限の多くは、高度なプロンプトエンジニアリング、ツールの使用、その他の拡張技術によって一定程度対処できます。この分野では、研究が継続されるだけでなく加速されることを期待されます。
今後ますます注目が集まると予想されるもう重要な研究分野は、LLM ベースのエージェントとマルチエージェント システムといわれています。
セキュリティと倫理的/責任あるAI
敵対的な攻撃やその他の脆弱性に対するLLMの堅牢性とセキュリティを確保することは、重要な研究分野です。
LLMが現実世界のアプリケーションに導入されることが増え、LLMが人々を操作したり、誤った情報を広めたりするために使用されることを防ぐために、潜在的な脅威からLLMを保護する必要があります。
LLMにおける倫理的懸念と偏見に対処することも、活発な研究分野。LLMが公正かつ公平であり、責任を持って機密情報を扱えることを保証するための取り組みが行われています。
全3回のまとめ
【生成AI】入門者としておさえておきたい「大規模言語モデル(LLM)の現状の全体感」として、本稿(3回)を含め全3回にわたり整理してきました。
第1回:大規模言語モデル(LLM)とは何か
第2回:大規模言語モデル(LLM)構築方法
第3回:大規模言語モデル(LLM)の制限、使用方法と拡張方法、課題と今後の方向性
資料
本稿でまとめた内容をPDF形式で整理した資料を下記に添付します(有償)。大規模言語モデル(LLM)について、入門者として、全体感を整理したい方はご利用ください。
ここから先は
¥ 200
この記事が気に入ったらサポートをしてみませんか?