【論文を読む】プロンプトレポート：プロンプト技術の体系的調査 7

2024年7月15日 06:06

前回は、論文のセクション6「ベンチマーク」をご紹介してきました。セクション6の内容は、外部ツールや複雑な評価アルゴリズムの追加によってプロンプティングの拡張が可能であることなどを分析していました。
まだお読みでない方は下記よりお読みください。

今回は、セクション7「関連研究」とセクション8「結論」をご紹介します。

7 関連研究

このセクションでは、プロンプトに関する既存の調査およびメタ分析をレビューします。Liu et al. (2023b) は、ChatGPT以前の時代のプロンプトエンジニアリングに関する体系的なレビューを行い、プロンプトテンプレートエンジニアリング、回答エンジニアリング、プロンプトエンセンブリング、プロンプトチューニング方法などのさまざまな側面を含んでいます。彼らのレビューは、クローズ（穴埋め）やソフトプロンプティングなど、多くの異なるタイプの言語モデルを対象としていますが、我々はディスクリートなプレフィックスプロンプティングに焦点を当て、より深く議論します。Chenら（2023a）は、Chain-of-Thought、Tree-of-Thought、Self-Consistency、Least-to-Mostプロンプトなどの一般的なプロンプト技術をレビューし、今後のプロンプト研究の展望についても言及しています。Whiteら（2023）およびSchmidtら（2023）は、ソフトウェアパターンに似たプロンプトパターンの分類を提供しています。Gao（2023）は、非技術的な聴衆向けに実用的なプロンプト技術のチュートリアルを提供しています。SantuとFeng（2023）は、広範なタスクを実行するために特定の特性を持つプロンプトを設計するための一般的な分類法を提供しています。Bubeckら（2023）は、GPT-4の初期バージョンで広範なプロンプト方法を定性的に実験し、その能力を理解しています。Chuら（2023）は、推論のためのChain-of-Thought関連のプロンプト方法をレビューしています。以前の研究では、Bommasaniら（2021）は基盤モデルの機会とリスクを広範にレビューおよび議論し、Dangら（2022）はプロンプトを人間のインタラクションの新しいパラダイムとして使用する対話型クリエイティブアプリケーションのためのプロンプト戦略について議論しています。これらの既存の調査に加えて、我々のレビューは、より更新され、体系的なレビューを提供することを目指しています。

特定のドメインまたはダウンストリームアプリケーション向けのプロンプティング技術を調査する研究もあります。Meskó（2023）およびWangら（2023d）は、医療およびヘルスケアドメインにおけるプロンプトエンジニアリングの推奨使用例と制限を提供しています。HestonとKhun（2023）は、医学教育の使用例におけるプロンプトエンジニアリングのレビューを提供しています。PeskoffとStewart（2023）は、ChatGPTおよびYouChatにクエリを送り、ドメインカバレッジを評価しています。Huaら（2024）は、GPT-4を自動化したアプローチを使用して、メンタルヘルス分野のLLMをレビューしています。Wangら（2023c）は、視覚モダリティに関連するプロンプトエンジニアリングおよび関連モデルをレビューしており、Yangら（2023e）は、特にGPT-4V19に焦点を当てて、マルチモーダルプロンプティングの質的分析の包括的なリストを提供しています。Duranteら（2024）は、LLMを具現化したエージェントに基づくマルチモーダルインタラクションをレビューしています。Koら（2023b）は、視覚芸術家の創作作品のためのテキストから画像への生成モデルの採用に関する文献をレビューしています。Guptaら（2024）は、トピックモデリングアプローチを通じてGenAIをレビューしています。Awaisら（2023）は、視覚における基盤モデルをレビューし、さまざまなプロンプティング技術を含んでいます。Houら（2023）は、ソフトウェア工学に関連するプロンプトエンジニアリング技術の体系的なレビューを行っています。彼らは、Keeleら（2007）によって開発されたソフトウェア工学レビューのための体系的なレビュー技術を使用しています。Wangら（2023e）は、大規模言語モデルを使用したソフトウェアテストに関する文献をレビューしています。Zhangら（2023a）は、ソフトウェア工学タスク（例：自動プログラム修復）におけるChatGPTのプロンプティングパフォーマンスをレビューしています。Neagu（2023）は、コンピュータサイエンス教育でプロンプトエンジニアリングを活用する方法に関する体系的なレビューを提供しています。Liら（2023j）は、大規模言語モデルの公平性に関する文献をレビューしています。言語モデルのハルシネーション、検証可能性、推論、拡張、およびプロンプトの言語的特性など、関連する側面に関する調査もあります。これらの研究とは異なり、我々は幅広い適用可能なプロンプト技術を対象としたレビューを行っています。最後に、より一般的な以前の調査に関して、この調査は急速に進化する分野における更新を提供します。さらに、我々の仕事は、プロンプト技術の分類と用語の標準化の出発点を提供します。さらに、広く受け入れられている体系的文献レビューの標準であるPRISMAに基づいています。

8 結論

生成AIは新しい技術であり、モデルの能力と限界についての理解は依然として限られています。自然言語は柔軟でオープンエンドなインターフェースであり、モデルには明らかなアフォーダンスがほとんどありません。したがって、生成AIの使用には言語コミュニケーションの標準的な課題（例：曖昧さ、コンテキストの役割、コース修正の必要性）が多く継承される一方で、言語の「理解」が人間の理解と本質的に関連しないかもしれないエンティティと通信するという課題も追加されます。ここで説明する多くの技術は「エマージェント」と呼ばれていますが、むしろ発見されたと言う方が適切かもしれません。それらは徹底的な実験、人間の推論からの類推、または純粋な偶然の結果として生じました。

本研究は、未知の領域の種を分類するための初期の試みです。包括的であることを試みる一方で、ギャップや冗長性が存在する可能性があることは確かです。我々の意図は、既存のプロンプトエンジニアリング技術の多くを網羅し、将来の方法を収容できる分類と用語を提供することです。200を超えるプロンプト技術、それらを中心に構築されたフレームワーク、および使用時に留意すべき安全性とセキュリティの問題についても議論します。さらに、モデルの能力と問題に取り組む際の実際の様子を明確に示すために、2つのケーススタディを提供します。最後に、我々のスタンスは主に観察的であり、提示された技術の妥当性を主張するものではありません。この分野は新しく、評価は変動し標準化されていません。最も綿密な実験でさえ、予期しない欠点に苦しむ可能性があり、モデル出力自体が入力の意味を保存する変更に対して敏感です。その結果、読者には、いかなる主張も額面通りに受け取らないようにし、技術が他のモデル、問題、またはデータセットに転送されるかどうかを認識するように促します。

プロンプトエンジニアリングを始めたばかりの人には、機械学習の設定で推奨されることに似た推奨事項を提供します。解決しようとしている問題を理解し（単に入力/出力やベンチマークスコアに焦点を当てるのではなく）、取り組んでいるデータと指標がその問題を適切に表していることを確認することが重要です。シンプルなアプローチから始め、方法の性能についての主張には懐疑的である方が良いです。すでにプロンプトエンジニアリングに取り組んでいる人には、既存の技術間の関係に光を当てることを望んでいます。新しい技術を開発している人には、我々の分類法の中に新しい方法を位置づけ、実証的に有効なケーススタディとそれらの技術の例示を含めることを奨励します。

謝辞

Hal Daumé III、Adam Visokay、およびJordan Boyd-Graberからの助言に感謝します。また、Diyi YangおよびBrandon M. Stewartによるレビューにも感謝します。OpenAIからの10,000米ドルのAPIクレジットとBenjamin DiMarcoによるデザイン作業にも感謝します。

最後に

今回もお読みいただきありがとうございました。もし前の記事をお読みでない方は、下記よりマガジンとしてまとめていますのでどうぞ併せてお読みください。

もしかしたら専門家から見れば稚拙な表現などがあるかもしれませんが、その点はご容赦いただいた上で、お読みいただければと存じます。

読んでいる方へのお願い

この内容が役に立ったという方は、「♡（スキ）」や「フォロー」をお願いします。「X」「facebook」「LINE」でシェアいただけるとさらに嬉しいです。

また日考塾Mediaでは、サポートをお受けしています。活動を継続させていくために、どうかお願い申し上げます。

日考塾Sapientiaでは、読んでいただいた方々に良質な記事をお届けするために日々励んでおります。しかし、良質な記事をお届けするためには、出ていくものも多いのが現状です。どうか、活動を継続させていくために、サポートををお願い申し上げます。