見出し画像

【論文を読む】プロンプトレポート:プロンプト技術の体系的調査 3

前回は、論文のセクション2「プロンプトに関するメタ分析」をご紹介してきました。セクション2の内容は、これまで論文において登場してきたさまざまなプロンプト技術についての用語整理という意味合いで分析していました。
まだお読みでない方は下記よりお読みください。

今回は、セクション3「英語以外のテキストプロンプティング」をご紹介します。


3 英語以外のテキストプロンプティング

現在、英語のテキストを使用してGenAIにプロンプトすることが主流の方法です。英語以外の言語や異なるモダリティを通じてプロンプトする場合、同等のパフォーマンスを達成するためには特別な技術が必要となることがよくあります。この文脈では、多言語及びマルチモーダルプロンプティングの領域について議論します。

3.1 多言語プロンプティング

最先端のGenAIは、しばしば主に英語のデータセットでトレーニングされており、英語以外の言語、特にリソースの少ない言語での出力品質に顕著な格差があります。その結果、多言語環境でのモデルパフォーマンスを向上させるために、さまざまな多言語プロンプティング技術が登場しました。

最初のプロンプトの翻訳
Shi et al. (2022) はおそらく最も単純な戦略で、非英語の入力例を最初に英語に翻訳します。入力を英語に翻訳することで、モデルは英語の強みを活用して内容をよりよく理解できます。翻訳ツールはさまざまです。Shi et al. (2022) は外部のMTシステムを使用し、Etxaniz et al. (2023) は多言語LLMをプロンプトし、Awasthi et al. (2023) はLLMに非英語の入力を翻訳させます。

3.1.1 Chain-of-Thought(CoT)

CoTプロンプティングは、多言語環境においてさまざまな方法で拡張されています。

XLT(クロスリンガルソート)プロンプティング
Huang et al. (2023a) は、役割の割り当て、クロスリンガル思考、CoTなどを含む6つの別々の指示からなるプロンプトテンプレートを使用します。

クロスリンガル自己一致プロンプティング(CLSP)
Qin et al. (2023a) は、異なる言語で推論経路を構築し、同じ質問に答えるためのアンサンブル技術を紹介します。

3.1.2 インコンテキスト学習(ICL)

ICLもまた、多言語環境においてさまざまな方法で拡張されています。

X-InSTAプロンプティング
Tanwar et al. (2023) は、分類タスクの入力文とインコンテキスト例を整列させる3つの異なるアプローチを探ります。これには、入力と意味的に類似した例を使用する(意味的整列)、入力と同じラベルを共有する例を使用する(タスクベースの整列)、および意味的整列とタスクベースの整列の両方を組み合わせるアプローチが含まれます。

インクロスリンガルトランスファープロンプティング(In-CLT)
Kim et al. (2023) は、従来のソース言語エグザンプラーを使用する方法から逸脱し、ソースおよびターゲット言語の両方を活用してインコンテキスト例を作成します。この戦略は、多言語LLMのクロスリンガル認知能力を刺激し、クロスリンガルタスクのパフォーマンスを向上させます。

3.1.3 インコンテキスト例の選択

インコンテキスト例の選択は、LLMの多言語パフォーマンスに大きく影響します。ソーステキストに意味的に類似したインコンテキスト例を見つけることは非常に重要です。しかし、意味的に異なる(独特な)エグザンプラーを使用することもパフォーマンスを向上させることが示されています。同じ対照が英語のみの設定でも存在します。さらに、曖昧な文を扱う場合、多義語や珍しい語義を含むエグザンプラーを選択することでパフォーマンスが向上することがあります。

PARC(クロスリンガルリトリーバルによって強化されたプロンプト)
Nie et al. (2023) は、高リソース言語から関連するエグザンプラーをリトリーブするフレームワークを紹介します。このフレームワークは、特にリソースの少ないターゲット言語のクロスリンガルトランスファーパフォーマンスを向上させるように設計されています。Li et al. (2023g) はこの作業をバングラ語に拡張しています。

3.1.4 プロンプトテンプレート言語の選択

多言語プロンプティングでは、プロンプトテンプレートの言語の選択がモデルのパフォーマンスに顕著な影響を与えることがあります。

英語プロンプトテンプレート
多言語タスクでは、タスク言語よりも英語でプロンプトテンプレートを構築する方が効果的であることが多いです。これは、おそらくLLMの事前トレーニング中の英語データの優勢によるものです。Lin et al. (2022) は、これは事前トレーニングデータと語彙の高い重複による可能性が高いと示唆しています。同様に、Ahuja et al. (2023) は、タスク言語テンプレートを作成する際の翻訳エラーが、誤った構文や意味の形でタスクパフォーマンスに悪影響を及ぼすことを強調しています。さらに、Fu et al. (2022) は、インリンガル(タスク言語)プロンプトとクロスリンガル(混合言語)プロンプトを比較し、クロスリンガルアプローチがより効果的であることを発見しました。これは、プロンプト内でより多くの英語を使用することで、モデルから知識を取得しやすくするためです。

タスク言語プロンプトテンプレート
対照的に、多くの多言語プロンプティングベンチマーク(例:BUFFET (Asai et al., 2023) や LongBench (Bai et al., 2023a))は、言語固有のユースケースのためにタスク言語プロンプトを使用します。Muennighoff et al. (2023) は、ネイティブ言語プロンプトを構築する際の異なる翻訳方法を特に研究しています。彼らは、人間が翻訳したプロンプトが機械翻訳されたものよりも優れていることを示しています。ネイティブまたは非ネイティブのテンプレートのパフォーマンスはタスクやモデルによって異なることがあります。したがって、どちらのオプションも常に最良のアプローチであるとは限りません。

3.1.5 機械翻訳のためのプロンプティング

GenAIを活用して正確かつニュアンスに富んだ翻訳を行うための研究が数多くあります。これはプロンプティングの特定の応用ですが、多くの技術は多言語プロンプティング全般に重要です。

多面的プロンプティングと選択(MAPS)
He et al. (2023b) は、人間の翻訳プロセスを模倣し、高品質な出力を確保するための複数の準備ステップを含みます。このフレームワークは、ソース文からの知識抽出(キーワードやトピックの抽出、翻訳エグザンプラーの生成)から始まります。この知識を統合して複数の翻訳を生成し、最良のものを選択します。

Chain-of-Dictionary(CoD)
Lu et al. (2023b) は、まずソースフレーズから単語を抽出し、それらの意味を複数の言語でリスト化します(例:英語:‘apple’、スペイン語:‘manzana’)。次に、これらの辞書フレーズをプロンプトに前置し、GenAIにそれらを翻訳中に使用するよう依頼します。

機械翻訳のための辞書ベースプロンプティング(DiPMT)
Ghazvininejad et al. (2023) はCoDと同様に機能しますが、定義をソース言語とターゲット言語のみで提供し、形式を若干変更します。

機械翻訳のための分解プロンプティング(DecoMT)
Puduppully et al. (2023) は、ソーステキストをいくつかのチャンクに分割し、Few-Shotプロンプティングを使用して独立して翻訳します。次に、これらの翻訳とチャンク間のコンテキスト情報を使用して最終的な翻訳を生成します。

3.1.5.1 ヒューマンインザループ

インタラクティブチェーンプロンプティング(ICP)
Pilault et al. (2023) は、翻訳中の潜在的な曖昧さに対処するため、最初にGenAIに翻訳されるフレーズの曖昧さについてのサブ質問を生成させます。人間がこれらの質問に回答し、システムはこの情報を組み込んで最終翻訳を生成します。

反復プロンプティング
Yang et al. (2023d) は、翻訳中に人間を関与させます。まず、LLMにドラフト翻訳を作成させます。この初期バージョンは、自動取得システムまたは直接の人間のフィードバックから得られた監督信号を統合してさらに洗練されます。

3.2 マルチモーダルプロンプティング

GenAIモデルがテキストベースの領域を超えて進化する中で、新しいプロンプティング技術が出現しています。これらのマルチモーダルプロンプティング技術は、単なるテキストベースのプロンプティング技術の応用ではなく、異なるモダリティによって可能となる全く新しいアイデアを含んでいます。ここでは、テキストベースの技術のマルチモーダルなアナログおよび完全に新しいマルチモーダル技術を含む形で、テキストベースの分類法を拡張します。

3.2.1 画像プロンプティング

画像モダリティには、写真、図面、テキストのスクリーンショットなどのデータが含まれます。画像プロンプティングは、画像を含むプロンプトや、画像を生成するためのプロンプトを指します。一般的なタスクには、画像生成、キャプション生成、画像分類、画像編集が含まれます。ここでは、これらのアプリケーションに使用されるさまざまな画像プロンプティング技術を説明します。

プロンプト修飾子
単にプロンプトに付加される単語で、生成される画像を変更するものです。Medium(例:「キャンバス上に」)やLighting(例:「よく照らされたシーン」)などの要素がよく使用されます。

ネガティブプロンプティング
プロンプト内の特定の用語を他の用語よりも重視するように数値的に重み付けすることを許可します。例えば、「悪い手」や「余分な指」といった用語にネガティブな重み付けをすることで、解剖学的に正確な手を生成する可能性が高まります。

3.2.1.1 マルチモーダルインコンテキスト学習(ICL)

テキストベースの設定でのICLの成功は、マルチモーダルICLの研究を促しました。

ペア画像プロンプティング
モデルに変換前と変換後の2つの画像を見せ、同様の変換を新しい画像に対して実行させます。これにはテキスト指示を伴う場合もあれば、伴わない場合もあります。

画像をテキストとしてプロンプティング
Hakimov and Schlangen (2023) は、画像のテキスト記述を生成します。これにより、テキストベースのプロンプトに画像(または複数の画像)を簡単に含めることができます。

3.2.1.2 Multimodal Chain-of-Thought

CoTは、さまざまな方法で画像領域に拡張されています。その簡単な例としては、数学の問題の画像と「段階的に解決する」というテキスト指示を含むプロンプトがあります。

デューティディスティンクトCoT(DDCoT)
Zheng et al. (2023b) は、Least-to-Mostプロンプティングをマルチモーダル設定に拡張し、サブクエスチョンを作成し、それを解決して最終回答に統合します。

マルチモーダルグラフ・オブ・ソート
Yao et al. (2023c) は、グラフ・オブ・ソートをマルチモーダル設定に拡張します。GoT-Inputもまた、2ステップの推論と回答プロセスを使用します。推論時には、入力プロンプトを使用して思考グラフを構築し、それを元のプロンプトと共に使用して推論を生成し、質問に回答します。画像が質問と共に入力される場合、画像キャプションモデルが画像のテキスト記述を生成し、それをプロンプトに追加して思考グラフの構築前に視覚的なコンテキストを提供します。

チェーン・オブ・イメージズ(CoI)
Meng et al. (2023) は、CoTプロンプティングのマルチモーダル拡張であり、その思考過程の一部として画像を生成します。「画像ごとに考えましょう」というプロンプトを使用してSVGを生成し、モデルが視覚的に推論できるようにします。

3.2.2 オーディオプロンプティング

プロンプティングはオーディオモダリティにも拡張されています。オーディオICLの実験では混合結果が得られており、一部のオープンソースオーディオモデルはICLを実行できませんが、他の結果ではオーディオモデルにおけるICL能力を示しています。オーディオプロンプティングは現在初期段階ですが、将来的にはさまざまなプロンプティング技術が提案されることが期待されています。

3.2.3 ビデオプロンプティング

プロンプティングはビデオモダリティにも拡張されており、テキストからビデオの生成、ビデオ編集、ビデオからテキストへの生成などに使用されています。

3.2.3.1 ビデオ生成技術

ビデオを生成するモデルにプロンプトを出す場合、入力として使用されるプロンプトのモダリティはさまざまであり、ビデオ生成を強化するためにいくつかのプロンプト関連技術が頻繁に使用されます。例えば、プロンプト修飾子はビデオ生成にも使用されます。

3.2.4 セグメンテーションプロンプティング

プロンプティングはセグメンテーション(例:セマンティックセグメンテーション)にも使用できます。

3.2.5 3Dプロンプティング

プロンプティングは3Dモダリティにも使用され、例えば3Dオブジェクト合成、3D表面テクスチャリング、4Dシーン生成(3Dシーンのアニメーション)などが含まれます。入力プロンプトのモダリティにはテキスト、画像、ユーザーアノテーション(バウンディングボックス、ポイント、ライン)、3Dオブジェクトが含まれます。

最後に

今回もお読みいただきありがとうございました。もし前の記事をお読みでない方は、下記よりマガジンとしてまとめていますのでどうぞ併せてお読みください。

もしかしたら専門家から見れば稚拙な表現などがあるかもしれませんが、その点はご容赦いただいた上で、次回以降もお読みいただければと存じます。

読んでいる方へのお願い

この内容が役に立ったという方は、「♡(スキ)」や「フォロー」をお願いします。「X」「facebook」「LINE」でシェアいただけるとさらに嬉しいです。

また日考塾Mediaでは、サポートをお受けしています。活動を継続させていくために、どうかお願い申し上げます。

日考塾Sapientiaでは、読んでいただいた方々に良質な記事をお届けするために日々励んでおります。しかし、良質な記事をお届けするためには、出ていくものも多いのが現状です。どうか、活動を継続させていくために、サポートををお願い申し上げます。