【論文メモ】LLMへの"モノの尋ね方"はLLMにきこう
Large Language Models Are Human-Level Prompt Engineers
論文リンク: https://arxiv.org/abs/2211.01910
公開日時: Submitted on 3 Nov 2022
prompt engineeringの自動化やOpenAIなどの提供するLLMを用いた場合のtuningのコスパについて調べていたら発見
概要
大規模言語モデル(LLM)におけるタスク性能はモデルの制御に用いるpromptに大きく依存するので、所謂promotガチャをしてほしい結果を得ている。
著者らは高いタスク性能を達成するpromptを生成してくれる機構、Automatic Prompt Engineer (APE)を提案している。
これにより様々なタスクで人間による試行錯誤と同程度のpromptを得ることができるようになった。
技術・手法
Automatic Prompt Engineer (APE)
指示に対するアウトプットの候補を入力し、LLMに与えられた指示を予測させることで、promptの候補群を作成させる。(Reverse Generation)
prompt候補それぞれに対し、スコアを計算する。論文では生成したprompt候補をLLMに入力し、その応答とtest用subsetとのlog probabiltyを取っている。
(Optional) top k%をハイスコアな集合とする。ハイスコア集合を用いてResamplingを行う。具体的には、候補promptと類似のpromptを生成する用LLMに指示し、1-2の工程を踏む。これをスコアが収束するまで繰り返す
最もスコアの高いpromptを抽出する。
検証
議論
大きなLLMを使った方がpromptの質が上がりがち
でもお高いんでしょう?: human interactionされた大きなモデルは利用料自体は高いが、収束も早く結果としてコスパがいいらしい (InstructGPT)
モデルAで最適化したpromptは他のモデルBでは適切に機能しなそう
resamplingはやるとよさそう
(iterationを回すほどコスパが悪くなってくるけど)meta prompt (Interface, scoring, resampleにつかうprompt)は、結果に影響を与えそう。
この記事が気に入ったらサポートをしてみませんか?