見出し画像

【論文メモ】LLMへの"モノの尋ね方"はLLMにきこう

2023年1月8日 13:47

Large Language Models Are Human-Level Prompt Engineers

論文リンク: https://arxiv.org/abs/2211.01910
公開日時: Submitted on 3 Nov 2022

prompt engineeringの自動化やOpenAIなどの提供するLLMを用いた場合のtuningのコスパについて調べていたら発見

概要

大規模言語モデル（LLM）におけるタスク性能はモデルの制御に用いるpromptに大きく依存するので、所謂promotガチャをしてほしい結果を得ている。
著者らは高いタスク性能を達成するpromptを生成してくれる機構、Automatic Prompt Engineer (APE)を提案している。
これにより様々なタスクで人間による試行錯誤と同程度のpromptを得ることができるようになった。

技術・手法

Automatic Prompt Engineer (APE)

APE

指示に対するアウトプットの候補を入力し、LLMに与えられた指示を予測させることで、promptの候補群を作成させる。(Reverse Generation)
prompt候補それぞれに対し、スコアを計算する。論文では生成したprompt候補をLLMに入力し、その応答とtest用subsetとのlog probabiltyを取っている。
(Optional) top k%をハイスコアな集合とする。ハイスコア集合を用いてResamplingを行う。具体的には、候補promptと類似のpromptを生成する用LLMに指示し、1-2の工程を踏む。これをスコアが収束するまで繰り返す
最もスコアの高いpromptを抽出する。

検証

19/24の割合で人間レベルのパフォーマンスを達成 (zero-shot)

21/24の割合で人間レベルのパフォーマンスを達成 (few-shot,in-context)

議論

test accuracy vs cost

大きなLLMを使った方がpromptの質が上がりがち
- でもお高いんでしょう？: human interactionされた大きなモデルは利用料自体は高いが、収束も早く結果としてコスパがいいらしい (InstructGPT)
モデルAで最適化したpromptは他のモデルBでは適切に機能しなそう
resamplingはやるとよさそう
(iterationを回すほどコスパが悪くなってくるけど)
meta prompt (Interface, scoring, resampleにつかうprompt)は、結果に影響を与えそう。

この記事が気に入ったらサポートをしてみませんか？