見出し画像

【論文メモ】LLMへの"モノの尋ね方"はLLMにきこう

Large Language Models Are Human-Level Prompt Engineers

論文リンク: https://arxiv.org/abs/2211.01910
公開日時: Submitted on 3 Nov 2022

prompt engineeringの自動化やOpenAIなどの提供するLLMを用いた場合のtuningのコスパについて調べていたら発見

概要

  • 大規模言語モデル(LLM)におけるタスク性能はモデルの制御に用いるpromptに大きく依存するので、所謂promotガチャをしてほしい結果を得ている。

  • 著者らは高いタスク性能を達成するpromptを生成してくれる機構、Automatic Prompt Engineer (APE)を提案している。

  • これにより様々なタスクで人間による試行錯誤と同程度のpromptを得ることができるようになった。

技術・手法

Automatic Prompt Engineer (APE)

APE
  1. 指示に対するアウトプットの候補を入力し、LLMに与えられた指示を予測させることで、promptの候補群を作成させる。(Reverse Generation)

  2. prompt候補それぞれに対し、スコアを計算する。論文では生成したprompt候補をLLMに入力し、その応答とtest用subsetとのlog probabiltyを取っている。

  3. (Optional) top k%をハイスコアな集合とする。ハイスコア集合を用いてResamplingを行う。具体的には、候補promptと類似のpromptを生成する用LLMに指示し、1-2の工程を踏む。これをスコアが収束するまで繰り返す

  4. 最もスコアの高いpromptを抽出する。

検証

19/24の割合で人間レベルのパフォーマンスを達成 (zero-shot)
21/24の割合で人間レベルのパフォーマンスを達成 (few-shot,in-context)

議論

test accuracy vs cost
  • 大きなLLMを使った方がpromptの質が上がりがち

    • でもお高いんでしょう?: human interactionされた大きなモデルは利用料自体は高いが、収束も早く結果としてコスパがいいらしい (InstructGPT)

  • モデルAで最適化したpromptは他のモデルBでは適切に機能しなそう

  • resamplingはやるとよさそう
    (iterationを回すほどコスパが悪くなってくるけど)

  • meta prompt (Interface, scoring, resampleにつかうprompt)は、結果に影響を与えそう。

この記事が気に入ったらサポートをしてみませんか?