(日本語訳)LLMの内部状態は嘘をついていることを認識している / 論文をChatGPTで日本語に要約

2023年5月5日 00:46

今回はこちらのTwitter記事が気になったのでChatGPTで日本語要約してみました( ^ω^ )

The Internal State of an LLM Knows When its Lying

-Create dataset of true & false statements across 6 topics
-Train classifier to detect which statement is true or false based on an LLM’s activation values
-Significantly outperforms in detecting veracityhttps://t.co/vCtmHYm08G pic.twitter.com/6JEC7OfvE7
— John Nay (@johnjnay) May 2, 2023

Amos Azaria博士、Tom M. Mitchell博士が発表した論文です

The Internal State of an LLM Knows When its Lying

(日本語訳)
「LLMの内部状態は、うそをついていることを認識している」

Large Language Models (LLM)は様々なタスクで優れた性能を発揮していますが、その（間違いなく）最も顕著な欠点は、不正確な情報や誤った情報を自信に満ちた口調で生成することです。本論文ではLLMの内部状態を利用することで、発言の真偽を明らかにすることができるという仮説を立てました。そこで、LLMの隠れ層の活性度を利用してLLMが生成した発言の真偽を判定する、シンプルかつ効果的な方法を紹介します。本手法の訓練と評価のために、6つの異なるトピックにおける真実の発言と偽りの発言からなるデータセットを構成します。LLMの活性化値に基づいて、どの文が真か偽かを検出する分類器を学習させます。具体的には、分類器はデータセットの各文章に対するLLMからの活性化値を入力として受け取りました。実験により本手法は、数発のプロンプトを用いた方法よりも有意に優れていることが示され、LLMが生成するコンテンツの信頼性を高める可能性と実世界のシナリオにおける実用性が強調されました。

ArXiv論文記事から引用

・LLMとは、
大規模言語モデル（LLM：Large Language Models）とは、大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことである。一般的には大規模言語モデルをファインチューニングなどすることによって、テキスト分類や感情分析、情報抽出、文章要約、テキスト生成、質問応答といった、さまざまな自然言語処理（NLP：Natural Language Processing）タスクに適応できる。

・ファインチューニングとは、
無作為に読み込ませた大量のデータから適切な答えを導けるよう、正解のラベルが貼り付けられた教師データを新たに読み込ませ、パラメータをチューニングする工程です。ファインチューニングは、主にニューラルネットワークと呼ばれるディープラーニングの基礎となるシステムに対して適用されます。

・ニューラルネットワークとは、
人間の脳の神経回路の構造を数学的に表現する手法です。脳内の神経細胞である「ニューロン（neuron）」を語源とし、主に音声や画像などのパターンを認識する際に活用されます。

・ディープラーニングとは、
ディープラーニングとは、AIの機械学習の方法の1つで深層学習と呼ばれることもあります。情報の処理の仕方をコンピューターに教える手法の1種であるディープラーニングは、他の学習方法よりデータ処理のための階層が多い結果、複雑な判断や細かな処理ができるようになることが特徴です。

1.概要

研究者らは大規模な言語モデルに自己注釈をつけさせ、限られた文脈記憶や多段階推論の問題を克服するのに役立つ方法を提案しています。モデルが入力を処理する際に「考える」ことを可能にすることで、情報を思い出し、より効果的に推論を行うことができます。実験によるとこの方法では推論プロセス中に自己注釈を取ることで、より長く、より複雑なタスクをよりうまく処理できるようになりました。

ArXiv論文記事から引用

2.はじめに

GPT-3のような変換器や大規模言語モデル（LLM）は、質問応答（QA）を含む様々な自然言語処理タスクで素晴らしい結果を出しています。QAタスクでは、モデルは文脈と質問を与えられ、答えを生成します。しかし、これらのモデルは各トークンに対する計算が固定されており、文脈に応じてより多くの「考える」ことができないため、多段階の推論タスクに苦戦しています。

Nyeら(2021)は、文脈と質問を読み取った後にモデルに推論トークンを生成させるスクラッチパッドアプローチを導入しました。この方法は、彼らのパフォーマンスを向上させるのに役立ちます。さらに、「思考の連鎖」プロンプトの手法は、モデルが自分の答えを段階的に説明することを促し、その結果、より首尾一貫した最終回答が得られました。

トランスフォーマーはフィードフォワードモデルであるため、LSTMのようなリカレントモデルとは異なり、状態追跡や非線形性の高いタスクの解決に苦労しています。リカレント機構を用いたトランスフォーマーアーキテクチャの改良により、状態追跡の結果は改善されましたが、与えられたプロンプトに対して一定の計算量に依存することに変わりはありません。

本論文では、言語モデルにおける多段階推論と状態追跡記憶の課題を解決する手法である「Self-Notes」を提案します。Self-Notesは、モデルが文脈を処理しながら入力と織り交ぜ、明示的な推論トークンを生成することを可能にします。これらのノートは、中間的な推論ステップと状態追跡のためのメモリとして機能します。例えば、モデルが事実を組み合わせて推論するのを助けたり、コンテキストを処理しながらエンティティの最新の状態を更新するワーキングメモリの一形態として機能したりすることができます。

提案するSelf-Notes法と、スクラッチパッド、思考連鎖、インナーモノローグといった従来のアプローチとの主な違いは、Self-Notesでは、モデルが文脈を順次読みながら複数のメモを書くことができることです。このインライン・スクラッチパッドは、将来の推論に役立つ情報で文脈を補強します。これは、人間が不定形の情報を読み、推論する方法に似ています。従来の方法では文脈を完全に読み取った後に推論を行うため、その過程では推論を行うことができず、以前の文脈トークンがすでにモデルの文脈ウィンドウの外にある場合には、記憶として機能することができません。Self-Notesは、モデルがゼロから始めることなく、以前のインタラクションから推論ステップを利用することを可能にします。

Self-Notesメソッドは、入力コンテキストの一部としてグランドトゥルースのSelf-Notesをモデルに提供することで、トレーニング中にノートを生成することを学習させます。推論中、モデルは訓練中に学習した特別なトークンに遭遇したとき、Self-Noteを生成することができます。これにより、モデルは入力トークンを処理しながら推論し記憶を作ることができます。研究者らは、Self-Noteを訓練するための半教師付きおよび教師なし手法も提案しています。彼らは、多段階推論と状態追跡を評価するために設計された5つのテキストデータセットで、この方法をテストしました。この方法は、明示的なメモを取らない微調整された言語モデルと、スクラッチパッドのベースラインの両方を凌駕するものでありました。

ArXiv論文記事から引用

2.方法

論文を訳してみてください。

3.実験

研究者はSelf-Notesの手法を、バニラ言語モデルと、思考の連鎖（スクラッチパッド）を生成するように訓練した言語モデルの2つのベースラインと比較しています。
・バニラベースラインはGPT-2モデルを事前学習し、文脈と質問のみから回答トークンを予測するように微調整したものです。
・スクラッチパッドベースラインは、同じGPT-2モデルを微調整して、文脈と質問を見た後に推論ステップのスクラッチパッドを書くようにしたものです。
セルフノートモデルでは、GPT-2はセルフノートを取るように微調整します。テストでは、真実のスクラッチパッドもセルフノートも提供されませんが、スクラッチパッドとセルフノートの両モデルは、答えに加えてトークンを生成することが許可されます。

この研究では、研究者は配布中と配布外（OOD）のテストセットを含む様々なタスクでモデルをテストします。そのうちの1つが「Toy-Story」と呼ばれるタスクです。このタスクは、物語を読みながら推論を行うことの重要性を強調するもので、物語の続きをより簡単に理解することができます。

・前方推論は、会話の進行に合わせて推論を行うため連続したストーリーを理解したり、対話に参加したりする際に、より自然です。
・後方推理は、質問から始まりそれに答えるために与えられた文脈から関連する事実を探すもので、文脈をより狭く理解することにつながる可能性があります。

研究者は、言語モデルが前方推論を行う能力をテストするために、新しい合成質問応答タスクを導入しました。このタスクでは、複数の文章を含む短編小説を読んだ後、モデルが質問に答えなければなりません。各文章は、人、アイテム、場所の間の簡単な関係を記述しています。このデータセットは、bAbIタスクに触発され、必要な推論ステップをより詳細に制御できるようになっています。bAbIとは異なり、このデータセットでは、質問に答えるために必要な「ホップ」を増やすために、異なる推論ステップをミックスしています。

Toy-Storyデータセットでは、語用論的な原理を用いて、観測された関係から未知の関係を推論するよう言語モデルに課しています。例えば、アリスとボブの場所に関する2つの文章が与えられた場合、モデルはボブの場所と、さらにボブが持っている鍵の場所を推論する必要があります。この再帰的推論は、多段階の推論を必要とします。

前方推論モデルは、ストーリーの終わりまでにすべての関係を明らかにし、追加の推論なしにどんな質問にも答えることができます。Self-Notesは、すべての暗示的な関係を明示的に推論する必要があるため、このタスクに適している一方、スクラッチパッド方式は、後方推論を必要とします。

汎化をテストするために、モデルは1ホップおよび2ホップのクエリでトレーニングされ、3ホップおよび4ホップのクエリでテストされています。もしモデルが訓練中に関係推論を学習すれば、中間（2ホップ）関係を推論し、3ホップのクエリを2つの別々の2ホップのクエリに変換する自己注を書くことによって、3ホップと4ホップのクエリに簡単に答えるはずです。

アルゴリズムタスクとブール変数タスクは、言語モデルの状態追跡能力を評価するためのタスクです。アルゴリズムタスクでは、モデルに一連のアルゴリズムプログラム文が与えられ、変数の最終値を予測する必要があります。Self-Notesは、変数が変更されたときに、その中間値を指定するprint文を記述するモデルです。スクラッチパッド方式では、元のステートメントをすべてコピーし、プリントステートメントをどこに挿入するかを考えなければならないため、さらなる複雑さが生じます。

ブール変数タスクは似ていますが、ブール変数の割り当て操作を持つ有効なPythonプログラムを使用します。モデルは、変数の最終値（TrueまたはFalse）を予測する必要があります。このタスクでは、Self-Notesは前のステートメントで変更された変数の値を表示します。

アルゴリズムタスクでは、モデルは2-100文で学習され、2-100（配布中）および101-200（配布外）文でテストされます。ブール変数タスクでは、モデルは3-8文でトレーニングされ、3-8文と9-19文でテストされます。
Chess PiecetypeタスクとChess Moveタスクは、実際のチェスゲームにおける一連の手の中で、チェスの駒の状態を追跡するタスクです。Chess Piecetypeタスクでは一連の動きが与えられたときに、最後に言及されたポジションの駒の種類を予測することが目標です。自己メモを使用して、各開始位置での駒の種類を明示的にモデルに思い出させることで、予測を容易にすることができます。

Chess Moveタスクでは、開始位置から現在の手の終了位置を予測することが目標です。このタスクは、モデルが最も可能性の高い手を予測するために、状態追跡、チェスのルール、戦略を学習する必要があるため、より困難なタスクとなります。セルフノートはチェスの駒の種類タスクと同様に使用され、各開始位置の駒の種類をモデルに思い出させます。
モデルは80手までの200kサンプルで学習され、80手まで（分布内）と80手以上（分布外）の両方で評価されています。

ArXiv論文記事から引用

4.成果

英文ですが論文のグラフデータを参照してください。

4.1. Supervised Self-Notes
Supervised Self-Notes実験では、3ホップ、4ホップのいずれの設定でも、Self-NotesモデルはToy-storyタスクでVanillaモデルを大幅に上回りました。これは、Vanillaモデルが多段階の推論を "ワンステップ "で実行しなければならないためです。また、Self-Notesモデルは、入力コンテキスト全体を処理した後まで処理を先送りするのではなく、関連する事実が述べられるとその場で推論トークンを書き込むため、Scratchpadモデルよりもわずかに性能が優れています。このアプローチの違いにより、入力文脈と推論の距離が縮まり、Self-Notesモデルの性能向上に寄与していると考えられます。

アルゴリズム課題では、Self-Notesモデルは配下分割とOOD文分割の両方で高い精度を達成しましたが、スクラッチパッド法は文脈長の制限のために苦戦しました。これは、変数の値を最新のコンテキストにプッシュすることでメモリに保持するSelf-Notesの優位性を示しています。

Boolean Variableタスクでは、Self-NotesとScratchpadの両方がVanillaモデルよりも改善され、同様のパフォーマンスを示しました。

Chess PiecetypeタスクとChess Moveタスクでは、Self-NotesとScratchpadモデルがVanillaモデルを上回り、状態追跡のための追加トークンの利点を証明しました。しかし、Chess Piecetypeタスクでは、Self-NotesはScratchpadに対して大きな改善を示していません。チェスの動作タスクではSelf-NotesはVanillaよりわずかに優れていますが、Scratchpadは性能が低下しています。これはおそらく、駒の識別情報のコピーとチェスの動きの予測を同時に学習できないためです。

4.2. Semi-supervised Self-Notes
本研究では、Toy-StoryタスクとAlgorithmicタスクにおいて、Self-Noteの監視量を変化させた場合の性能を評価しました。トイストーリータスクでは、トレーニングセット（100サンプル）の1%程度でもVanillaモデルに対する性能向上が見られ、25%程度で性能が飽和することが分かりました。アルゴリズムタスクでは、5%程度の監視から性能が向上しSelf-Noteの監視が増えるにつれて性能は着実に向上しました。

4.3. Unsupervised Self-Notes
この実験では、Self-Noteを1変数のAlgorithmicタスクとToy-Storyタスクに適用し、トレーニングのためにグラウンドトゥルースのSelf-Noteを一切使用しませんでした。アルゴリズムタスクでは、Self-Noteの記述と利用を学習したモデルは、Vanillaモデルよりも精度を向上させ、20kサンプルでほぼ100%の精度を達成しました。

変数が多く難易度が高いトイストーリータスクでは、テスト時にバニラモデルにセルフノートを追加しただけではあまり性能は向上しませんでした。しかし、質問開始トークンの確率を上げ、複数のSelf-Noteを生成し、元のトレーニングデータのSelf-Noteバージョンでモデルを微調整することで、Vanillaモデルよりも大幅に精度を向上させることに成功しました。このことから、モデルにSelf-Noteを生成させ、その世代で微調整を行うことで、モデルの性能が向上することがわかります。

4.4. Ablations
このセクションでは推論中のSelf-Notesの影響と、ダミートークンのような余分なトークンの価値について検討しました。一つは訓練とテストの両方で100%のSelf-Notes監視を行うもの、もう一つは訓練では100%のSelf-Notes監視を行うがテストではSelf-Notesを生成することを制限するものです。予想通り、オラクルのSelf-Notesは性能を向上させ、一方、モデルにSelf-Notesの生成を許可しないことは、性能を大きく低下させることになりました。

余分なトークンの価値を理解するために、コンテキスト内の様々な場所にダミートークンを挿入しました。その結果、Self-Notesが挿入されるべき場所にダミー・トークンを賢く挿入することが、設定された中で最も良いパフォーマンスを示すことがわかりました。しかし、Self-Notes Dummyが他のダミー型と比較して得られる利益は、実際のSelf-Notesがダミー型と比較して得られる利益に比べて小さく、中間ノートの内容は単に計算量を増やすこと以上に重要であることが示唆されました。

ダミートークンは、他の3つの設定でもテストされました：Chess Piecetype、Chess Move、WikiText-103言語モデリングです。それぞれのタスクで、ダミートークンはバニラ設定をわずかな差で改善し、これらのタスクにおける追加トークンの有用性を示しました。
本節では、トイストーリータスクを題材に、Self-NotesとVanillaモデルのラベル付き質問-回答（QA）ペアの総数を比較します。Self-Notesのトレーニングサンプルには中間的な質問と答えがあり、トレーニングセット内のQAペアの総数が増加します。例えば、Self-Noteを持つサンプルは、Vanillaの設定では1つしかないQAペアを2つ持つことになります。

Toy-Storyの10k Self-Notesトレーニングデータは、最終QAペアが10k、Self-Note QAペアが約70k、合計約80kのQAペアがあります。比較の結果、学習サンプルが1500%増加（Self-Notesと比較してQAペア数が約100%増加）しても、10kサンプルのSelf-NotesモデルがVanillaモデルを大きく上回ることがわかりました。これは、Vanillaモデルと比較した場合のSelf-Notes手法の有効性を示しています。

ArXiv論文記事から引用

5.関連作品

言語モデルにおける暗黙の推論、明示的な理由付け、長さの外挿を探求する関連研究がいくつかあります。

1)暗黙の推論：bAbIのような注意ベースのモデルは、異なる推論能力をテストし、リカレントニューラルネットワークに対する注意メカニズムの優位性を示しました。注意ベースのトランスフォーマーは、言語ベースの推論の基礎となりましたが、状態追跡や多段階の推論に苦労しています。

2)明示的な理由付け：理由付けは、解釈可能性、中間計算、推論タスクについて検討されてきました。スクラッチパッド法は、提案されているセルフノート法と密接に関連しており、スクラッチパッドのオンラインバリアントと考えることができます。理由付けの使用は、大規模な言語モデルによるゼロショットおよび数ショットのインコンテキスト学習に特に有効であることが証明されています。

3)長さの外挿：学習時よりも長いインスタンスを推論時に汎化することは、知的エージェントにとって重要です。長さの外挿は、言語モデリング、機械翻訳、人工データセット、その他のタスクなど、様々な文脈で研究されてきました。変換モデルの長さ汎化能力が限定的であるのは、学習可能な埋め込みで位置を処理する方法に一因があります。

適応的計算とは、各文章に対して同じ量の計算を行うのではなく、難しい文章にはより多くの時間をかけ、簡単な文章にはより少ない時間をかけるモデルを持つという考え方です。この問題に取り組んだ作品もありますが、学習手順やモデルのアーキテクチャを変更する必要があります。Self-Notesは、モデルが文脈から逸脱するタイミングを判断し、補足的なトークンを生成して「考える」ため、適応的な計算の一形態とみなすことができます。これまでのアプローチとは異なり、Self-Notesは既存の大規模言語アーキテクチャやトレーニング手順に簡単に適用することができます。

生成されたテキストの編集には、生成されたテキストへの挿入、削除、修正を可能にするトランスフォーマーアーキテクチャーのバリエーションが含まれます。また、完全なプロンプトを処理した後に、中間推論として「インナーモノローグ」トークンを生成する作品もあります。これらの方法は、文脈の後の世代を修正するものであるが、Self-Notesは元のプロンプトを修正します。

ArXiv論文記事から引用

6.結論

Self-Notes方式は、言語モデルが入力トークンを処理する際にメモを取ることで推論と記憶を行うことを可能にします。この方法には、推論ステップを関連する文脈に近づけ、リカレントメモリーとして機能させるなどの利点があります。これらの利点によりこのメソッドは、トレーニング中に見られなかった長いシーケンスにうまく対応できるようになります。また、訓練中に自己メモの監視を減らしても、性能に大きな影響を与えないことも実験により示されています。

今後の研究としては、強化学習を使って最適なSelf-Noteを見つけることで監視を減らすことや、より大きなモデルで有用なSelf-Noteの質問を生成できるかどうかを調査することが考えられます。また、Self-Noteとスクラッチパッドを組み合わせて、前方推論と後方推論の両方を活用するという方向性もあります。

本研究では5つの合成タスクと実世界のタスクにおいて、GPT-2ベースモデルでSelf-Notesを検証しています。より大きなモデルのトレーニングはより多くのリソースを必要とするため、今後の研究に委ねられます。

ArXiv論文記事から引用

・LSTMとは

AIと仲良くなりたいので、日本語に要約して何度も読み返しています。

この記事が参加している募集

#AIとやってみた

28,081件

この記事が気に入ったらサポートをしてみませんか？