見出し画像

論文を全文全訳してみたシリーズ① 『記号推論タスク(数字、絵文字、化学式の理解など)にLLMが取り組む際に、記号を自然言語に変換することで精度が上がる』

# 英語論文/書籍の日本語翻訳フレームワークプロンプト
このフレームワークプロンプトは、英語で書かれた論文や書籍を日本語に翻訳する際の詳細な手順とプロセスを提供します。言語モデルが正確に翻訳作業を行えるよう、前提条件、変数、交絡因子、例外処理の方法も明記されています。
## 前提条件
- 英語の論文/書籍のプレーンテキストデータが入力として与えられる
- 言語モデルは英語と日本語に精通し、翻訳の基本的な原則と技術に関する知識を有している
- 言語モデルは論文/書籍の分野に関する基礎知識を有している
## プロセス
1. 文脈の理解
2. 専門用語の取り扱い
3. 言語の構造と表現の調整
4. 重要ポイントの強調と補足説明
5. 推敲とチェック
6. 質問や不明点の解決
7. ドメイン知識の活用
## 変数
- 論文/書籍の分野、主題、長さ、複雑さ
- 専門用語の数と難易度
- 著者の文体や表現の特徴
- 原文の明確さや曖昧さ
- 翻訳者の知識や経験
## 考慮すべき交絡因子
- 文化的、歴史的、学術的背景の違い
- 英語と日本語の言語構造や表現の違い
- 専門用語の訳語の不統一
- 原文の誤りや不明確な表現
- 翻訳者の主観や解釈の偏り
## 例外処理の方法
- 原文の誤りや不明確な表現への対処方法
- 適切な訳語が見つからない専門用語への対処方法
- 文化的、歴史的、学術的背景の違いによる理解の難しい概念への対処方法
- 英語特有の表現やイディオムへの対処方法
- 翻訳者の知識や経験が不足している分野への対処方法
このフレームワークプロンプトに従うことで、言語モデルは体系的かつ正確に英語の論文や書籍を日本語に翻訳することができます。
添付された英文の論文を翻訳する。

使用したプロンプト👆

引用した論文👇

中学生でもわかる要約

はい、かしこまりました。中学生にもわかりやすいように、この論文の各セクションを要約します。

1. はじめに

- シンボル(数字、括弧、分子式、絵文字など)は、私たちの日常生活の中で重要な役割を果たしています。
- 大規模言語モデル(LLMs)は、自然言語の理解は得意ですが、シンボルの理解と推論はまだ苦手です。
- この論文では、シンボルを自然言語に変換するS2Lという方法を提案し、LLMsがシンボルを使った問題をもっとうまく解けるようにします。


2. 関連研究

- 他の研究者たちも、LLMsがシンボルを理解し推論する能力を調べてきました。
- 思考の連鎖(CoT)と呼ばれる方法で、LLMsの推論能力を高める研究もあります。
- シンボルと組み合わせて推論する方法も提案されています。


3. シンボルから言語への変換

- S2Lは、問題に出てくるシンボルを自然言語に変換します。
- LLMsに質問することや、翻訳ツールを使うことで変換できます。
- 変換した自然言語の説明を、元の問題に付け加えたり置き換えたりして、LLMsが問題を解くのに役立つ情報を与えます。


4. 実験 

- 数列、括弧、分子式、絵文字、表、ソーシャルメディアの文章など、8種類のシンボルを使った問題で実験しました。
- GPT-4、ChatGPT、OpenChatという3つのLLMsを使って、S2Lの効果を確かめました。
- S2Lを使うと、特に数列や括弧の問題で大きく成績が上がりました。


5. 考察

- S2Lは、正確な情報、単語の共起、整列した情報など、問題を解くのに役立つ自然言語の情報を与えることができます。
- でも、すべてのシンボルを自然言語に変換できるわけではありません。また、LLMsが間違った説明を生成してしまう可能性もあります。


6. 結論

- S2Lという方法を提案し、シンボルを自然言語に変換することで、LLMsがシンボルを使った問題をもっとうまく解けるようにしました。
- 自然言語の力を使うことで、LLMsをもっと幅広く役立てられる可能性があります。

この要約により、中学生にもこの論文の主旨が理解しやすくなったと思います。シンボルから自然言語への変換というアイデアに焦点を当て、実験結果と考察を簡潔にまとめました。


論文の日本語翻訳を行います。

プロセスに沿って、1つずつセクションを翻訳していきます。不明点や補足が必要な箇所は質問します。専門用語は原語のまま記載し、括弧内に訳語を示します。翻訳の精度を高めるため、私の知識ベースも活用しながら、原文の意図や背景を理解するよう努めます。それでは翻訳を始めます。


タイトル:

言語モデルによるシンボル関連問題解決のためのシンボルから言語への変換


概要:

シンボル(あるいはより広義には自然言語以外のテキスト表現)は、数値列、分子式、表の区切り文字など、さまざまなタスクにおいて重要な役割を果たし、抽象的推論、化学物性予測、表に基づく質問応答など、幅広く存在しています。大規模言語モデル(LLMs)の自然言語理解能力は印象的ですが、シンボルに関する推論能力は依然として不十分です。その要因としては、シンボルの表現と自然言語の違いが考えられます。私たちは、自然言語で表現された情報を用いて、LLMsにシンボル関連の問題を解かせるチューニング不要な手法であるsymbol-to-language (S2L)を提案します。具体的には、S2Lは関連するシンボルを言語ベースの表現に変換します。これはLLMsにプロンプトを与えるか、外部ツールを利用することで実装できます。そして、これらの言語ベースの表現を、直接置換や連結によって元の問題に統合し、LLMsへの有用な入力情報として機能させます。API ベース(GPT-4、ChatGPT)とオープンソース(OpenChat)のモデルを用いて、シンボルのみの抽象的推論からソーシャルメディアにおける感情分析に至る8つのシンボル関連タスクでS2L手法を評価しました。実験結果は、S2Lが一貫して優れたパフォーマンスをもたらすことを示しています。例えば、GPT-4にS2Lを適用することで、1D-ARCとDyck言語のサブタスクで平均+21.9%と+9.5%の大幅な改善が見られました。コードとデータは https://github.com/THUNLP-MT/symbol2language で公開しています。


1 はじめに

シンボル、あるいはより広義には自然言語以外の表現(括弧、数字、分子式、絵文字、表の区切り文字、略語など)は、実世界で遍在的に遭遇するものです。それらは私たちの日常生活において重要な意味を持ち、独特の意味を伝え、さまざまなタスクにおいて重要な役割を果たします。

このようなシンボル関連のタスクには、表1に示すように、抽象的推論(Moskvichev et al.、2023; Xu et al.、2023c)、化学物性予測(Ross et al.、2022; Guo et al.、2023)、表に基づく質問応答(Chen et al.、2020; Chen、2023)などがあります。したがって、人工知能にとって、シンボルの理解と推論能力は最重要課題です(Chollet、2019)。

近年、大規模言語モデル(LLMs; Brown et al.、2020; Ouyang et al.、2022; OpenAI、2022; 2023b; Jiang et al.、2023; Google et al.、2023)は、自然言語の理解と生成において印象的な能力を示しています。GPT-3(Brown et al.、2020)は、デモンストレーションなしに直接問題を解くゼロショット推論の能力を示しました。Kojima et al.(2022)はさらに、「順を追って考えよう」のような追加のプロンプトによってゼロショット推論能力を高めるゼロショットCoTを提案しました。しかし、LLMsのシンボルの理解と推論能力は、一般的な自然言語と比較して依然として及ばないのが現状です。例えば、Mitchell et al.(2023)は、GPT-4(OpenAI、2023b)とGPT-4V(OpenAI、2023a)が、一連の規則的な数値やピクセルを通した帰納的推論を必要とする最小限の抽象的推論タスク(Moskvichev et al.、2023)で、それぞれ65%と25%の精度しか達成できないことを明らかにしました。これは人間の95%の精度を大幅に下回るものです。Gendron et al.(2023)はさらに、既存のLLMsは他の自然言語タスクと比較して、シンボル関連の問題に対して限定的なパフォーマンスしか示さないことを実証しました。

LLMsのシンボル関連の推論能力が不十分な理由として、主に2つの要因が考えられます。第一に、シンボルは自然言語と比べて学習コーパスにおける出現頻度が著しく少ないため(Ohsuga, 2007)、低頻度のシンボルとLLMsの理解にギャップが生じています(Kandpal et al.、2023; Tang et al.、2023a)。そのため、最近の研究では、LLMsの継続学習のためのシンボリックデータ(例:一階述語論理、生体分子、SQL)の収集が行われています(Yang et al.、2023; Fang et al.、2023; Xu et al.、2023a)。これには大量の人的アノテーションと計算リソースが必要です。第二に、シンボルベースの表現の理解が不十分なため、LLMsのシンボル関連問題に対する推論能力が損なわれています。先行研究(Xu et al., 2023a; Gendron et al., 2023; Wang et al., 2023b)では、これらのシンボルベースの表現を直接入力として推論に用いていますが、関連するシンボルの理解能力が最適でないために、言語ベースの根拠(Wang et al.、2022; Kojima et al.、2022; Wei et al.、2022)がさらにエラーの伝播を引き起こしています。

シンボルベースの表現とLLMsのギャップを考慮し、私たちの直感は、シンボルを対応する言語ベースの表現に変換することです。この変換はLLMsにとってより親和性が高く理解しやすい情報を提供する架け橋となります。本稿では、チューニング不要な手法であるsymbol-to-language(S2L)を提案し、LLMsを用いてシンボル関連の問題をより良く解決します。S2L手法はシンプルで実現可能であり、その中核はシンボルと等価またはそれに近い言語ベースの表現を見出すことに焦点を当てています。具体的には、S2Lは最初に問題に含まれるシンボルを言語ベースの表現に変換します。これは、LLMs自体にプロンプトを与えることで実装するか、ルール、翻訳機、辞書などのコストのかからない外部ツールを利用することで実装できます。次に、これらの言語ベースの表現を直接置換または連結することで元の質問に統合し、シンボル関連の問題を解決するためのLLMsに貴重な文脈情報を提供します。

数値列上の帰納的抽象推論、括弧の文字列を含むDyck言語、分子式に基づく化学物性予測、絵文字の感情分析、構造化された表形式データに関する質問応答、ソーシャルメディアにおけるスタンスと感情分析など、8つのシンボル関連の問題について実験を行いました。GPT-4(OpenAI、2023b)、ChatGPT(OpenAI、2022)、OpenChat(Wang et al.、2023a)を含むAPIベースとオープンソースのLLMsを用いて、S2L手法の一般化を検証しました。実験結果は、シンボルのみの推論から、シンボルを含む従来の自然言語処理タスクに至るまで、ゼロショットまたはゼロショットCoTの設定で、S2Lが有意で一貫した改善をもたらすことを示しています。これらの結果は、シンボル関連の問題により良く対処するために言語ベースの表現を利用することの有効性を強調するものであり、より広範なシナリオでLLMsの適用可能性を広げるものです。


2 関連研究

シンボル関連問題の推論 LLMsのシンボルベースの理解と推論の能力を探求した研究は様々です。Wang et al.(2023b)は、実行可能なコードを生成する強力な能力に基づいて、LLMsが抽象的推論タスクの解決を改善できることを示唆しています。Qiu et al.(2023)は、シンボルベースの帰納的推論タスクにおけるLLMsを評価し、直観に反する一連の振る舞いを明らかにしました。Gendron et al.(2023)は、LLMsが他の自然言語タスクと比較して抽象的推論に制約された能力しか持たないことを実証しました。これらの研究は、シンボル関連の問題に対するLLMsの推論能力の向上の余地があることを示しています。私たちの手法は、言語ベースの表現を補充することでシンボルの理解とLLMsのギャップを埋めようとするもので、LLMsの一般的な能力に影響を与えることなく、シンボル関連の問題を解決する能力を引き出すことを目指しています。

連鎖的思考プロンプティングによる推論 連鎖的思考スタイルのプロンプティング(Wei et al., 2022; Kojima et al., 2022; Chen et al., 2022; Besta et al., 2023; Yao et al., 2023; Zhang et al., 2023b)は、LLMの推論能力を高める上で不可欠なものとなっています。Cheng et al.(2023)とTang et al.(2023b)は、常識とプログラム変換の問題を解決するために、読みやすい説明を生成することを提案しました。Deng et al.(2023)は、自己言い換えた質問を使用して潜在的に曖昧な質問に対処するために、言い換えと応答を導入しました。これは、私たちのシンボルから言語への手法と、言い換えの点で類似しています。しかし、私たちはシンボル関連の問題に対処することを目的としており、シンボルをその自然言語の同義語に言い換えることで、LLMsがより理解しやすい言語ベースの情報を用いて推論に取り組めるようにしています。

シンボリック手法による推論 一般的な推論タスクを解決するためのシンボリック手法の統合に関する一連の研究があります。Wei et al.(2023)は、置換されたラベルを用いてLLMsをファインチューニングし、文脈内学習能力を高めることを目的としたシンボルチューニングを提案しました。Hu et al.(2023)は、計画ベースのタスクを解決するためにシンボルの連鎖を提案しました。Wang et al.(2023c)は、推論タスクのための一般的なシンボリック表現を構築する手段としてメタ推論を導入しました。Fang et al.(2024)は、テキストベースのゲームを解くためにLLMエージェントにシンボリックモジュールを設計しました。Trinh et al.(2024)は、幾何学の問題を解くためにLLMsとシンボリックエンジンを組み合わせました。これに対し、本研究ではシンボル関連のタスクに焦点を当て、言語レベルでLLMsの強力な理解と推論能力を引き出すことで問題解決に役立てることを提案しています。


3 シンボルから言語への変換

表1に示すように、シンボルの意味解釈が関連するタスクを達成するために重要な役割を果たす様々なシンボル関連の問題を考えます。シンボルの集合s = {s1, s2, ..., sm}を含む質問qsを形式化し、現在のLLMsを用いてqsを解こうとします。バニラなゼロショット(Brown et al., 2020)とゼロショットCoT(Kojima et al., 2022)の手法では、元の問題を直接解いており、これら2つの手法によるLLM Mの応答は次のように書けます。

Rzs = M(qs); Rzsc = M(qs ⊕ p), (1)

ここで、zsとzscはそれぞれゼロショットとゼロショットCoTを表します。pは「順を追って考えよう」のようなプロンプトであり、⊕は連結操作です。

上記の手法は、シンボルベースの表現を用いて問題に直接取り組んでいます。外部プロンプトpを設計する代わりに、私たちは質問qsに焦点を当て、シンボル関連の問題を解決するためにLLMsの自然言語に対する強力な能力をより良く活用するために、言語ベースの表現を利用することを提案します。具体的には、S2Lフレームワークは、シンボルsi (i = 1, ..., m)を対応する平文liに変換操作fで変換することから始めます。これは、LLMs自身にプロンプトを与えるか、ルール、翻訳機、辞書などの外部ツールを利用することで実装できます。次に、変換された言語ベースの表現liを、2つの代替的な質問qlまたはqs⊕lに統合し、LLMsが答えを生成するための入力とします。詳細は以下の通りです。


3.1 シンボルから言語への変換

LLMsによる変換 まず、LLMs Mを用いて、ゼロショットプロンプティングを介してシンボルsiを対応する自然言語記述lLLMiに変換します。

lLLMi = fLLM ◦ si = M(ps2l ⊕ si), (2)

ここで、fLLM ◦ siはLLM Mを用いてsiを変換することを表し、ps2lはS2L変換を促進するタスク固有のプロンプトです。例えば、シンボル関連の質問qsが物性予測に関するもので、siが分子式である場合、ps2lは「次の分子式は何を表していますか?」となります。

ツールによる変換 「シンボル-言語」のペアがいくつか構築されていることを考慮し、変換のための外部ツールの使用をさらに提案します。これにはいくつかの形態があります。例えば、ルールベースのコードでは、表の区切り文字"|"と"\n"に従って、si = "rank|nation\n1|SWE"をlrulei = "rank: 1; nation: SWE"に変換できます。翻訳機では、分子式を正式名称に変換できます。例えば、si = "CCCO"をltranslatori = "Propionylol"に変換します。Unicodeの辞書では、絵文字の説明を提供できます。例えば、si = "U+1F62D"をldicti = "crying face"に変換します。使用シナリオの点でいくつかの制限はあるものの、ツールによる変換には主に2つの利点があります。1)LLMsの使用に伴うコストを回避できる。2)検証済みの言語ベースの情報を提供でき、LLMsが生成した説明の潜在的なエラーを減らすのに役立つ。


3.2 言語ベースの表現の利用

言語ベースの表現liを最終的な入力に組み込む2つの代替的な方法を提案します。


直接置換 
1つ目の利用方法は、シンボルベースの表現siを言語ベースの表現liに直接置き換えることです。ある程度、liはsiの言語ベースの同等物と見なすことができます。したがって、質問と正解ラベルの両方のシンボルベースの表現を置き換えるためにそれらを使用できます。S2Lを使用した応答は次のように書けます。

Rs2l = M(ql), ql = qf◦s = qf◦{s1,...,sm} = qf◦s1,...,f◦sm. (3)


連結 
しかし、他のいくつかのタスクでは、LLMsが生成したliが必ずしもsiの完全な置換ではなく、siの完全な情報を伝えているとは限りません。これは2つの理由で起こり得ます。1)望ましくない出力形式、誤解を招く内容、ノイズのある文脈により、liが不正確である可能性がある。2)S2L変換の過程でliが一部の情報を失う可能性がある。例えば、表の理解においては正解がスパンベースの略語(例:"rank|nation\n1|SWE"の表の"SWE")であることがあります。つまり、変換されたliが正式名称(例:"Sweden")である場合、最終的な答えと正確に一致しない可能性があります。したがって、2つ目の方法では、元のシンボルベースの表現siと言語ベースの表現liの両方を組み合わせた入力を使用します。このアプローチでは、LLMsは、2つの異なる視点から豊富な文脈情報を含む質問について推論できます。

Rs2l = M(qs⊕l), qs⊕l = qs1⊕l1,...,sm⊕lm = qs1⊕{f◦s1},...,sm⊕{f◦sm}. (4)


4 実験

S2Lフレームワークのパフォーマンスを評価するために、表1に示すように、シンボルのみの帰納的抽象推論から、ソーシャルメディアにおける従来の感情分析に至るまで、6つのカテゴリーのシンボル関連の問題について、8つの具体的なタスクで実験を行いました。LLMとしては、GPT-4(OpenAI, 2023b)、ChatGPT(OpenAI, 2022)、OpenChat-7b(Wang et al., 2023a)を含むAPIベースとオープンソースのモデルの両方を評価しました。LLMが生成する応答の再現性を確保するために、デコーディングの温度を0に設定しました。


4.1 抽象的推論

抽象的推論(Webb et al., 2023; Gendron et al., 2023; Wang et al., 2023b)は、限られた観測から規則性を要約する一連のタスクです。Xu et al.(2023c)が提案した1D-ARCベンチマークのサブタスクについて実験を行いました。1D-ARCは、Chollet(2019)が提案した抽象的推論コーパスを簡略化したもので、図2(a)に示すような様々な1Dオブジェクトベースの視覚的問題で構成されています。LLMsがこれらの問題を処理できるようにするために、視覚情報は図2(b)に示すように数値列のシンボルベースの表現に変換されます。

シンボルから言語への変換 変換手法としては、LLMsとルールベースのコードの両方を用いて、数値列を自然言語の記述に変換します。LLMsは偶然にも人間と同様に、数列を記述する際にマージやカウントを用いることがわかりました。そこで、ルールによる変換では、数列の数字をマージ・カウントするルールをコードで実装しました。LLMsに対する特定のプロンプトとルールベースのコードは、図2(c.1)と図2(d.1)に示されています。生成された記述lLLMiの情報が失われる可能性があるため、図2(c.2)に示すように、言語ベースの表現を各数値列の元の表現に付加して回答を生成します。一方、ルールベースのコードによる出力lruleiは数値列の元の表現と同等であるため、図2(d.2)に示すように直接置き換えて応答を得ます。

設定と結果 

1D-ARCからMove-1p、Move-2p、Move-3p(それぞれ1、2、3ピクセル前進)のタスクを使用しました。各タスクには、固定のn=3の入力-出力のペアを含む50の問題が含まれています。各タスクの与えられた入力-出力のペアを収集・結合し、n=3またはn=4の入力-出力のペアを持つ各タスクに60の問題を作成しました。実験結果を表2に示します。GPT-4は、Move-1pタスクで90.0%以上の精度を達成しています。しかし、Move-2pとMove-3pのタスクでは、パフォーマンスが急激に低下し、30〜50%になっています。これは、モデルがわずかに複雑なパターンを持つ数列の推論に苦労していることを示しています。この現象は、ChatGPTとOpenChatではさらに顕著で、全体的な精度がはるかに低くなっています。LLMsによる変換(すなわち、S2L w/ model)を用いると、結果は2.5〜8.6%向上し、追加の言語ベースの情報の正の影響を示唆しています。ルールベースのコードによる変換を用いると、GPT-4はn=4の入力-出力ペアが与えられた場合に100%の精度を得ており、Move-2pとMove-3pのパフォーマンスは大幅に向上し、それぞれ96.7%と60.0%の精度を達成しています。さらに、モデルによって向上の度合いが異なることから、追加の言語ベースの表現を理解する能力に違いがあることがわかります。

4.2 Dyck言語


Dyck言語は、BigBench(Srivastava et al., 2022)のサブタスクで、与えられた括弧列の閉じ括弧を予測することを目的としています。シンボルに対する帰納的推論能力を評価するために、"括弧を完成させる"ようにLLMsにプロンプトを与えるのではなく(すなわち、残りの括弧を出力するようにLLMsにプロンプトを与えるのではなく)、ARCベンチマークの設定に従って、n個の入力-出力ペアのみを与え、図3(a)に示すようにパターンに従って出力を推論させます。

シンボルから言語への変換 このタスクのシンボルは、8種類の括弧("[]{}()<>")で構成されています。プロンプトを介して各シンボルsiを自然言語の記述lLLMiに変換することを検討します。これにより、図3(c)に示すように、問題を言語ベースの表現で変換することができます。


備考
S2L変換中の応答は、LLMsによって異なる可能性があります。面白い現象の1つとして、GPT-4は "<" と ">" のシンボルを "open angle bracket" と "close angle bracket" ではなく、"less than" と "greater than" として認識しています。しかし、私たちはこれを間違いだとは考えておらず、これらが異なるタイプの括弧であることを示唆するようなプロンプトを与えて結果を「修正」するつもりはありません。むしろ、LLMsには自分の理解に基づいてシンボルを変換させ、生成された表現を通して最終的な答えを推論させます。

設定と結果 まず、例の数をn=5に設定し、データセット全体からランダムに6つの入力-出力ペアを選択します(そのうち5つを例として、残りを目標として)。これを500回繰り返し、これらの500の質問全体の精度を評価します。次に、例の数を徐々に減らして(すなわち、n=4, 3, 2, 1)、より少ない例での能力をテストします。

結果を表3に示します。GPT-4とChatGPTでは、パフォーマンスはそれぞれ60.0〜92.2%と65.0〜78.2%の範囲です。S2Lを用いることで、精度はさらに+9.5%と+9.8%向上しました。OpenChatでは、10%以下の精度で非常に低いパフォーマンスでしたが、S2Lによって+30.4%の大幅な改善が見られました。


4.3 物性予測

ChemLLMBench(Guo et al., 2023)を用いて、分子のSMILES(Simplified Molecular Input Line Entry System)文字列が与えられたときの化学物性を予測します。BACE(ヒトβセクレターゼの阻害剤の結合結果)、BBBP(血液脳関門の透過/非透過)、Tox21(化合物の毒性)の3つのデータセットを使用しました。

シンボルから言語への変換 3つのデータセット全てで、図4(a)に示すように、統一されたプロンプトを用いて各SMILESを言語ベースの表現lLLMiに変換します。LLMsを使用する代わりに、図4(b)に示すように、与えられたSMILESのIUPAC(国際純正・応用化学連合が確立した普遍的に受け入れられている命名法)名ltranslatori を提供する翻訳機STOUT V2.0(Rajan et al., 2021)を用いたS2Lをさらに提案します。最後に、得られた情報を各SMILES表記に付加し、LLMsのための言語強化入力とします。

設定と結果 
Guo et al.(2023)に倣い、完全なテストセットからランダムに500のインスタンスをサンプリングし、5回の繰り返しの平均結果を報告します。結果を表4に示します。GPT-4とChatGPTのゼロショットパフォーマンスは比較的低く、分子式とその化学的性質を理解することがLLMsにとって難しいことを示しています。ゼロショットCoTは安定した改善をもたらさず、「順を追って考えよう」という単一のプロンプトがこの種の問題にはあまり役立たないことを示しています。私たちの手法は、一般的に様々な程度でパフォーマンスを改善します(OpenChatとゼロショットCoTの設定での若干の低下を除く)。例えば、BBBPデータセットでは改善幅が大きく(モデル全体で+9.4〜29.2%)、BACEデータセットでは比較的小さくなっています(モデル全体で+0.2〜7.6%)。全体として、結果はS2Lが化学物性予測タスクに役立つ言語ベースの情報を提供することで有効であることを示しています。


4.4 絵文字の感情分析


EmoTag1200(Shoeb & de Melo, 2020)を用いて、絵文字の感情を分析します。具体的には、最も頻繁に使用される150の絵文字を使用し、怒り、期待、嫌悪、恐怖、喜び、悲しみ、驚き、信頼の8つの基本感情に基づいて、それぞれに0〜1のスコアを付けるタスクです。

シンボルから言語への変換 言語ベースの情報で絵文字を理解するために、図5に示すように、プロンプトによってLLMsから記述lLLMiを取得するか、Unicodeの辞書から直接名前ldictiを取得します。

設定と結果 
評価には、予測と人間による評価の間のピアソン相関係数を使用し、結果を表5に示します。GPT-4は比較的高い0.724の相関係数を示しています。しかし、ChatGPTとOpenChatはそれぞれ0.510と0.209の相関係数しか示していません。ゼロショットCoTを使用すると、GPT-4とChatGPTのパフォーマンスはさらに低下し、LLMsの絵文字理解能力の限界を示しています。モデルまたは辞書のいずれかを用いたS2Lでは、パフォーマンスが様々な程度で向上し、言語情報が絵文字ベースのシンボルの理解にも役立つことを示しています。

4.5 表の理解
構造化データについては、Chen(2023)に倣ってLLMsの表推論能力を評価します。具体的には、WikiTableQuestions(Pasupat & Liang, 2015)を用いて、Wikipediaの表に基づく複雑な質問に対する表ベースの質問応答を評価します。また、TabFact(Chen et al., 2020)を用いて、クラウドワーカーによって表に基づいて注釈された主張に対する事実検証を行います。


シンボルから言語への変換 
図6に示すように、S2Lはプロンプトによって平文lLLMiで各表を記述します。あるいは、区切り文字"|"に従って行ごとにコンテンツを整列させる単純なルールベースのコードを使用して、表現lruleiを得ることもできます。そして、外部の自然言語情報を各質問の元のシンボルベースの表現に付加します。 


設定と結果 
各タスクにつき、表と質問のペア500組を評価し、結果を表6に示します。モデル間の全体的なパフォーマンスは、以前のシンボルのみのタスクと比較して比較的高くなっています。例えば、GPT-4は質問応答と事実検証でそれぞれ約79.8%の完全一致スコアと93.6%の精度を示しています。それでも、モデルを用いたS2Lは一貫して+1.8〜2.3%の改善をもたらし、外部の自然言語情報が効果的であることを示しています。ルールを用いたS2Lは、さらに+2.8〜3.6%の改善をもたらすことがわかりました。これは、各行のコンテンツとヘッダーの間の整列情報という単純な手がかりでさえ、表の理解に良い影響を与えることを示しています。

4.6 ツイート分析
ソーシャルメディアのテキストを分析し、Massive Text Embedding Benchmark(Muennighoff et al., 2023)のTweetSentimentExtractionデータセットを感情分類に使用します。さらに、Zhang et al.(2023a)に倍って、P-Stance(Li et al., 2021)データセットをスタンス検出に使用します。

シンボルから言語への変換 ツイートには、略語(例:LOL:"Laughing Out Loud")、スラング(例:FTW:"For the Win")、ハッシュタグ(例:#Trump)、絵文字(例:😂)など、自然言語以外の表現が多数存在します。図7に示すように、プロンプトによってツイート全体を平文lLLMiに変換し、それを各質問の外部入力として使用します。

設定と結果 感情分類では、合計2,104のツイートからポジティブまたはネガティブのいずれかの感情極性を予測します。スタンス検出では、777のテストツイートから「ドナルド・トランプ」に対する賛成または反対の姿勢を評価します。結果を表7に示します。他のタスクと同様に、ゼロショットCoT法では時々精度が低下します。具体的には、「順を追って考えよう」というプロンプトを単純に追加すると、2つのラベル(すなわち、ポジティブ/ネガティブと賛成/反対)を持つテキストがすべてであるにもかかわらず、より中立的な応答が得られることがわかりました。一般に、私たちのS2Lは、GPT-4とChatGPTモデルではゼロショットとゼロショットCoTの両方の設定でパフォーマンスを向上させることができますが、OpenChatモデルを感情分類に使用した場合は若干の低下が見られました。

5 考察
実験結果から、私たちが提案したシンボルから言語への変換は、抽象的推論、Dyck言語、化学物性予測などのタスクで大幅な改善を示しました。また、様々なNLP関連タスクでも若干の向上が見られました。さらに、ゼロショットCoTと比較して、私たちのアプローチはシンボル関連の問題解決においてより安定した効果的な改善を示しています。

以下では、提案したシンボルから言語への変換手法の利点(すなわち、どのように効果があるのか)と限界(すなわち、どのようなシナリオではまだ影響がないのか)の両方を分析し、議論します。


利点 
シンボル関連の問題を直接解くことは、様々な理由でLLMsにとって難しい場合があります。S2Lは、言及したタスクをより良く解決するために重要ないくつかの異なるタイプの言語ベースの情報を提供できることを示します。


正確な情報 
1D-ARCタスクで示されているように、ルールを用いた言語ベースの表現は、数列の情報を正確に反映することができます。これは、数を数えるなどのLLMの限界を補うことができ、パターンを要約し結果を推論する能力を高めます。


共起情報 
S2L変換は、文脈とタスクレベルのラベルの間の共起情報を提供します。例えば、絵文字分析における絵文字の記述(例:"怒った顔")と感情次元(例:"怒り")、感情分類における略語の平文(例:"爆笑")と感情極性(例:"ポジティブ")などです。これらの言語レベルの共起は、シンボルベースの問題に補完的な情報を提供できます。

整列情報 
言語ベースの表現は、シンボルベースの表現から直接抽出するのが難しい整列情報も提供できます。例えば、Dyck言語タスクにおける"開"と"閉"の括弧の間の整列関係や、表のコンテンツとヘッダーの間の整列などです。これらの明示的に整列された文脈は、LLMsが複雑なシンボルベースのタスクを推論するのをある程度助けることができます。  

限界 
様々なタスクにおいて異なるモデルでS2Lを検証しましたが、まだいくつかの限界があります。第一に、すべての自然言語以外の表現を簡単に自然言語に変換できるわけではありません。例えば、ARCデータセット(Chollet, 2019)の元の2D視覚的問題は、Xu et al.(2023b)がデータセットの一部に対していくつかの"オブジェクトベース"の表現を試みているものの、言語ベースの表現で記述するのは依然として難しいです。第二に、十分な事前知識を持つ外部ツールに頼ることができないタスクでは、LLMsにプロンプトを与えると、幻覚により誤った記述や説明が生成され、本来直接理解可能だったシンボルの理解を誤らせる可能性があります。


6 結論

シンボルから言語への変換を提案しました。これは、大規模言語モデルを用いて一連のシンボル関連の問題を解決するために、シンボルベースの表現を言語ベースの表現に変換するチューニング不要な手法です。GPT-4、ChatGPT、OpenChatの8つのタスクにおける実験では、シンボルから言語への変換が、抽象的推論、Dyck言語、化学物性予測などのタスクで大幅な改善をもたらすことを示しました。言語の力をさらに活用し、言語ベースの表現の利点を生かし、自然言語で表現される多様な知識を明らかにし、より多くのシナリオで役割を果たすための大規模言語モデルの未開発の可能性を探ることを期待しています。

はい、論文の翻訳は以上で終わりです。主要なセクションをすべて翻訳しました。

この論文では、シンボルから言語への変換(S2L)という手法を提案し、大規模言語モデル(LLMs)を用いてシンボル関連の問題をより良く解決することを目的としています。数値列、括弧文字列、分子式、絵文字、表の区切り文字など、様々なタイプのシンボルを自然言語表現に変換することで、LLMsがより親和性の高い情報で推論できるようにしています。

実験では、抽象的推論、Dyck言語、化学物性予測、絵文字の感情分析、表の理解、ソーシャルメディアのスタンス・感情分析など、8つのタスクにおいてS2Lの有効性を示しました。GPT-4、ChatGPT、OpenChatなどの異なるモデルで一貫した改善が見られ、特に抽象的推論やDyck言語では大幅な精度向上が得られました。

S2Lの利点としては、数列の正確な情報、共起情報、整列情報など、問題解決に役立つ言語ベースの情報を提供できることが挙げられます。一方で、すべてのシンボルを言語に変換できるわけではなく、外部ツールに頼れない場合はLLMsの誤った生成が問題となる可能性があります。

全体として、この論文はシンボルの言語化という観点からLLMsの推論能力を引き出す興味深いアプローチを提示していると言えます。言語の力をさらに活用することで、LLMsの適用可能性を広げる可能性を示唆しています。

この記事が気に入ったらサポートをしてみませんか?