GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その3: エージェント化の道筋の模索-

Kan Hatakeyama

2024年10月23日 17:58

はじめに

こちらの記事の続きです｡

その1では､GPT-4oに､日本特有の専門データとして､危険物取扱者試験を解かせてみました｡わりと高得点でしたが､残念ながら､日本の法令や化学・物理化学の問題で躓いてしまったため､惜しくも不合格レベルなことがわかりました｡

その2では､法令中に記載された表を読み込みながら回答することで､回答精度が向上することを確認しました｡

本記事では､より本格的にシステムをエージェント化させる試みを通して､回答精度の向上を測れないかを模索します｡

なぜエージェント化が必要なのか

精度向上に文献調査はほぼ必須

前々回の検討では､GPT-4oにうまくプロンプトを渡すことで､危険物取扱者試験(甲種試験)の合格ライン(各科目60%)を超える精度を達成できることを確認しました｡

60%という回答精度は､人間であれば資格認定(very good)ですが､AIとしては幻覚まみれ(2回に1回くらいは間違える, very bad)という烙印を受けることが多いです｡

人間も単体では､正答率60%以上という不安な判断しか下せません｡一方､実用的なシチュエーションにおいては､適宜､法令や化学テキストなどを参照しながら､自身の信念を確認・修正しながら､精度100%に近い意思決定を行うことができます｡

このような「文献調査」にあたる機構は､大規模言語モデル(LLM)のような人工知能でも原理的には模倣できるはずです｡
単純な検索機構を組み込んだRAGはその代表例ですが､最近はLLMも賢くなってきたので､より本格的な「文献調査」をエージェントとして実行できる可能性が出てきました｡
諸々の実装/プレプリントも発表されはじめています｡

本記事では､「選択肢クイズに回答する」というミッションをこなすためのエージェントシステムの構築可能性を探ります｡

選択肢問題の解き方を整理する

危険物取扱者試験(甲種試験)は選択肢問題を解くタスクです｡
今回は練習がてら､選択肢問題を解くためのプロセスについて考えてみます｡

人間が半ば無意識に選択肢問題を解くためのスキームは以下のようになります｡

はじめに質問を受け取り､次に選択肢を吟味していきます｡
各選択肢には､「XはYであり､ZはWである」といった命題が記述されていますので､その命題の妥当性を､大本の質問と照らし合わせながら検証します｡
命題の妥当性は､自らの信念・知識に加えて､文献調査をしながら検証することが可能です｡

仮に､モデル自身の信念が間違っていた(ハルシネーションしていた)としても､適切な文献調査と情報処理を行うことができれば､回答精度を十分に上げられるはずです*｡

*加えて人間の場合は､他者と意見交換を通して､自身の信念を確認・修正することもできます｡本記事では扱いませんが､この過程はマルチエージェント化で模倣できそうです｡

解く問題

今回は､以下の問題を解きます｡

#クイズ
法に定める各類の危険物の性質、品名について、次のうち誤っているものはどれか。
#選択肢
a. 第１類の危険物は酸化性固体で、塩素酸塩類、亜塩素酸塩類等がある。
b. 第２類の危険物は可燃性固体で、硫黄、黄りん等がある。
c. 第３類の危険物は自然発火性物質及び禁水性物質で、カリウム、アルキルアルミニウム等がある。
d. 第５類の危険物は自己反応性物質で、硝酸エステル類、ジアゾ化合物等がある。
e. 第６類の危険物は酸化性液体で、硝酸、過酸化水素等がある。

https://www.shoubo-shiken.or.jp/exercise/index.html の過去問より引用)

サブタスク: 選択肢を吟味しながら､真実性を検証する

回答にあたっては､エージェントを意識して､問題をサブタスクに分割させながら作文するように指示をしました｡

あなたは優秀な選択肢クイズの解答者です｡

#指示
1. 与えられたクイズを解くのが最大のミッションです｡
2. タスクを解くにあたって､以下のサブタスクを解いていってください｡
3. サブタスク
3.1 与えられた選択肢の内容について､それぞれ箇条書きで､独立した情報として整理する
3.2 箇条書きで書かれた情報の真偽を一つ一つ検証する
3.3 選択肢の真偽を判定する
4. 3の結果をもとに､クイズに回答する

#クイズ
法に定める各類の危険物の性質、品名について、次のうち誤っているものはどれか。
#選択肢
a. 第１類の危険物は酸化性固体で、塩素酸塩類、亜塩素酸塩類等がある。
b. 第２類の危険物は可燃性固体で、硫黄、黄りん等がある。
c. 第３類の危険物は自然発火性物質及び禁水性物質で、カリウム、アルキルアルミニウム等がある。
d. 第５類の危険物は自己反応性物質で、硝酸エステル類、ジアゾ化合物等がある。
e. 第６類の危険物は酸化性液体で、硝酸、過酸化水素等がある。

GPT-4oの回答は以下の通り = (オリジナルの回答)｡

3.1 選択肢の内容を独立した情報として整理

a. 第１類の危険物は酸化性固体である。
- 品名例: 塩素酸塩類、亜塩素酸塩類。

b. 第２類の危険物は可燃性固体である。
- 品名例: 硫黄、黄りん。

c. 第３類の危険物は自然発火性物質及び禁水性物質である。
- 品名例: カリウム、アルキルアルミニウム。

d. 第５類の危険物は自己反応性物質である。
- 品名例: 硝酸エステル類、ジアゾ化合物。

e. 第６類の危険物は酸化性液体である。
- 品名例: 硝酸、過酸化水素。

3.2 情報の真偽を検証
a. 第１類: 酸化性固体、塩素酸塩類、亜塩素酸塩類
真。第１類は酸化性固体で、塩素酸塩類、亜塩素酸塩類が該当。
b. 第２類: 可燃性固体、硫黄、黄りん
真。第２類は可燃性固体で、硫黄や黄りんが該当。
c. 第３類: 自然発火性物質及び禁水性物質、カリウム、アルキルアルミニウム
真。第３類は自然発火性物質及び禁水性物質で、カリウムやアルキルアルミニウムが該当。
d. 第５類: 自己反応性物質、硝酸エステル類、ジアゾ化合物
真。第５類は自己反応性物質で、硝酸エステル類やジアゾ化合物が該当。
e. 第６類: 酸化性液体、硝酸、過酸化水素
誤。第６類の危険物は酸化性液体ではなく、酸類（腐食性物質）で、硝酸、過酸化水素は該当しない。

3.3 選択肢の真偽を判定
a. 正しい
b. 正しい
c. 正しい
d. 正しい
e. 誤っている

4. クイズの回答

誤っているのは e。

正解はbなのですが､誤ってeと回答してしまっています｡Claude-3.5-sonnetも誤答でした｡

方策1: とりあえず文献データを全て突っ込む

GPT-4oが生成した"オリジナルの回答"に加えて､危険物取扱に関する法令文書をそのまま貼り付けて､回答させてみることにしました｡法令文書のどこかに､正しい記述があるはずなので､正しく読解できていれば､自らの誤りに気づくはずです｡

以下のようなプロンプトを投げてみます｡

以下の主張の正しさについて､#文献を注意深く確認し､出典を明示しながら､再検証しなさい｡
a. 第１類: 酸化性固体、塩素酸塩類、亜塩素酸塩類
真。第１類は酸化性固体で、塩素酸塩類、亜塩素酸塩類が該当。
b. 第２類: 可燃性固体、硫黄、黄りん
真。第２類は可燃性固体で、硫黄や黄りんが該当。
c. 第３類: 自然発火性物質及び禁水性物質、カリウム、アルキルアルミニウム
真。第３類は自然発火性物質及び禁水性物質で、カリウムやアルキルアルミニウムが該当。
d. 第５類: 自己反応性物質、硝酸エステル類、ジアゾ化合物
真。第５類は自己反応性物質で、硝酸エステル類やジアゾ化合物が該当。
e. 第６類: 酸化性液体、硝酸、過酸化水素
誤。第６類の危険物は酸化性液体ではなく、酸類（腐食性物質）で、硝酸、過酸化水素は該当しない。

#文献
(以下のjsonをコピペ)

法令文は全体で6.5万文字でした｡json化したものは以下からダウンロードできます｡

結果

残念ながら､参考となりそうな文章を一緒に入力しても､誤った回答(e)のままでした (claude 3.5-sonnetも同様)｡
長い文章から､重要な情報を的確に抜き出す能力が不足していたようです｡
(人間にとっても､6.5万文字の文章を参照しながら､各命題の真偽を細かに検証するのは大変な作業です)

方策2: 重要な情報のみを渡す

今回の問題に答えるために必要な情報は､法令の別表第三（第一条の十一関係）に記載されています｡

"（別表）\n別表第三（第一条の十一関係）\n第一類\n1.\t第一種酸化性固体（キログラム五〇）\n2.\t第二種酸化性固体（キログラム三〇〇）\n3.\t第三種酸化性固体（キログラム一、〇〇〇）\n第二類\n1.\t硫化りん（キログラム一〇〇）\n2.\t赤りん（キログラム一〇〇）\n3.\t硫黄（キログラム一〇〇）\n4.\t第一種可燃性固体（キログラム一〇〇）\n5.\t鉄粉（キログラム五〇〇）\n6.\t第二種可燃性固体（キログラム五〇〇）\n7.\t引火性固体（キログラム一、〇〇〇）\n第三類\n1.\tカリウム（キログラム一〇）\n2.\tナトリウム（キログラム一〇）\n3.\tアルキルアルミニウム（キログラム一〇）\n4.\tアルキルリチウム（キログラム一〇）\n5.\t第一種自然発火性物質及び禁水性物質（キログラム一〇）\n6.\t黄りん（キログラム二〇）\n7.\t第二種自然発火性物質及び禁水性物質（キログラム五〇）\n8.\t第三種自然発火性物質及び禁水性物質（キログラム三〇〇）\n第四類\n1.\t特殊引火物（リットル五〇）\n2.\t第一石油類\no\t非水溶性液体（リットル二〇〇）\no\t水溶性液体（リットル四〇〇）\n3.\tアルコール類（リットル四〇〇）\n4.\t第二石油類\no\t非水溶性液体（リットル一、〇〇〇）\no\t水溶性液体（リットル二、〇〇〇）\n5.\t第三石油類\no\t非水溶性液体（リットル二、〇〇〇）\no\t水溶性液体（リットル四、〇〇〇）\n6.\t第四石油類（リットル六、〇〇〇）\n7.\t動植物油類（リットル一〇、〇〇〇）\n第五類\n1.\t第一種自己反応性物質（キログラム一〇）\n2.\t第二種自己反応性物質（キログラム一〇〇）\n第六類\n1.\t（キログラム三〇〇）",

別表の内容

人間が読むのも難儀ですが､第二類に「黄りん」が含まれていないという点がポイントで､当該問題の正答はbとなります｡

そこで試しに､上記の別表の情報のみを与えて､回答させてみます｡

#指示
以下の主張の正しさについて､#文献を注意深く確認し､出典を明示しながら､一つ一つ再検証しなさい｡

#主張
a. 第１類: 酸化性固体、塩素酸塩類、亜塩素酸塩類
真。第１類は酸化性固体で、塩素酸塩類、亜塩素酸塩類が該当。
b. 第２類: 可燃性固体、硫黄、黄りん
真。第２類は可燃性固体で、硫黄や黄りんが該当。
c. 第３類: 自然発火性物質及び禁水性物質、カリウム、アルキルアルミニウム
真。第３類は自然発火性物質及び禁水性物質で、カリウムやアルキルアルミニウムが該当。
d. 第５類: 自己反応性物質、硝酸エステル類、ジアゾ化合物
真。第５類は自己反応性物質で、硝酸エステル類やジアゾ化合物が該当。
e. 第６類: 酸化性液体、硝酸、過酸化水素
誤。第６類の危険物は酸化性液体ではなく、酸類（腐食性物質）で、硝酸、過酸化水素は該当しない。

#文献
"（別表）\n別表第三（第一条の十一関係）\n第一類\n1.\t第一種酸化性固体（キログラム五〇）\n2.\t第二種酸化性固体（キログラム三〇〇）\n3.\t第三種酸化性固体（キログラム一、〇〇〇）\n第二類\n1.\t硫化りん（キログラム一〇〇）\n2.\t赤りん（キログラム一〇〇）\n3.\t硫黄（キログラム一〇〇）\n4.\t第一種可燃性固体（キログラム一〇〇）\n5.\t鉄粉（キログラム五〇〇）\n6.\t第二種可燃性固体（キログラム五〇〇）\n7.\t引火性固体（キログラム一、〇〇〇）\n第三類\n1.\tカリウム（キログラム一〇）\n2.\tナトリウム（キログラム一〇）\n3.\tアルキルアルミニウム（キログラム一〇）\n4.\tアルキルリチウム（キログラム一〇）\n5.\t第一種自然発火性物質及び禁水性物質（キログラム一〇）\n6.\t黄りん（キログラム二〇）\n7.\t第二種自然発火性物質及び禁水性物質（キログラム五〇）\n8.\t第三種自然発火性物質及び禁水性物質（キログラム三〇〇）\n第四類\n1.\t特殊引火物（リットル五〇）\n2.\t第一石油類\no\t非水溶性液体（リットル二〇〇）\no\t水溶性液体（リットル四〇〇）\n3.\tアルコール類（リットル四〇〇）\n4.\t第二石油類\no\t非水溶性液体（リットル一、〇〇〇）\no\t水溶性液体（リットル二、〇〇〇）\n5.\t第三石油類\no\t非水溶性液体（リットル二、〇〇〇）\no\t水溶性液体（リットル四、〇〇〇）\n6.\t第四石油類（リットル六、〇〇〇）\n7.\t動植物油類（リットル一〇、〇〇〇）\n第五類\n1.\t第一種自己反応性物質（キログラム一〇）\n2.\t第二種自己反応性物質（キログラム一〇〇）\n第六類\n1.\t（キログラム三〇〇）",

結果

Claude-3.5-sonnetを用いた場合､文献情報に基づいた判断ができるようになりました｡

提供された文献と主張を注意深く検証していきましょう。

各主張を順番に分析します：

1. **第１類について(a)**:
- 文献では「第一類」として「第一種酸化性固体」「第二種酸化性固体」「第三種酸化性固体」が列挙されています。
- 主張では「酸化性固体、塩素酸塩類、亜塩素酸塩類」としています。
- しかし、文献には具体的な塩素酸塩類や亜塩素酸塩類の記載はありません。
- 判断: 文献からは完全な検証はできません。酸化性固体という部分のみ確認できます。

2. **第２類について(b)**:
- 文献では「硫化りん」「赤りん」「硫黄」「第一種可燃性固体」等が列挙されています。
- 主張では「可燃性固体、硫黄、黄りん」としています。
- 文献で「硫黄」は確認できますが、「黄りん」は第３類に記載されています。
- 判断: 部分的に誤り。硫黄は正しいが、黄りんは第２類ではなく第３類に分類されています。

3. **第３類について(c)**:
- 文献では「カリウム」「アルキルアルミニウム」等が列挙され、「自然発火性物質及び禁水性物質」という分類も明記されています。
- 主張の記述は文献と完全に一致します。
- 判断: 正しい。

4. **第５類について(d)**:
- 文献では「第一種自己反応性物質」「第二種自己反応性物質」が記載されています。
- 主張では「自己反応性物質、硝酸エステル類、ジアゾ化合物」としています。
- しかし、文献には具体的な硝酸エステル類やジアゾ化合物の記載はありません。
- 判断: 文献からは完全な検証はできません。自己反応性物質という部分のみ確認できます。

5. **第６類について(e)**:
- 文献では具体的な分類名称の記載がなく、数値（キログラム 300）のみ記載されています。
- 主張では「酸化性液体ではなく、酸類」としていますが、文献からはこれを直接確認できません。
- 判断: 文献からは検証できません。

総合的な結論:
- 提供された文献だけでは、全ての主張を完全に検証することはできません。
- 明確に誤りと指摘できるのは、黄りんを第２類に分類している点です（実際は第３類）。
- より正確な検証のためには、危険物の詳細な定義や分類を含む追加の公式文献が必要です。

(GPT-4o､openai-o1では､十分な読解ができず､正解に至りませんでした)

ミニまとめ

フロンティアモデルであっても､細かな日本の法令などについての間違いを一定確率で犯す｡
Claude-3.5-sonnetなどの一部のモデルは､正しい情報を適切な長さで与えてあげることで､内容を読解し､正解にたどり着くことができる｡
正答を与える上で重要なのは､「正確かつ簡潔な情報をモデルに与えること」､「文章をきちんと読解できるモデルを使うこと」の2点に､集約される｡

正確かつ簡潔な情報を自動抽出して回答させる

RAGの肝は検索と言われますが､重要な情報を検索するのは､非常に難しいです｡
そうした中で､大規模言語モデルそのものを検索・情報抽出に用いるというアプローチが現実味を帯びてきています*｡

*コンテキスト長の増大､推論コストの低下などの恩恵｡以下参照

Claudeによる情報抽出

今回は最もシンプルな力技として､Claudeにざっくり情報抽出してもらうことにしました｡
先程のプロンプトと同様､法令文書を丸々与えた上で､回答に必要そうな情報抽出のみをさせる指示にしました｡

#指示 以下の主張の正しさを検証するために必要なテキストについて､#文献をもとに､箇条書きで大量に抽出して､引用する形で生成しなさい｡主張の真偽については検証しないこと｡

a. 第１類: 酸化性固体、塩素酸塩類、亜塩素酸塩類
真。第１類は酸化性固体で、塩素酸塩類、亜塩素酸塩類が該当。
b. 第２類: 可燃性固体、硫黄、黄りん
真。第２類は可燃性固体で、硫黄や黄りんが該当。
c. 第３類: 自然発火性物質及び禁水性物質、カリウム、アルキルアルミニウム
真。第３類は自然発火性物質及び禁水性物質で、カリウムやアルキルアルミニウムが該当。
d. 第５類: 自己反応性物質、硝酸エステル類、ジアゾ化合物
真。第５類は自己反応性物質で、硝酸エステル類やジアゾ化合物が該当。
e. 第６類: 酸化性液体、硝酸、過酸化水素
誤。第６類の危険物は酸化性液体ではなく、酸類（腐食性物質）で、硝酸、過酸化水素は該当しない。

#文献
…

その結果､以下のようなメモ書きが生成されました｡

推論

Claudeが作ったメモ書きをもとに推論をさせてみます｡

#指示
以下の主張の正しさについて､#文献を注意深く確認し､出典を明示しながら､一つ一つ再検証しなさい｡

#主張
a. 第１類: 酸化性固体、塩素酸塩類、亜塩素酸塩類
真。第１類は酸化性固体で、塩素酸塩類、亜塩素酸塩類が該当。
b. 第２類: 可燃性固体、硫黄、黄りん
真。第２類は可燃性固体で、硫黄や黄りんが該当。
c. 第３類: 自然発火性物質及び禁水性物質、カリウム、アルキルアルミニウム
真。第３類は自然発火性物質及び禁水性物質で、カリウムやアルキルアルミニウムが該当。
d. 第５類: 自己反応性物質、硝酸エステル類、ジアゾ化合物
真。第５類は自己反応性物質で、硝酸エステル類やジアゾ化合物が該当。
e. 第６類: 酸化性液体、硝酸、過酸化水素
誤。第６類の危険物は酸化性液体ではなく、酸類（腐食性物質）で、硝酸、過酸化水素は該当しない。

#文献
# 第１類の検証用引用
- 第１類が酸化性固体であることを示す文献：
別表第三より
(略)

推論の結果､Claudeは主張bが誤りであることに気づくことができました｡
結果は以下の通り｡

提供された主張と文献に基づき、一つずつ検証していきます。

主張a「第１類: 酸化性固体、塩素酸塩類、亜塩素酸塩類」について:


文献から第1類が「酸化性固体」であることは確認できます。
しかし、提示された第一条の引用文では塩素酸塩類や亜塩素酸塩類は明示的には記載されていません。
記載されているのは「次亜塩素酸塩類」等です。
→ したがって、この主張は完全には検証できません。


主張b「第２類: 可燃性固体、硫黄、黄りん」について:


文献の別表第三から、第2類に「硫黄」が含まれることは確認できます。
ただし、「黄りん」は第3類に分類されていることが別表第三から確認できます。
→ したがって、この主張は誤りです。


主張c「第３類: 自然発火性物質及び禁水性物質、カリウム、アルキルアルミニウム」について:


文献の別表第三から、第3類に「カリウム」と「アルキルアルミニウム」が含まれることは確認できます。
また、「自然発火性物質及び禁水性物質」という分類名も確認できます。
→ したがって、この主張は正しいです。


主張d「第５類: 自己反応性物質、硝酸エステル類、ジアゾ化合物」について:


文献から第5類が「自己反応性物質」であることは確認できます。
しかし、提示された第一条の引用では「硝酸エステル類」や「ジアゾ化合物」は明示的には記載されていません。
→ したがって、この主張は完全には検証できません。


主張e「第６類: 酸化性液体、硝酸、過酸化水素」が誤りであることについて:


文献の別表第三から第6類の分類は確認できますが、具体的な性質は示されていません。
硝酸や過酸化水素について、提供された別表第二の引用では「硫酸」しか確認できず、これらの物質の分類を直接確認することはできません。
→ したがって、この主張の正誤は提供された文献からは完全には検証できません。

結論として、提供された文献から完全に検証できるのは主張cのみです。他の主張については、文献が不足しているか、矛盾する情報が含まれています。より正確な検証のためには、追加の公式文献が必要です。

最後に､最も誤った選択肢を聞いてみたところ､正しい答えが返ってきました｡

情報抽出と判断の作業を分けることが､今回は重要でした｡
情報抽出しながら判断しろというプロンプトでは､誤答(e)のままのケースが多かったです｡できるだけ先入観を持たせずに､情報抽出させる作業が必要そうです｡

まとめ

本記事では､モデル自身の知識のみでは正答できない専門的な問題を解くためのRAGの枠組みについて､軽く検討しました｡

分かってきたポイントは以下のとおりです｡
(当たり前のことばかりが書かれていますが､こうした内容も､自分で手を動かしていくことで､理解が深まります)

読解力の高いモデルに対して､適切な文献情報を与えることで､モデル自身が持つ誤った信念を修正しながら､正しい回答にたどり着くことができる
- 検証では､Claude-3.5-sonnetがGPT-4oよりも高性能だった
- ただしClaude-3.5においても､文献に無関係な文章が多く含まれすぎると､正しい読解ができなかった
適切な文献情報を探すというタスクに対しても､大規模言語モデルの活用は有効なことが分かった
- キーワード検索やベクトル検索､ランキングモデルなどと比べても､モデルが大きい分､「いい感じ」に検索・情報抽出してくれる手応え得られてきた
- 推論コストの低下に伴い､大規模言語モデルによる文献抽出を現実的なコストで行える可能性が高まってきた

今後のTODO

今回行ったような調査の枠組みの自動化(エージェント化)
- フレームワークの構築
- ローカルモデルによる検索の低コスト化
今回行ったようなLLM付きのRAGの限界点の見極め
- 無制限に推論コストを上げたときに､精度はどのあたりで頭打ちするか
- Inference Scaling for Long-Context Retrieval Augmented Generation論文などとの整合性の確認
- 参照すべきデータのサイズが増えたときに､どの程度のペースで精度が落ちるか
知識グラフ系RAGとの比較
- 利点: 知識グラフは検索コストが低そう
- 課題: 知識グラフ生成のコスト､情報損失
…