[GPT要約]論文紹介: 化学研究のためのGPT-4のプロンプトエンジニアリング:何ができるか/できないか?

最近プレプリントに投稿した論文の紹介です。GPTに要約して貰いました。抜粋ですので、詳細は論文をご確認ください。

要点

GPT-4は、有機化学、ケモインフォマティクス、フューショット学習、推論問題、説明変数の選択、沸点の探索、多変数探索、化合物探索、実験のための自動化されたアーム制御など、化学研究の広範なタスクで様々な熟練度を示しました。

  1. GPT-4は一般的な教科書レベルの有機化学知識に高い理解を示しましたが、特殊な内容や特定の化合物の独自の合成方法を扱う際には不十分でした。

  2. ケモインフォマティクスでは、GPT-4は部分的に化合物名をSMILES表記に翻訳することに成功しましたが、訓練データが不足していたため、多くの場合SMILES表記を生成できませんでした。

  3. フューショット学習の能力を活用すると、GPT-4は訓練されていない化合物でも正確な予測ができました。これはGPT-4が限られたデータからでも新しい知識を学習し、適用する能力を示しています。

  4. GPT-4の持つ化学の領域知識は、データ探索時の初期条件設定などに役立ちます。

  5. GPT-4のパフォーマンスは訓練データの質と量に大きく依存しており、推論能力には改善の余地があります。

  6. 進化し続ける深層学習モデルとGPT-4を効率的に化学研究に適用するために、既存の専門技術とのハイブリッドモデルの作成などが考慮されています。


以下、詳細です

アブストラクト

本論文では、化学研究におけるGenerative Pre-trained Transformer 4(GPT-4)の能力と限界を評価しています。GPT-4は驚くべき能力を示しますが、入力データの質がそのパフォーマンスに大きく影響することが明らかになりました。基礎化学知識、化学情報学、データ分析、問題予測、提案能力といった化学タスクにおけるGPT-4の可能性を探求しています。この言語モデルは、ブラックボックス最適化のような伝統的な方法を部分的に上回る性能を示しましたが、専門化されたアルゴリズムに対しては劣る結果となり、これらを組み合わせて使用する必要性を強調しています。論文では、GPT-4に与えられたプロンプトとその応答を共有し、コミュニティ内でのプロンプトエンジニアリングのリソースとして提供しています。また、大規模言語モデルを使用した化学研究の未来についての議論で締めくくっています。

イントロ

人工知能の登場により、2023年3月に公開されたGPT-4などの大規模言語モデル(LLM)は、驚異的な能力を発揮しています。これらのモデルは、化学研究を含む様々な分野で新たな可能性を提供し、複雑な問題を解決し、計画するために広範な知識を適用する能力を持つと考えられています。例えば、GPT-4は化学に関する広範な知識を持ち、それを様々な文脈で適用することができます。その専門知識は化学結合、化学反応の理論、有機化学から物理化学にまで及びます。また、GPT-4は既存の知識に基づいて新たな化学的洞察を導き出し、未知の化合物や反応の結果の可能性を予測することができます。

GPT-4の人工知能としての重要な特徴は、a)化学を含む広範な知識データを保有する能力、b)ある程度の推論能力を発揮すること、c)ウェブ検索エンジン、計算ツール、プログラミング言語などの外部環境と接続する能力です。このLLMは、Wikipediaやクローリングが許可されているウェブサイトから大量のテキストデータを学習しています。特定の学習用データセットは公開されていませんが、GPT-4は一般的な化学知識も学習していると言われています。この言語モデルは、与えられた質問に最も確率の高い答えを提供するように調整されており、適切に応答することが可能です。

GPT-4は、トランスフォーマーと呼ばれる深層学習アルゴリズムによって駆動されています。トランスフォーマーの推論能力は、学習に使用されるデータセットとモデルのサイズとの間に指数関係があると報告されています。GPT-4はこれまでに報告された最大のトランスフォーマーモデルの一つです。学習時に決定されるパラメータ量、すなわちモデルのサイズが特定の規模を超えると、推論能力の不連続的な向上が報告されています(すなわち、突然現れる能力)。これについては議論の余地がありますが、この規模のトランスフォーマーは三段論法を含む論理的推論の能力を獲得することが知られています。したがって、GPT-4が持つ知識とユーザーから提供される少量のデータに基づいて、合理的な推論を行うことが可能です。このような少数の学習ポイントからの推論スタイルは、フューショットラーニングと呼ばれ、GPT-4はこの能力に優れていることがわかっています。

さらに、GPT-4は独立して行うべき次のタスクを考え出し、出力することができます。その出力が新たなプロンプトとして入力に使用されると、GPT-4は自律的に機能することができます。例えば、特別な訓練なしにマインクラフトのようなゲームをプレイすることができます。このモデルは、様々なツールを使って外部世界と対話することもできます。ウェブサイトから最先端の情報を集め、2023年5月現在、ChatGPTのプラグインとして数学計算ツールであるWolframを利用することもできます。GPT-4は数値認識に課題を持つと考えられていますが、専用のツールを使用することでこれを補うことができます。この言語モデルはPythonのようなプログラミング言語でコードを出力し、そのインターフェースを通じてデジタル空間で操作する手段を得ることができます。

最近の深層学習技術の急速な進展を考えると、GPT-5やGPT-6のようなより革新的なモデルがすぐに報告されるかもしれないと期待する人もいるでしょう。しかし、GPT-4の訓練に使用されたスーパーコンピュータはほぼ世界最高レベルのパフォーマンスに達しており、その限界を示しています。GPT-1、2、3、3.5といったGPT-4の前身で見られた急速なバージョンアップグレードは、1~2年ごとのペースで保証されるするわけではありません。これらの条件を考えると、GPT-4のレベルの大規模言語モデルをどのように最善に使用するかが、今後数年間の重要な課題となるでしょう。

ベンチマークテストでは、GPT-4の可能性と限界が評価されます。これらのテストでは、会話、推論、数学、科学などの特定の能力を定量的に評価しますが、実際の化学研究の可能性は完全には理解されていません。GPT-4の化学知識とその応用を評価するためのベンチマークが存在しますが、実際の研究プロジェクトでの広範なタスクをすべてカバーしているわけではありません。

そこで、この論文では、GPT-4の化学における能力と課題を評価するためのいくつかの単純なタスクを設定し、これらのタスクに基づいてそれらを議論します。具体的には、化学の基礎知識、情報科学における分子データの取り扱い、データ分析スキル、化学問題に対する予測能力、提案能力を評価しました。大規模言語モデルが化学研究に何を貢献でき、また何をまだ実現できないのかを明確にしながら、既知の研究を紹介して結果を位置づけます(図1)。また、この論文のもう一つの目的は、GPT-4に与えられたすべてのプロンプトとその応答をサポーティング情報として共有し、化学タスクのプロンプトエンジニアリングの方法をコミュニティと共有することです。本稿の最後には、一連の結果に基づいて、大規模言語モデルを使用した化学研究の課題と展望について議論します。


3章 化学知識のチェック

このセクションでは、GPT-4がどの程度化学について知識を持っているかを評価します。

3.1 化合物に関する知識: GPT-4は、一般的な化合物の物理的性質や化学的性質について正確な知識を持っています。例えば、トルエンの化学的性質について詳細に説明できます。さらに、テキストブックには含まれていない専門的な知識も理解していますが、一部の専門的な化合物(例:4-シアノTEMPO)についての情報は提供できませんでした。

3.2 物理化学の知識: GPT-4は大学のテキストブックレベルの物理化学の知識を持っています。例えば、理想気体の法則やローレンツ・ローレンツの方程式を理解しています。しかし、学術論文レベルの知識は持っていません。

3.3 有機化学の知識: GPT-4は一般的な有機化学のテキストブックに書かれている内容を理解しています。例えば、アセトアミノフェンの合成経路を正確に説明できます。しかし、アセトアミノフェンの具体的な実験手順を提供することはできませんでした。また、有機合成の応用問題についても正しく解決することはできませんでした。

応用問題

以上の結果から、GPT-4は一部の基本的な化学の知識を持っていますが、専門的な知識や実験手順、学術論文レベルの知識は持っていないことが示されています。

4章 マテリアルズ・インフォマティクス/ケモインフォマティクス関連

4.章の「ケミインフォマティクスとマテリアルズ・インフォマティクス」を要約すると、GPT-4は化学とデータ科学の視点から化学構造と特性の相関を扱うケミインフォマティクスとマテリアルズ・インフォマティクスの分野で高い期待を受けています。

4.1 節「化合物名とSMILES変換」では、GPT-4が化学構造を表現するための標準的なSMILES記法と化合物名とを互いに変換できることが確認されました。ただし、より複雑な構造の変換には失敗しています。

4.2 節
「推論」では、GPT-4が分析、結果予測、研究方向の提案等、推論問題に応用できることが期待されています。GPT-4は既存の知識を活用し、問題を解く能力を示しています。

酸化還元電位の順番がこのようになる理由を考えさせる。 一部正解、一部は不正解

4.3 節「特性予測」では、GPT-4が少数の学習データから新しい化合物について学習する能力を持つことが明らかになりました。例えば、TEMPOの酸化還元電位を事前に提供することで、そのシアノ誘導体の酸化還元電位を正確に予測できました。これは従来のケミインフォマティクスから見ると驚くべき成果であり、GPT-4がワンショット学習を使った予測能力を持つことが示されました。

one-shot推論が可能


4.4 計画(単一変数の最適化)
情報学の究極的な目標の一つは、研究プロセス自体の自動化です。これを実現するためには、回帰モデルが予測をするだけでなく、次に追求するべき実験条件を提案する必要があります。GPT-4の能力に基づいて、より少ない指示で自律的な研究活動を行う可能性があります。ここでは、分子の沸点を探索するタスクを設定しました。GPT-4は、沸点を予測するタスクに関しては、既存の知識との高い親和性を持つため、優れたパフォーマンスを示しました。しかし、GPT-4が常に最適な変数検索を行うわけではないことに注意が必要です。一方、GPT-4の数学的能力の制限は、エンジニアリングのアプローチを通じて緩和することが可能です。

Pressureが1になる条件を探索。GPTは当たりの付け方が上手いが、放っておくとおかしな値を探索し始める。Wolframなど数学ツールとの連携で改善可能。

4.5 計画(複数の変数を含む反応条件の最適化) 次の調査段階では、複数の変数を含むより複雑なシステムに焦点を当てました。化合物AとBが1:2の比率で反応し、二次反応を経て化合物Cを生成し、C分子が互いに反応して副生成物Dを形成する化学系を考えてみましょう。ここでは、GPT-4が物理化学の知識を備えているため、情報に基づいた初期条件を設定できました。GPT-4は、反応条件を最適化するために必要な実験条件を5試行以内に見つけることができました。

化合物Cがほしいというタスクを設定する。反応時間が長すぎると、Dが生成してしまい、よくない
GPTは反応時間が長すぎると良くないと知っているので、初期条件の当たりの付け方が上手い

これらの試行結果は、効率的な実験におけるドメイン知識の組み込みの効果を示しています。ただし、GPT-4の言語、データ分析、推論能力は優れていますが、常に十分とは限りません。また、GPTは十分に大きなデータベースを認識できないため、言語計算の相乗効果を引き出すには、Wolframやベイジアン最適化のようなフレームワーク、Pythonのようなプログラミング言語と組み合わせて使用することが必要です。

4.6 黒箱(black box)最適化
GPT-4が非線形の黒箱関数(図7)を最適化する能力を評価しました。ノイズを追加して実験システムを模擬しました。このシステムでは、物理パラメータの重要性が消失するため、GPT-4の利点も消失し、ベイジアン最適化と比較して劣りました。一方、ベイジアン最適化は、確率モデルに基づいて動作するため、データに基づいて理解を調整する能力があります。

4.7 分子探索
GPT-4の化合物最適化能力を試しました。伝統的な手法では、実験研究に適した構造を生成するのは難しいですが、GPT-4は言語計算を用いて、仮想モデリングと実世界の制約との間のギャップを埋めることができます。例えば、我々は自己組織化リソグラフィーに興味のあるブロックポリマーの設計を試みました。(→ 補足: 妥当といえば妥当だが、わりと凡庸な分子構造を提案。 より深い、化学知識の学習が必要)

4.8 物理空間とのシンクロ
GPT-4は、1mLの容量を持つピペットを使って容器1から容器2へ3mLの液体を移動するような、ロボットアームを用いたシンプルな操作を言語コマンドに従って実行できます。自然言語を用いてロボットアームを制御することで、コンピューターやロボット科学の専門家でない化学者でも簡単に扱うことができます。

4.9 LLMによる自律的な研究

また、GPT-4はある程度の推論能力を持っているため、自動研究を行うAIと考えることができます。例えば、GPT-4はマインクラフトというゲームの仮想世界の中で、自律的に決定を下し、行動を取ることができます。同様に、物理空間の中でも研究を含むさまざまなタスクで自律的な進展が期待できます。しかし、GPT-4が人間の研究者と同等の自律的なエージェントを作り出すことにはまだ成功していません。

課題

本節では、GPT-4が化学研究への応用で直面する課題と、その潜在的な解決策を探求します。GPT-4を含むLLMには三つの主要な課題があります:a) 非言語データの取り扱い、b) 専門的で最新の情報の入力、c) LLM自体の推論能力。

まず、GPT-4にとって大きな課題はa) 分子構造や実験データの認識です。テキストベースのAIであるGPT-4は、テーブルやスペクトルのような非テキストベースの情報を適切に解釈する訓練を受けていません。これは、化合物やデータの処理能力が人間の専門家に比べて大幅に劣る結果となっています。たとえば、新しい分子構造を提案することは大きな課題となることがあります。これに対する主な解決策は二つあります。短期的には、分子構造の取り扱いに特化した深層学習モデルやアルゴリズムをLLMのプラグインとして利用することが可能です。長期的な解決策としては、マルチモーダルLLMの開発があります。

次に、b) 技術情報の学習についてです。執筆時点では、GPT-4は2022年9月までの情報しか知らない状態です。しかし、LLMは最先端の化学文献を扱うことができるべきです。この問題に対する主な解決策は二つあります。短期的には、既に実装されている検索アプローチを使用できます。また、専門的なデータをゼロから学習する、あるいはファインチューニングという低コストの手法でローカルLLMを構築する必要があります。

最後に、c) LLM自体の推論能力についてです。LLMは、基本的な数学処理でミスをすることがあり、また誤った知識に基づいて回答を提供することがあります。完全に自動化された化学研究の実現には、長期的な計画能力の向上が求められます。

結論

GPT-4は有機化学、ケモインフォマティクス、フューショット学習、推論問題、説明変数の選択、沸点の探索、多変数探索、化合物探索、実験のための自動化されたアーム制御など、様々なタスクでさまざまな熟練度を示しました。具体的に各タスクを見ると、GPT-4は有機化学の分野における一般的な教科書レベルの知識に高い理解を示しましたが、特殊な内容や特定の化合物の独特な合成方法に対処する際には不十分でした。また、ケモインフォマティクスでは化合物名をSMILES表記に部分的に翻訳することに成功しましたが、多くの場合SMILES表記を生成することはできませんでした。これは訓練データが不足しているためと考えられます。一方、フューショット学習の能力を活用すると、GPT-4は訓練されていない化合物でも正確な予測が可能でした。これらの結果は、GPT-4が化学研究の幅広いタスクに対応でき、教科書レベルの知識から未訓練の問題の解決、多変数の最適化まで対応できることを示しています。しかし、そのパフォーマンスは訓練データの質と量に大きく依存しており、推論能力には改善の余地が大いにあります。今後は、GPT-4よりも高度なモデルを待つ間、既存の専門技術とのハイブリッドモデルを作成するなどして、効率的に化学研究に適用することを検討すべきです。

この記事が気に入ったらサポートをしてみませんか?