GPTによるデータの自動分析と自律型研究の可能性

※筆者の主観と独断に基づくpromptからGPT-4が自動生成した記事です。不正確な内容が多々含まれる可能性があるので、ご了承ください。

関連tweetはこちら

本文

背景: 近年、データ科学が盛んになっています。データ分析の基本的なスキームは、1. 事前(ドメイン)知識に基づくデータ前処理、2. データ分析、3. 回帰・分類モデルなどの活用、4. 考察が一般的です。そこで、GPTを用いて自律的にデータ解析ができるか検証してみました。

検証結果の概要: タスクとして、未知の関数 y=f(x1,x2,x3,x4)について、ランダムに生成したデータを与えてfについて考察させることにしました。今回はy=x1+x3*x4という純粋に数学的な問題を与えましたが、例えば化学の研究も融点=f(分子構造)のような関数解析の範疇に含まれます。

AIへの指示として、Pythonを使って解析するように明示しました。これがないと、複雑で分からない、または相関があるかもしれないがそれ以上は分からないといった回答が返ってきます。
(筆者注: 記憶容量的に、GPT単体で推論をさせることには限界がありそうです。こちらの記事を参照)

指示を出すと、まずは線形の回帰モデルで解析しましょうという話になり、そのためのPythonスクリプトが返ってきました。その実行結果を渡すと、一応の考察結果が返ってきました。次の試行はランダムフォレスト系で、結果を渡すと考察が返ってきました。いずれもデータ科学のアプローチとしては、定石です。

今後の展望: 自律型GPTの重要性が増しています。現在は一般論に基づいた解析しかできていませんが、今後以下のことが可能になるでしょう。

  1. 与えたデータベースの特徴に基づき、Webや文献から解析のためのドメイン知識を獲得する。

  2. その結果に基づき、変数の取捨選択、期待される関数形状の推定、試すべき予測・分析モデルの取捨選択をする。

  3. 一連の結果に基づき、次に行うべき実験条件などの提案をする。

これまで「人間」がベイズ最適化のような「弱いAI」を使い回していましたが、今後は「人間」が「GPT」に置き換わる可能性があります。さらに、実験もロボットで自動化されると、多くの「最適化系の実験研究」で人間が不要になるでしょう。このような研究は、基本的にマンパワーと根性が必要な世界であるため、自動化の恩恵は大きいと言えます。

まとめ: GPTによるデータ分析の検証結果から、データサイエンティストが行っている一部の仕事がGPTによって代替される可能性があります。今後の自律型GPTの発展により、データ解析や実験の効率化がさらに進むことが期待されます。これにより、データ科学の分野において、より高度な研究や効率的な開発が進められることでしょう。

参考: prompt

以下の筆者のメモを技術系のテイストのblog記事に纏めてください。ですます調で。ロジックの抜け・飛躍、そして未定義の専門用語が多くあるので、懇切丁寧に補足してください。メモの内容は網羅してください

topic: GPTにデータ分析をさせる話

背景: データ科学が盛ん。ただし基本的なスキームは共通しており、1.事前(ドメイン)知識に基づくデータ前処理、2.データ分析、3.回帰・分類モデルなどの活用、4.考察 である。
なので、GPTに自律的に解析させられるかもしれないという話

検証結果の概要:
こちらのtweetを参照
https://twitter.com/kanhatakeyama/status/1646291183503822849

タスク: 未知の関数 y=f(x1,x2,x3,x4)について、ランダムに生成した数軒のデータを与えてfについて考察させる。今回はy=x1+x3*x4という純粋に数学的な問題を与えたが、例えば化学の研究も、融点=f(分子構造)のような自然現象に関する、関数解析の範疇に含まれる。

AIへの指示として、pythonを使って解析しろと明示。
これがないと、「複雑で分からない」とか、「x1と相関しているかもしれないが、それ以上は分からない」といった回答が返ってくる

指示を出すと、まずは線形の回帰モデルで解析しましょうという話になり、そのためのpython scriptが返ってくる。
※pythonを使わず、GPTに全て処理させるのは現状では恐らく困難。以下の記事を参照
https://note.com/kan_hatakeyama/n/nd62c5eb19bca

その実行結果を渡すと、一応の考察結果が返ってくる。

次の試行はrandom forest系で、結果を渡すと、考察が返ってくる。
いずれもデータ科学のアプローチとしては、わりと定石。
このような感じで、データサイエンティストがやっている仕事がGPTによって一部代替されうることが判明

今後: やはり自律型GPTが重要。現在は一般論に基づいた解析しかできていない。
今後、やればできること(あるいは世界の誰かが既にやっていること)

  1. 与えたデータベースの特徴に基づき、webや文献から解析のためのドメイン知識を獲得

  2. その結果に基づき、変数の取捨選択、期待される関数形状の推定、試すべき予測・分析モデルの取捨選択をする
    (3. 一連の結果に基づき、次に行うべき実験条件などの提案をする)

これまでは、ベイズ最適化のような「かなり弱いAI」を「人間」が使い回していた。この「人間」が「GPT」に置き換わる予感。そして実験もロボットで自動化すれば、多くの「最適化系の実験研究」は人間が不要になる。この類いの研究は、基本的にマンパワーと根性が必要な世界なので、自動化の恩恵は大きい

この記事が気に入ったらサポートをしてみませんか?