もう一段階深く理解する、Code Interpreterの仕組みについて

2023年8月22日 13:15

Code Interpreterって何？

今までのGPT4のモデルにプラスアルファでpythonの処理を出来るようになった、新しいGPTモデルです。

Pythonを導入した結果、こんなことが新しく出来るようになりました。
ざっくり紹介します。詳細は「出来ることの違い」に記載します。

Codeinterpreter の主な機能

実際のコードの実行
GPT-4 の基本的なモデルは、コードを "模倣" することはできますが、実際にはコードを実行することはできません。
Codeinterpreter を使用すると、実際の Python コードを実行し、その結果をユーザーに返すことができます。

数学的・統計的計算
数式の評価や統計的な分析を直接行うことができます。
例: 平均、中央値、分散などの計算。

データの操作と分析
データセットのアップロードや、そのデータの操作・分析が可能です。
例: CSV ファイルの読み込み、データのフィルタリングや集計。

インタラクティブなシミュレーション
ユーザーとのインタラクションに基づいたシミュレーションや計算を行うことができます。
例: ユーザーが提供する入力に基づいての計算や、特定の問題のシミュレーション。

グラフの生成と可視化
データのグラフィカルな可視化をサポートしています。
例: データの分布を示すヒストグラムや、データのトレンドを示す折れ線グラフ。

思考プロセスの違い

Code Interpreterが何が出来るのか？今までのGPT4のモデルとは何が違うのかを理解するには、まずは今までの既存のGPT4のモデルとCode Interpreterの思考プロセスの違いについて学ぶのが理解への一番の近道です。

Code Interpreterの場合:

Codeinterpreterの仕組み

Codeinterpreterは、GPT-4のテキスト生成能力とPythonの実行環境を組み合わせたシステムです。この組み合わせにより、ユーザーの入力に対して動的なコード実行やデータ操作が可能になります。

主なステップ:
1.ユーザーの入力の解析: ユーザーからの入力はGPT-4によって解析され、何を実行するべきかの指示が生成される。
2.コードの生成: 必要に応じて、実行すべきPythonコードがGPT-4によって生成される。
3.Python実行環境: 生成されたコードはPython環境で実行され、結果や出力が得られる。
4.結果の返却: 実行結果はユーザーに返される。もし可視化や特定のデータ操作が必要な場合、それに関する結果やグラフも提供される。

既存のGPTモデルの場合:

主なステップ:
1.ユーザーの入力の解析: ユーザーからの入力はGPT-4によって解析され、何を実行するべきかの指示が生成される。
2.結果の返却: 実行結果はユーザーに返される。もし可視化や特定のデータ操作が必要な場合、それに関する結果やグラフも提供される。

この違いを見てもらったら一目でわかるようにCode Interpreteは既存のGPTモデルに加えて、その過程で一度

自然言語→プログラミング言語→自然言語

に変換するという作業が加わりました。
これによりPythonでの処理を挟めるようになったため、今までのAIモデルの推論では苦手であった、統計やデータ分析等のLLMの苦手分野をPythonを使うことによって克服しました。

まとめ

難しい説明をしましたが、ざっくり言うと要は

別角度から物を考えれるようになった。
その結果数学が得意になって、プログラミングも実行できるようになった。

です。

何ができるようになったのか？

入力形式が増えた、出力形式が増えたプログラミングのコードを実際にブラウザ上で実行できる、数学が得意になった大体この4つが出来るようになりました。

入力形式

以下のファイル形式に対応しました。

テキスト(txt)
データ形式(csv,xml,json 等)
Microsoft オフィスファイル(docx, xmlx, pptx 等)
画像ファイル(jpg, png, bmp, gif 等)
PDFファイル
ZIPファイル
QRコード
プログラムやhtml,csv などのソースコード
動画ファイル(mp4, avi, mov)

ただし、あくまで理解を出来るのはテキストのみで、画像や動画、その他のテキストベースではないファイルに関しては取り込めて、「さっきのファイルを出して」とお願いすれば出力できますが、その内容は理解していません。

ですので基本的に使えるのは
txt，csv，pdf，プログラミングコード
この4つぐらいでしょう

出力形式

出力形式は多岐にわたり、大体の図やグラフは出力できます。
多すぎて全部はリストアップ出来ないので、その都度GPTに適切な形を聞いて、出力してもらいましょう。

データテーブル
グラフ
チャート
ヒストグラム
散布図 (Scatter plot)

実際の成果物

注意点

グラフや図は日本語のフォントに対応していません。そのため英語での出力を指示しないと以下のように文字化けして出てしまいます。画像1参照

グラフや図を保存する際は最後に.pngと付け、拡張子を変更しましょう。
でないと画像として見れません。

プログラミングを実行できるようになった

これはPythonを思考プロセスに入れた副産物のようなものです。
ユーザーから見た恩恵としては、プログラミングのエラー解析を直接してもらえるようになった。これぐらいだと思います。

数学が得意になった

今までのLLMモデルはどれも次の文字や単語や文脈を予測するというアルゴリズムで動いており、その仕組みは計算には不向きでした。
そのため簡単な計算でも間違った答えを出してしまうことが多々ありました。

ですが、Code Interpreterから思考プロセスにpythonが導入されたことによって、今までの言語的処理ではなく、数学を数学的処理をすることが出来るようになり、これにより数学に関する精度がかなり向上しました。

またプロセスにpythonを使うこともあり、専門的な統計の計算が出来るようにもなりました。

ChatGPTを使って数学の問題を解いたり、議論をしたりする場合は既存のGPT4モデルではなく、Code Interpreterを使用しましょう。

この記事が気に入ったらサポートをしてみませんか？