見出し画像

OpenAI流のChatGPT(OpenAI API)への外部データ利用ガイド

OpenAI社より、API経由でGPTを使用する際に外部データを活用してQ&Aする「作例ガイド」が公開されましたね。

これを使いこなすことができれば、ChatGPTの最大の泣き所である「好き勝手なデータを基にした会話ができない」という問題を解消できます。

Wikipediaのデータを使った例ですが、きちんとデータフレームを作ることができれば、他のデータにも応用できそうです。

簡単に言うと、

  1. テキストデータをデータフレームにする

  2. データをトークンサイズによって分割しセクション化する

  3. 質問クエリに対して関連性の高いセクションを検索する

  4. そのセクションのデータをGPTへのクエリに入れて、参考にしながら回答させる

という流れの様です。
思いのほかシンプルですね。

テキストをデータフレームにする部分は下記にあります。OpenAIのAPIのEmbeddedを使うんですね。

肝心の「関連性が高い」という部分ですが、どうやら「コサイン類似度」というもので判断されている様です。「どうやら」というのはChatGPT(GPT-4)に聞いた受け売りだからです。
ここの信頼度というか、アルゴリズム理解できていないので各々検証ください。(普通のおっさんには難しいので許して!)

まあ、OpenAIが例に出しているくらいなのである程度信頼できる内容なのだろうと思っております。(投げっぱなし)

と、ここまで書いてから気になって似たような事の実現について調べてみたんですが、有名なLangChainとほとんどやってる事同じかもしれないですね。それならLangChain使えば良いかも。あれ高機能っぽいし。

まあ、原理の理解のメモという事で…。
LangChainをあまり使いたくない場合など(仕事で使う上で問題あるケースなど)では役に立つかとおもいます。

この記事が気に入ったらサポートをしてみませんか?