ChatGPTを分かってるようで分かってない自分に

最近のTwitterのタイムライン、めちゃくちゃChatGPTやLLMなどAIに関する投稿で溢れている。そのようなツイートを毎日見かけるので、「ざっくりと」分かっているように思っているのだが、自分ではアウトプットする機会がないので、一旦知ってる情報を雑に書きなぐっていくというNoteです。
「ChatGPTってどんなふうにできてるん」というのと「それでどうなるん」が大きな論点。

ChatGPTの仕組み

ベースはGPT3.5というLLMを使っており、そこから3つのステップで改善され、ChatGPTに変身します。

GPTってそもそもどんな仕組みやねんというのはまた別のお話

ステップ 1. 教師あり学習でファインチューニングする

人間が頑張ってQ&Aを自作して、それをAIに教え込む
(正確には、ゼロから教え込むのではなく、すでにあるGPT3.5をファインチューニングする)。

例えば、
Q:「強化学習を6歳児に分かるように教えて」

A:「いいことをしたらアメちゃんをもらえるけど、悪いことをしたらもらえないようにして、いいことをするようにさせる教え方だよ〜」

このQ&Aを人間が頑張って作成するという話(その数、13,000ほど)。40人ぐらいの人がこの作業を担当した。すごい。
ここで作成されたモデルは、SFTくんと呼びます。
※ SFT:Supervised Fine-tuningの略です。

ステップ 2. 報酬モデルをつくる

ステップ1.で作ったSFTくんに、質問(プロンプト)を投げて、回答を複数(4-9個)出してもらいます。その中から、人間がどれが一番いいかランク付けして、SFT君とは別の報酬モデルに学習させていきます。この報酬モデルは、RMさんと呼びます。
※ RM:Reward Modelの略です。

例えば、
Q:「月を6才児が分かるように説明して」

A1:「月は、夜になったら光って現れる丸いやつだよ」
A2:「月は地球から一番近いところにある天体で、地球から約38万kmの距離を回る衛星です」
A3:「月の重力って、地球の1/6やねん」
A4:「fdfdsgsfgasgfga(全く関係ない説明)」

回答の良さは、A1 > A2 > A3 > A4の順。この採点結果をRMさんに教えて、採点基準を学習してもらう。

ここで作成されたRMさんは、SFTくんの先生としてステップ3で使われます。

ステップ 3. 強化学習

SFTくんに回答させ、RMさんにその回答を採点してもらう。その点数をSFTくんが見て、回答内容を改善するというループを回していきます。

上記のまとめは、OpenAIのサイトに公開されています。また、松尾研究所による日本語の解説スライドもあります。

出典:OpenAI
出典:松尾研究所

できたモデルはどうやって評価してるの?

ChatGPTが吐き出した回答を見て、人間が主観的に良し悪しを決めています。(いくつかの評価指標はありますが)

ChatGPT(というかAGI)が出てきたら、どうやってAIで差別化すればいいんだ!

ChatGPTほど「なんでも知ってる・生成できるAI」が出てくると、当然こういう話になります。これまでのAIといえば、どちらかというと「法律のAI」、「翻訳AI」など、領域特化型のモデルを頑張って作っていくというイメージでした。各社が手塩にかけて育ててきたAIプロダクト・事業は、汎用的AIに吸収されていくのでしょうか?

これに対しては、まだ分からないというのが正直なところだと思います。この論点に関しては、LayerXの福島さんや、MNTSQの板谷さんなどの起業家Noteが参考になるかと思います。

おふたりともB2B SaaSの起業家ですが、彼らに共通しているのはやはり「AI開発能力以外のところで差別化を図る」という意識です。

福島さんのポイント
1. ワークフローを抑える
2. 重要なデータポイントをおさえる

板谷さんのポイント
1. 「データを押さえる」
2.「業務フローを押さえる」
3.「AI自体でも突き抜ける」← ここは一旦おいときます

つまり、「AIとかは一旦さておき、そもそもの顧客課題をよく理解し、プロダクトが多くの顧客にとってかけがえのない存在になっている状態を目指す」ということ。そして、「そのような立場にいることで他社にはないデータを獲得し、さらに洗練されたAIモデルを提供する」ということ。

逆に、すでにそういったプロダクトがあるなら、AIを使って付加価値を出すことは大きな事業価値を生み出しますよね。

巷で話題のNotionAIやSalesforceのEinstein GPTもそうですし、OpenAIがMicrosoftというB2Bソフトウェア業界の覇者と組んだ最大の理由といえるでしょう。

時間があるときにこのNoteの資料も目を通しておこう…


この記事が気に入ったらサポートをしてみませんか?