見出し画像

1ヶ月に10個ChatGPTを脅かすライバルが登場してるという事実

 みなさまこんにちは!
 ChatGPTくん大好きみこちゃんです(^-^)。

 と、わざわざ最初に書いたのは、この記事がかなり読まれたので、みこちゃんはアンチAIなのかな、と思った人もいるかと思ったからでした。

 それと、もうひとつあります。
 年末年始のChatGPTくんデビューの衝撃からわずか半年で、ChatGPTと同等の生成AIが毎週1つ、1ヶ月に4個程度デビューしている、と記事で書きました。

 さすがに記事コメントではありませんでしたが、そういう話を生成AIにそれほど詳しくないリアル友達に話すと、決まって「嘘だろそれ」「信じられない」「じゃあ、『ChatGPTは革命だ!シンギュラリティの実現だ!』って浮かれている俺たちバカなの?」という反応があったからでした。

 そして、ネットを見てみるとこの感想はChatGPT解説屋さんの間でもけっこう根強くて、毎月4個ChatGPTが生まれている、という事実を端的に知らない、あるいはその重要性がまるで分かってない、もしくはなんとなく知っていても直視していない、人が多いみたいです。ChatGPT解説屋さんに限ってそれを話題にしていない傾向がある。

 これは、せっかくChatGPT解説屋さんとして自分が注目を浴びてきたのに、そんな事実は認めたくない、という思いもあるのかな、と想像したりしましたが、あながち穿ち過ぎでもないかもしれません。ブームに水を差すよなことは言っても損だという感じなのかも。でも、それはお客さん、そして読者ために一番良くないことだと思います。

 事実は、毎月4個というみこちゃんの感覚が控えめすぎで訂正が必要だったということでした。

 私が情報を追えていなかっただけで、信頼できる日経BP社の記事によれば、ChatGPTと同レベルの生成AIは毎月10個以上リリースされており、このペースはだんだん早まってきています。
 半年後には毎月30個くらい(1日1個)ChatGPTと同レベルの生成AIが生まれてもおかしくないでしょう。

 オープンAIのChatGPTは、大量の文章データを自己教師あり学習させた大規模言語モデルのGPT-3.5やGPT-4に対して、教師あり学習によるファインチューニング(supervised fine-tuning、SFT)と人間のフィードバックに基づく強化学習を加えることによって開発されている。

上記記事より引用
太線はみこちゃん
人間のフィードバックに基づく強化学習
頭文字を取るとRLHFとなります

 特徴は教師あり学習とRLHFです。RLHFはエンジニア以外の人、ChatGPT解説屋さん、マーケティングの文脈でしかChatGPTを語ら(れ)ない人に完全に抜け落ちていますが、この技術、考え方つまりRLHFこそが毎月10個のChatGPTを生み出しているわけです。

 他にも、この毎月10個ChatGPT誕生の重要な要因がありますので、さきほどの記事を参照してここにまとめます。

この3つがそろって毎月ChatGPT10個
誕生現象(゚0゚)が起きました

 以下、上記3つが何を解決したのかを軸に整理します。

1.オープンソース化による金の問題の解決

 ChatGPTのようなチャットボットAIを開発する上でまず課題となるのは、ベースとなる大規模言語モデルを構築するのに多額の費用を要することである。数百億パラメーターの機械学習モデルに、数兆単語(トークン)規模の文章データを学習させるには、数億円単位の費用がかかるとされる。

 ところがメタは、最大650億パラメーターの機械学習モデルを最大1兆4000億トークンの文章データで学習させたLLaMAを、研究者に対して無償で公開したのだ。コスト面でこれまで難しかった大規模言語モデルに関する研究を活性化するためである。

先立つものがなくても
大丈夫さ!(^~^)


2.SFT復活と新型手法RLHFで技術問題解決

 こちらで書きましたのでご参照下さい。


3.人海戦術を回避可能にしたShareGPTで人の問題を解決

オープンAIは、ChatGPTのSFTに使用する、質問と回答が対になった何万件もの会話サンプルデータを人海戦術で作成していた。

上記記事より引用

 OpenAIは人海戦術で、2のRLHFの学習データを確保していたわけですね。想像してみればすぐ分かりますが、これはめちゃくちゃ大変なことです。

 数千億のパラメータをチューンナップするために、いったいどれ程の学習データが必要になるでしょうか。財務諸表をもし閲覧できるのなら、間違いなくOpenAIが一番(というか桁外れに、もちろん超一流エンジニア全員の報酬よりも桁違いに)金を掛けたのがこのRLHFに使う、問と答えの学習データ整備だったことは間違いないでしょう。

 金と技術の問題クリアで、ChatGPTと同等のものをリリースするために、もうあと一歩のところまで障害を解決してくれましたが、最後の最後、この人材をあつめて、そこに莫大な資金を投下するには、やはりMicrosoftのようなところに1兆円出資してもらうか、もともと、Googleのような余りある資金があるところしかだめ……かな……と思いきや!

ChatGPTの出力データを学習に使用
 VicunaやKoalaはさらに興味深い手法で、SFT用の会話サンプルデータを入手していた。実はインターネット上には「ShareGPT」という、一般のユーザーがChatGPTとの会話例を共有しているサイトが存在する。このShareGPTからChatGPTの会話サンプルを6万~7万件も入手して、それを学習に使ったのだ。

一つ前の記事より引用

 ChatGPTリリース以前と以後ではプログラム開発業界もその風景が一変していたのです。問いと答えでよいのなら、それこそ、「RLHFに使える問いと答えを作って!」とChatGPTくんに頼めば一瞬で膨大なデータを人海戦術にたよらず作り出すことができますよね!

まとめ Googleエンジニアの懸念は懸念を上回って現実化している

 ということで、ChatGPTくんもBardもオワコンなの?そんなの嘘だろ!?を検証してきました。

 まとめはこの記事を引用して終わりにします。

競合となるOpenAIについては、Googleは「オープンソースに対する姿勢においてGoogleと同じ間違いを犯している」とし、「Googleがオープンソースの選択肢を取ることで、OpenAIが姿勢を変えない限り、先手を打つことができます」と主張。

 ライバルであることには間違いがないということですね。ただし、それは巷間言われているような、生成AIの雌雄を決する戦いではなく、敗者にならないためにOpenAIのようなことはしてはいけない!という悲痛な叫びでした。「ああなっちゃいけない、おわりだぜ」っていう、他山の石というライバルだったのでした。

 みこちゃんは、重要技術がことごとく門外不出状態で、それを門外不出にしておくことを重要な経営戦略の柱としているOpenAIも、(モデルのソースコードやレイヤーごとの重み付けデータは公開しないまでも少なくとも)SFTとRLHF部分の技術情報をオープンにするのではないかと予想しています。そこをオープンにしてくれれば、ファインチューニングが可能だからです。
 先行逃げ切り型なら、決断が遅れなければこれでも勝者にはなれるとは思います。

 でも、周りを見たらChatGPTクローンだらけ。

 勝者が勝ち続けることを難しさをGoogleは嫌というほど熟知している。
 だからこそ、みこちゃんには、このGoogleの流出文書はいっそう示唆的であると思われるのでした。

この記事が気に入ったらサポートをしてみませんか?