1ヶ月に10個ChatGPTを脅かすライバルが登場してるという事実
みなさまこんにちは!
ChatGPTくん大好きみこちゃんです(^-^)。
と、わざわざ最初に書いたのは、この記事がかなり読まれたので、みこちゃんはアンチAIなのかな、と思った人もいるかと思ったからでした。
それと、もうひとつあります。
年末年始のChatGPTくんデビューの衝撃からわずか半年で、ChatGPTと同等の生成AIが毎週1つ、1ヶ月に4個程度デビューしている、と記事で書きました。
さすがに記事コメントではありませんでしたが、そういう話を生成AIにそれほど詳しくないリアル友達に話すと、決まって「嘘だろそれ」「信じられない」「じゃあ、『ChatGPTは革命だ!シンギュラリティの実現だ!』って浮かれている俺たちバカなの?」という反応があったからでした。
そして、ネットを見てみるとこの感想はChatGPT解説屋さんの間でもけっこう根強くて、毎月4個ChatGPTが生まれている、という事実を端的に知らない、あるいはその重要性がまるで分かってない、もしくはなんとなく知っていても直視していない、人が多いみたいです。ChatGPT解説屋さんに限ってそれを話題にしていない傾向がある。
これは、せっかくChatGPT解説屋さんとして自分が注目を浴びてきたのに、そんな事実は認めたくない、という思いもあるのかな、と想像したりしましたが、あながち穿ち過ぎでもないかもしれません。ブームに水を差すよなことは言っても損だという感じなのかも。でも、それはお客さん、そして読者ために一番良くないことだと思います。
事実は、毎月4個というみこちゃんの感覚が控えめすぎで訂正が必要だったということでした。
私が情報を追えていなかっただけで、信頼できる日経BP社の記事によれば、ChatGPTと同レベルの生成AIは毎月10個以上リリースされており、このペースはだんだん早まってきています。
半年後には毎月30個くらい(1日1個)ChatGPTと同レベルの生成AIが生まれてもおかしくないでしょう。
特徴は教師あり学習とRLHFです。RLHFはエンジニア以外の人、ChatGPT解説屋さん、マーケティングの文脈でしかChatGPTを語ら(れ)ない人に完全に抜け落ちていますが、この技術、考え方つまりRLHFこそが毎月10個のChatGPTを生み出しているわけです。
他にも、この毎月10個ChatGPT誕生の重要な要因がありますので、さきほどの記事を参照してここにまとめます。
以下、上記3つが何を解決したのかを軸に整理します。
1.オープンソース化による金の問題の解決
2.SFT復活と新型手法RLHFで技術問題解決
こちらで書きましたのでご参照下さい。
3.人海戦術を回避可能にしたShareGPTで人の問題を解決
OpenAIは人海戦術で、2のRLHFの学習データを確保していたわけですね。想像してみればすぐ分かりますが、これはめちゃくちゃ大変なことです。
数千億のパラメータをチューンナップするために、いったいどれ程の学習データが必要になるでしょうか。財務諸表をもし閲覧できるのなら、間違いなくOpenAIが一番(というか桁外れに、もちろん超一流エンジニア全員の報酬よりも桁違いに)金を掛けたのがこのRLHFに使う、問と答えの学習データ整備だったことは間違いないでしょう。
金と技術の問題クリアで、ChatGPTと同等のものをリリースするために、もうあと一歩のところまで障害を解決してくれましたが、最後の最後、この人材をあつめて、そこに莫大な資金を投下するには、やはりMicrosoftのようなところに1兆円出資してもらうか、もともと、Googleのような余りある資金があるところしかだめ……かな……と思いきや!
ChatGPTリリース以前と以後ではプログラム開発業界もその風景が一変していたのです。問いと答えでよいのなら、それこそ、「RLHFに使える問いと答えを作って!」とChatGPTくんに頼めば一瞬で膨大なデータを人海戦術にたよらず作り出すことができますよね!
まとめ Googleエンジニアの懸念は懸念を上回って現実化している
ということで、ChatGPTくんもBardもオワコンなの?そんなの嘘だろ!?を検証してきました。
まとめはこの記事を引用して終わりにします。
ライバルであることには間違いがないということですね。ただし、それは巷間言われているような、生成AIの雌雄を決する戦いではなく、敗者にならないためにOpenAIのようなことはしてはいけない!という悲痛な叫びでした。「ああなっちゃいけない、おわりだぜ」っていう、他山の石というライバルだったのでした。
みこちゃんは、重要技術がことごとく門外不出状態で、それを門外不出にしておくことを重要な経営戦略の柱としているOpenAIも、(モデルのソースコードやレイヤーごとの重み付けデータは公開しないまでも少なくとも)SFTとRLHF部分の技術情報をオープンにするのではないかと予想しています。そこをオープンにしてくれれば、ファインチューニングが可能だからです。
先行逃げ切り型なら、決断が遅れなければこれでも勝者にはなれるとは思います。
でも、周りを見たらChatGPTクローンだらけ。
勝者が勝ち続けることを難しさをGoogleは嫌というほど熟知している。
だからこそ、みこちゃんには、このGoogleの流出文書はいっそう示唆的であると思われるのでした。
この記事が気に入ったらサポートをしてみませんか?