見出し画像

ChatGPT振り返り

2023年の、最大のニュースといえばChatGPTのリリースであることに疑問の余地はないと思われます。
流行語にはなりませんでしたが、スマホが流行語になってないようなものかもしれません。

そういうわけで、ChatGPTのリリースも(来年までは)ひと段落したのでここらで一度振り返りを行っていきたいと思います。
今日(昨日)で1周年らしいですねChatGPTくんがリリースされて。
簡単な年表は↓にまとめています。

2018/6/11: GPT1論文公開
https://openai.com/research/language-unsupervised
2020/5/28: GPT3論文公開
https://arxiv.org/abs/2005.14165
2022/3/4: InstructGPT論文公開
https://arxiv.org/abs/2203.02155
2022/11/30 : ChatGPT リリース (GPT-3.5リリース)
2023/ 2/1: OpenAI が ChatGPT Plus を開始、月額 20 ドルから
2023/ 2/7: Microsoft が ChatGPT を組み込んだ新しい Bing を発表
2023/ 3/1: OpenAI が ChatGPT の API を開始
2023/ 3/9: ChatGPT は Azure OpenAI サービスで利用可能に
2023/ 3/14: ChatGPT-4公開(APIとしてwaitlist)
2023/ 3/23: ChatGPT のプラグインを開始(waitlist)
2023/ 3/31: イーロン・マスク氏, 専門家1000人が公開書簡に署名
2023/ 3/31: イタリア、チャットGPT使用禁止
2023/ 4/4: OpenAI, イタリアからの接続を停止
2023/ 4/03: 東京大学が生成AIに関するアナウンス
2023/ 4/06: 文部科学省が教育現場で生成AIを活用する際の教育指針取りまとめ予告
2023/ 4/10: OpenAICEO来日、岸田首相と対談(対談資料)
2023/ 5/13: Plugin リリース
2023/ 7/06: GPT-4 Code Interpreter リリース
2023/7/20: Custom instruction リリース
2023/ 8/22: GPT3.5 Fine-tuning リリース
2023/ 9/25: ChatGPT-4V, 音声入出力機能リリース
2023/ 10/19: DALLE3 リリース
2023/ 11/06: OpenAI DevDay(GPTs, Assistants API) リリース
2023/ 11/17: サムアルトマン事変

まくだらメモより

BC 0年(BeforeChatGPT)

まず、ChatGPT登場以前のお話の振り返りから見ていく必要があります。
自分の専門なので、自然言語系に寄った話題になってしまい恐縮ですが、ChatGPT以前からGPTは存在していました。
軽く整理してみるとこんな感じだったかと思います。

  1. GPT (Generative Pre-trained Transformer)

    • リリース日: 2018年6月

    • 概要: GPTは、自然言語処理の分野におけるトランスフォーマーモデルの一つ。トランスフォーマーのアーキテクチャを使用して事前学習を行い、様々な言語タスクにおいて高いパフォーマンスを発揮。

  2. GPT-2

    • リリース日: 2019年2月

    • 概要: GPTの後継モデル。より大規模なデータセットで学習され、より複雑な文章生成が可能に。特にその生成したテキストの質の高さから、公開に際しては慎重な配慮がなされた。

  3. GPT-3

    • リリース日: 2020年6月

    • 概要: GPT-2の後継モデルで、非常に大規模なパラメーター(1750億個)を持つ。自然言語処理において画期的な成果を上げ、多様な言語タスクに対応可能。APIとしての提供も始まる。

当時としても規模は大きく、それなりに注目はされていましたが、モデルという意味では双方向TransformerであるBERTや、T5といったモデルが中心だった感覚があります。
この辺りの感覚は当時関わっていた領域に依存するので、一般的なものではないかもしれませんが、少なくとも昔(Word2vecとか)よりは便利にテキストが扱えるようになってきたな〜という肌感がありました。

この肌感は、AIと呼べるレベルものとは程遠く、頑張って学習を入れてあげたりしないとすぐに話題が発散したり、会話が成り立たなくなるレベルのものでした。
そもそも、自然な文章生成を行うのが一大テーマだったように思います。
特に日本語に対しては様々なアプローチを試して悪戦苦闘していた記憶があります。

AC 0年(AfterChatGPT)

そして、来たる 2022/11/30 ChatGPT3.5 がリリースされました。
当時からある程度疎通ができるBotは居たので、またそういうのの新しいのが出てきたのか思って、軽く考えていた気がします。

丁度当時、社会人博士課程が決まったかどうかというタイミングで、研究に対するアンテナを立て始めたとこだったので論文も軽く目を通して、
「へ〜人間の評価を強化学習で?かしこ〜めっちゃマンパワー〜」
みたいなリアクションでぽちぽちしていました。

まず多言語(日本語含む)対応ってのに素直に凄さを感じ、続けて思ったよりだいぶ賢いぞ、という気持ちになってきました。
正直なところ、モデルの仕組み等はそこまで劇的に構造が変わった新しいモデルという雰囲気ではなく、GPT3のチューニングをめちゃめちゃ真面目にやった、という印象だったのでなぜここまで性能が上がったのか全く飲み込めませんでした。

ちなみに当時はWaiting List制だったので、なかなか順番が来ずにプロ驚き屋さんのマーケティングをやや冷笑的に見ていた気がします。
はいはい、AI()ね〜」みたいな。当時は専門家はなるべく「AI」という単語を使わない棲み分けがあった気がします。

色々触っているうちに、博士課程の面接で発表した「係り受け解析をグラフ構造にして〜」みたいなのテーマを、全部破棄して新しいのを考えた方が良いな?ということが分かってきました。

でも公開されてないしな〜みたいな尻込みをしていたら年が明け、
先生との調整をしながら関東のイベントラッシュを楽しんでたら、
OpenAIから怒涛のリリースが始まりました。

ChatGPTとDiffusionの躍進

有料版のChatGPT Plusが始まったり、BingとChatGPTが連携したりとMSとの連携が強まっていき、社内でも一部のメンバーと情報交換会を開催していました。
年末から社内でこういうの使いたいですね〜って布教を進めていたので、丁度いいタイミングでした。

ただ、研究者的にはインパクトがあれど、そこまで一般に一気に広まる、ということはなくBERT等のような「すごいモデルが出たぞ」という研究&AI界隈を賑わせてた印象です。

当時、画像生成AIが拡散モデルの一般化からかなり広く広まっており、
GitでCloneするだけでご自分のPCで生成が行えるようなUIが整備されていたりと、ChatGPTより盛り上がっていた印象が強いです。

呪文と呼ばれる独自のプロンプトのノウハウの蓄積が行われていたり、
DIscord上で奇怪な生成物を作って盛り上がってた印象があります。
基本的に、手の生成はまだまだ苦手な時期の生成AIですね。

ChatGPT-4、来襲

3.5レベルでも結構なAI感があって、これがお手軽に動くとアイアンマンとかの世界だな〜とか呑気に(当時としては飛躍した冗談気味に)構えていたら、
ChatGPT-4が公開されました。

機械学習界隈、特に生成系の大本営発表はチェリーピッキング的というか、
ベストなエッジケースを成果として公開することが多いです。
理由としては、成果としての最大値を出す方が議論がしやすいことと、
定量的な評価が難しいことがあるので、ある程度幅を持って受け取る必要がある界隈でもあります。

その幅を考慮した上で、ChatGPT-4のデモとして公開された
「図付きの問題題を回答するChatGPT」の画像は研究者界隈に大変なインパクトを与えました。

めちゃめちゃ上手く行ったケース、を念頭に置いても当時の画像認識の水準からはかなり異質な高度さだったように思います。
画像からZero-shotで文章を生成する手法自体はCLIPを筆頭に広く扱われていたので、それ自体は大なり小なり理解可能でしたが、
そこから回答までをEnd-to-Endで行うというのはさすがに眉唾ものとして認識していた記憶があります。

もちろん、絶対に不可能ということではなく、複数のモデルやルールを組み合わせることでChatGPT-4ほどではないにせよ、回答らしきものは出力できただろうと思います。
東大に合格するAI、東ロボくんの悪戦苦闘っぷりを見聞きしていたので、その面のバイアスが入っているとは思いますが、何をどうやっているのか全く検討がつかなくてまず本当かどうか?をしばらく相談した記憶があります。

今思うと、画像に写ってる情報と文章問題がプロンプトとして認識できれば、
ChatGPT3.5相当でも回答出来る余地があるのですが、当時はChatGPT系のモデルに対する理解が浅く、旧来のTransformerベースの入出力に囚われていたことがわかります。
コンコルド効果というか、これまで費やした時間から固定観念に囚われがちなので柔軟な発想を持つ必要がありますね。

ChatGPT、お茶の間へ

ここから先は非技術者、非研究者の方にも馴染みがある話題が続きます。
イーロンマスクのAI抑止署名に始まり、イタリアでChatGPTが禁止されたかと思ったら、東大が節度ある利用方法への模索をアナウンスし、文部科学省が教育に取り入れる予告をしたかと思ったら、OpenAIのCEO サムアルトマン氏が岸田首相と対談したり、1企業の出したプロダクトが世界を震撼させる一大ターニングポイントになっていったのを実感していきました。

ここまでで、大体4000字なのですが、この時点で2023年4月です。
リリースからわずか半年でこの盛り上がりは過去にも当然例はなく、
激動の時代を象徴するかのように世界情勢も様々な出来事が頻発して情報が錯綜していた思い出があります。

なんにせよ、この辺りから地上波でも特集が組まれたりサム・アルトマン氏への独占インタビューが行われるなどメディア、というよりは世界情勢とのバランサー的な立ち回りが増えていった印象があります。

実際Bingがすぐ応答を打ち切るようになったり、GPT4が少しずつアホになっていくようなケースも報告されるようになりました。

とはいえ、この辺りから積極的に人との比較を行う論文や報告が増え、
様々な試験で人と同程度、場合によってはそれ以上の得点を出す、
過去人々が夢想した「AI」のイメージにぴったり当てはまるサービスとしての地位を盤石なものにしました。

他社LLM動向

まとまった資料があるわけではないですが、ここまで来るとこれまでAI界隈で先陣を切っていたはずのBIG Techが様々なアクションを起こしてきました。

ただ当時から現在に至るまでOpenAIの独走状態で、
ChatGPT-4は元より、ChatGPT-3.5にも及ばないような性能の「AI()」が散発していました。ローカルLLMも同時に賑わってきた時期だったかと思います。
立ち回りとしては以下のようにどの企業も異なるアプローチだったのが生存戦略って感じで良いですね。

  • OpenAIと早くに一蓮托生になったMicrosoft

  • オープンソースとして現在のLocalLLMの祖となったMeta

  • Bardをリリースするもさすがに見切り発車すぎたGoogle

  • 環境提供とアシスタント的利用に限定したAmazon

  • 現在に至るまで全く何もAIについてアナウンスが無いApple

また、出力の制限が厳しい中国系のLLMも取り沙汰されていたかと思います。
リリースして一瞬で公開停止になるAI様式美も、これが見納めかもしれません。

マルチモーダルモデルの公開

今や過去のものになってしまったPluginや、
元の精度が高すぎて扱いが難しいFine-turningなどがポツポツ出てきましたが、
この辺りでようやく待ちに待ったマルチモーダルモデル、
画像が入力可能なChatGPT-4がリリースされました。

お得意の「順次リリース」だったため、非常にヤキモキしましたが、
2ヶ月ぐらい経ってようやく順番が回ってきたのでみんなで遅くまで遊んでみた日もありました。

結論としては、今までの監視業務など判断系の画像処理フローが大きく躍進するだろうという一方で、
認識のチューニングができないのがネックになるタスクも多く出てきそうだなという感覚です。
(ゲーム実況させようと思いましたが、新キャラを認識しなくて苦戦しました。)

ただ、間違いなく「ChatGPT-4Vを知ってる」と「知らない」では、
実現できるタスクのバリエーションに大きく差が出そうな技術だと思います。
このぐらいの時期になると「ChatGPT経験値」が良くも悪くも表面化してきていたと思います。

プロンプトエンジニアリングと再現性

ChatGPTを触ってまず感じるのは、出力の幅広さとその制御の容易さでは無いかと思います。
「こうして欲しい」をそのまま伝えるだけでかなりの柔軟性でそのオーダーに答えてくれる体験は「AI」の2文字や「シンギュラリティ」の未来が見えてもおかしくないでしょう。

ただ、しばらく使っていると「再現性を担保」する事の難易度にも気づくかと思います。
昨日めっちゃいい応答返ってきたから、明日のデモで…と思ったらちょっと上手く出ない…みたいな経験は大なり小なり経験がありそうです。

ある程度制御は容易ですが、完全な制御は難しい、という嫌なところが人間らしい特徴を持っています。
この特徴はプロダクトに組み込む際は十分に留意する必要があり、使用感のインパクトほど未来的なプロダクトがリリースされてない原因でもありそうだなと思ってます。
多様性はランダム性依存してることが多いので、いい塩梅の多様さをチューニングする技術がどんどん出てくると思われます。

まあ単純に「GPTsでいいじゃん」ってことが多いというのもありそう。

DALL・E3 available

ここまでLLM界隈で独走状態だったOpenAIですが、
なんと画像生成分野でも急に素晴らしく安定するモデルをリリースします。

DALL・E3と銘打たれていますが、中身のモデルはほぼ新規モデルに近いということなので、従来のDiffusionモデルともまた違う立ち位置なのかもしれません。
寡聞にして具体的な構造を未調査なので、今度SDXLとの比較とかしてみたいですね…

従来の画像生成は、呪文と呼ばれる単語群を駆使して狙った分布の空間をスナイプするような、職人芸的な技法でした。
そのため、膨大なノウハウの蓄積がある一方で意図通りの画像を作るのが大変に大変な世界でした。
その制御の不安定性を解消しようと、ContorollNetなどの画期的な手法がどんどん登場しているので悪いことでは無いですが、サクッと使いづらいボトルネックがありました。

一方でこのDALLE3は、自然文から1発でかなり安定した画像を出してくれることで知られていて、画像生成の入門モデルとして120点のものでした。
先行してBing経由で使えるようになっていたのもかなり画像生成の経験者を増やすことにつながったのでは無いかと思います。

そして、ChatGPTからDALLE3を呼び出せるようになると、その自然文すら人間が考えない時代に入りました。
当ブログの画像はDALLE3産ですが、ChatGPTに
「光の速さでかけてくChatGPTに追い縋るエンジニア」をオーダーし、主観視点や画像の比率などをチャットの往復で制御して生まれたものです。

人と画像生成モデル間にLLMを挟むことによって、人の意図を「翻訳」することが可能になり、この領域はTransformer自体が得意とする問題領域でもあるため、かなりストレスなく画像生成の試行錯誤が行える環境が整っています。

OpenAI DevDay

すでに6000文字も読んでいただきありがとうございます 🙇
この章とあと少しで終わるので休み休みお読みください。

このように生成AIの民主化、という点において八面六臂の活躍を見せたOpenAIですが、いよいよ「AI作成」まで民主化に踏み込みます。

ご存知GPTsのリリースです。

機能としてはLangChainなどでも扱われているChatGPTとToolを接続して、必要に応じて情報を増やして応答に食わせるというもので、それ自体は精度の差はあれ特段目新しい機能ではありません。
目新しさという意味では、GPT4のAPIリリースの方がプロダクトや研究に与えるインパクトは大きいでしょう。

ではなぜGPTsをことさら取り上げるかというと、
圧倒的に「作るのが楽」だからです。
先ほどのDALLE3 with ChatGPTと同じ構図ですね。

何かAIが作りたかったら、GPT builderくんを起動して、
「こんなAIが欲しいんだけど…あ、応答は日本語でお願い🙏」
と言うだけで、それなりにAIっぽいものが簡単にできてしまします。

アイアンマンとかで見た世界が、このGPTsの登場で目前まで来たなと言う気持ちにさせてくれるサービスでした。

もちろん、実際に「使える」ものにするには詳細なチューニングが必要で、結局専門知識がないと制御しきれないのは変わりません。
しかし、「誰でもある程度簡単に作れる」のは一番面倒なアルファ版を作る工程をスキップして「チューニングする」という、体験の具現にリソースを集中できることになります。
もっとこうできたらいいのにな〜」がモチベーションにつながり、専門家への一歩となると、自分は考えています。

破格のコストのGPTsくん

もう一つ、GPTsをお勧めしたい理由として破格の低コストであることがあります。GPT-4レベルのシステムを月額$20で、使い放題、配布し放題。安すぎる…

正直ChatGPT-4の性能だけ見たら、特別な申請+膨大な利用料を取るとかしても全然許されるレベルだったと思います。もしくはそもそも公開せず自社だけで使う、というのも手でしょう。
それが$20なのが、OpenAIの一番偉いところだと思います。
おかげで一悶着あったのかもしれませんが…

でもAPIも叩けるじゃない?ちょっと面倒だけど、コード書いた方がよいのでは?という意見もあると思います。
もちろん、書ける人はそちらの方がRetrievalの制御等も容易なのでスムーズでしょう。どちらが優れてる、というより利用シーンが異なると思っています。

GPTsが最も削ってくれるのは、API利用料&運用費用です。
そもそもGPTsは、ChatGPT Plusに付属しているサービスです。
ChatGPT-4は使えば使うだけアドなので、それに加えてサーバの管理や疎通の節約とか考えなくていい枠が用意されている。赤字経営というの頷ける破格っぷりですね。多分ほとんど原価にちかいのでは?とすら思えます。

せっかく作ったAIを人に使って欲しい、そういう時にGPTsなだURLを共有するだけで使ってもらえます。
最初から最後までずっとお手軽。これがGPTsの一番の長所だと思います。

サム・アルトマン事変

ちょうど呪術が放送中なのであやかりましたが、
正直この件については詳細が不明すぎて特に何も言うことがない…

Microsoftの一人勝ちに近い結果という見方もあれば、
AI規制派vs推進派の争い、はたまたOpenAIが画策したガス抜き説など、言えることは山ほどあるんですが、正解なんてわからないですし、おそらく1つの原因じゃないでしょうとも思います。

芸能人のゴシップニュースとしては面白く、OpenAIに頼り切るのもよくないな…という啓蒙活動と考えると話題になっただけでも良いのかもしれません。

実害を被ったのは、ChatGPT Plusの利用登録が停止した時期に使いたかった人たちでしょうかね。株系のも上下あったでしょうが…
かく言う私もローカルモデルでエージェント作る練習したりし始めたので、いいきっかけになってくれました。

これからのAC時代を生きるために

ながらくお疲れ様でした。
備忘録というか、単行本一巻ぐらい使った回想シーンという感じでしたが、
年明ける前にこの話だけはまとめておきたかったというので書いた記事です。

当初は気を利かせて色々図などを入れようと思ってたんですが、
書くのに必死すぎてあまりそういう配慮が行き届かなかったなぁと言う感じです。

読まれている方々の立場は色々だと思いますが、流行りの生成AIの荒波に翻弄され、これからこの生成AI界隈の渦中に飛び込んでいく立場としての手記と思って読んでいただけたら幸いです。

一口に生成AIといってもすでに膨大な領域になっており、どの領域にどの程度携わるかで対応も変わるかと思いますが、
共通して言える大事なことは「触ってみること」だと思います。

特に生成AIに関しては、専門家や作っている方も因果関係を測りかねている部分があるので、作成者といえど「動かしてみる」意外に評価できないことが多いです。
そういう意味ではどの立場の人も対等な立場で触れられる、なかなかこれまでにも、これからも珍しい技術群なのではないかなと思います。

そして、触れたら触れただけ経験値が貯まるという、これまたあまりない特徴も持っています。
勉強やトレーニングなど、おおよそ努力と呼ばれるものはかけた時間に応じて成果がある、とは限りません。
一方生成AI経験値は、何かを学ぶというより漢字の書き取り等に近い、試行回数で感覚を掴むタイプのものだと思います。
当然、触れる時間に応じて無限に成果が伸びていくかというと、そんなことはないでしょうが、少なくとも「こうやった時はああなったな」を知ってるだけで一つの価値になる、美味しい作業です。

生成AI規制論

生成AI界隈が盛り上がっている背景には、この平等さみたいなのは大きいはずで、昨今話題の悪質なAI絵の問題も誰にでも触れられるが故の表層化だと思います。
全人類が生成AIに対するリテラシーを身につければ、これ以上ない技術になるはずですが、そんな事は起こり得ないので、少なくとも「自分の成果物」への責任は自分で持つところからスタートする必要があるなと思います。

と言いながら、海外(中国系とか)論文ではデモにPixivの画像が使われたり、アニメのキャプ画が使われるも多いため技術者サイドで足並みが揃っているか?と言われると厳しいものがあるのは事実…

原理的にAIの学習や推論を規制する事はかなり難しい、というか影響範囲が大きくなりすぎそうので、実運用上は「コピペして投稿したら著作権侵害」レベルの話から判例を集めて、現実的な法整備を検討していくことになるんだろうな、と思っています。

生成AI時代、と銘打っておいてなんですが、あまり生成AI特別扱いしすぎないのもまた必要だなと思っています。手段はどうあれ、人の絵柄で絵を投稿する際に注意が必要なのは共通のはず。
どうも、「生成AI」という概念が独り歩きしている様子なので、何かそういう特別な枠があるというより、高精度の成果物が出せる技術群を「生成AI」と呼んでるにすぎないので、因果関係が逆なんですよね。

なので今ある「生成AI」を規制したところであまり意味は無い事をご理解いただきたいなと思います。
その辺りの啓蒙活動は専門家の端くれとして自分も貢献していきたいなと思っています。

生成AIという技術的転換点

最後に、自分から見た生成AIの立ち位置だけ紹介して終わりにしたいと思います。
と言ってもこれまでの長文である程度把握されているかと思いますが、
自分としては「人類の生活を(良くも悪くも)変える技術」と思って接しています。

便宜上、生成AIに対して「考える」や「お願いする」といった擬人化表現を使うことがありますが、お祈りに近い感覚のため生成AIに知性を宿るとかは全く思っておらず、「生成AI」と「AI」は別物と思って接しています。

人の脳を模した〜という文脈がよく出てきますが、模せるほど人は自分の脳への原理的な理解が進んで無いので、知性の有無を論じる以前の段階では?という立場です。
ただ「人が生成AIに知性を見出す境目」は興味深いと思っていて、そういう脳の勘違い話は好きです。そう言う意味では人の脳をハックする技術と言えるかもしれませんね生成AI。判別がつかないほど、「それっぽく見える技術」群というか。

そういう意味では、現時点の生成AIはChatGPT-4をもってしても、意図を汲んでくれるようには「勘違いできない」のが現状です。
個人的に「漫画」はそういう意図の集合体だと思っていて、完全自動で漫画ができたりするとシンギュラリティだな、と思うかもしれません。
ボーボボやネウロを描けるAIを目指して、邁進したいところです。

生成AIの登場によって自分が一番感動しているのは、技術によって個人のできる範囲がグッと広がったことです。
「技術は人を平等にする」とはDr stoneのコピーでもありますが、まさしく今まで出来なかったことが出来るようになることを目指して我々は日々頭を悩ませているわけです。

科学の肝は再現性、この多様性の時代においても再現性が担保されうる生成AIという技術群と上手につきあって、人類を労働から解放するのが目標といえば目標です。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?