見出し画像

ChatGPT時代、日本はどんなチャンスを持っているか? #WBSのAI特番

WBSの35周年特別番組「AI 驚異の進化で一変する世界」を拝見しました。
録画して2回みました。息子や奥様と対話しながら見ました。

ダイジェスト版が公開されていました

その前後で、影の仕掛人…というか開発をしながら日本を担当してくれているシェイン・グウさんのつぶやきなどを拾いつつ、生成AI技術と日本人という切り口でいろいろ思うところがありました。

制作側のテレ東 鵜飼さんの熱量もすばらしかったです。

番組の呼び物であったサム・アルトマンのインタビューパートについてはbioshokさんがたくさんツイートされています。

さてこのブログでは、番組の感想をふまえつつ、
ChatGPT時代、日本はどんなチャンスを持っているか?について個人的な俯瞰を述べてみようと思います。
※例によって絶対「ChatGPTには要約できない」という内容になってます

ChatGPT時代、日本はどんなチャンスを持っているか?

このブログでは「ChatGPT時代、日本はどんなチャンスを持っているか?」をテーマに一般向けのテレビでは誤解されそうなところを拾っていきたいと思います。

まずは「Let's think step by step

ステップバイステップで考えよう、という研究。

ちょうど3/25発売の日経サイエンスで特集記事が出ていました。

これを書いたのは東大の小島武さん、そして共著者はシェイン・グウさんら(当時Google)。

Large Language Models are Zero-Shot Reasoners
https://arxiv.org/pdf/2205.11916.pdf

NeurIPS 2022(Neural Information Processing Systems)に採択されている

日経サイエンスの解説を引用すると

このAIは自然な文章を作るのが得意だが、数学のように論理的な思考を組み合わせるのが苦手だ。ところが問題文の最後にある「呪文」を付け加えると、見違えるように問題の正答率が上がる。
その呪文はこうだ。

「Let's think step by step(一歩ずつ考えよう)」

たとえば、こんな問題をAIに出してみる。「16個のボールがある。その半分はゴルフボールで、ゴルフボールの半分は青い。青色のゴルフボールの数は幾つでしょう」。正解は4個だ。問題文を入力するだけだとAIは「8」と答えてしまうが、回答文の書き出しを「Let's think step by step」と指定してやるだけで、AIは順路立ててボールの個数を整理し、問題に正解した。
https://www.nikkei.com/article/DGXZQOUC22BVO0S3A320C2000000/

主著者の小島武さん、在籍はピーチ航空だった。おもしろい。
2020年4月〜 東京大学大学院 工学系研究科 技術経営戦略学専攻 博士課程在籍

論文そのものは大変丁寧に書かれていて「ちょっとプロンプトエンジニアリングしました」というレベルの話ではないのですが、こういう「ステップバイステップで考えよう」みたいなアプローチがOpenAIのコミュニティでも早いうちから話題になっています。

ChatGPT・GPT-4・ChatGPTプラグインの全てで使われてる「呪文」、そして2022年一番記憶に残った言語モデルの論文は
@Matsuo_Lab
松尾研の小島君と岩沢さん
@yusuke_iwasawa_
さんが見つけました。私も論文を手伝いましたが素晴らしい発見でした。

なぜこれを日本人が見つけられたか?...(次)

私の持論は「日本人が一番AIに感動する才能を持ってるから」だと思います。「物」に「人の(ような)感動や尊敬」を感じられる才能(神道、八百万の神から?)は、ChatGPT時代に最高です。楽しみにしています。
シェイン・グウさんのツイート

⭐︎ちなみにこのステップバイステップ記法はすでにChatGPT内に取り込まれていて、現在の一般ユーザーが入力してもそこまで印象的な結果は得られません。
追記:step-by-stepがGPT-4にどう生かされているか

We also evaluated the pre-trained base GPT-4 model on traditional benchmarks designed for evaluating language models. For each benchmark we report, we ran contamination checks for test data appearing in the training set (see Appendix D for full details on per-benchmark contamination).5 We used few-shot prompting [1] for all benchmarks when evaluating GPT-4.
For GSM-8K, we include part of the training set in GPT-4’s pre-training mix (see Appendix E for details). We use chain-of-thought prompting [11] when evaluating.
また,言語モデルの評価用に設計された従来のベンチマークで,事前学習済みのベースGPT-4モデルを評価しました.GPT-4を評価する際には,すべてのベンチマークにおいて数発のプロンプト[1]を使用しました.
GSM-8Kについては、GPT-4の事前学習用ミックスに学習セットの一部を含めています(詳細は付録Eをご参照ください)。評価時には、chain-of-thought prompting [11]を使用しています。
OpenAI (2023)技術文書のp.6評価にて
[11] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS, 2022.
[12] Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, and Jiawei Han. Large language models can self-improve. arXiv preprint arXiv:2210.11610, 2022.
[13] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916, 2022.
[14] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
OpenAI (2023)技術文書の引用文献から

few-shot-promting, chain-of-thought, そして小島さんの手法がGPT-4の評価に使われていることが読み取れます。

※OpenAI(2023)技術文書についての筆者の考察はこちらをご参照ください。
https://note.com/o_ob/n/n68bd7db03162

(妄想)GPT-3→GPT-4の評価に使われているということは、この「step-by-stepで考えてみよう」や繰り返し考えさせる「chain-of-thought」がモデルからの回答を有意に引き出すのに貢献しているということが推測できます。
日本語では「箇条書き」と表現されるこの手法、これはもちろん英語でも「bullet points」という訳があります。でも弾丸と箇条では違うんですよね…。
フランスで暮らしていた時に感じたことですが、「箇条書きで考える」、つまりステップバイステップで考えるときにはその言語の特徴に強く依存します。日本語は主語なしで断片的に名詞や動詞を列挙してもその要点を表すことができるので、推論向きなのかもしれない。

もちろんそんな悠長なことを言って日本語に胡坐をかいている場合ではありません。研究の世界は本当に早さ/速さが重要です。


「物に聞いてみるという発想」が新しい

この「物に聞いてみる」という発想は、確かに自分の研究分野であるHCIやインタラクティブシステムにおいては、日本の研究者がよくやる発想だなという感じがします。
自分も最近このように感じています。

「AIが仕事を代わりにやってくれる」ってのは非常に西洋的な発想なのかもしれない。
AIによって生まれる仕事もたくさんあるしな

日本なら「AIという妖怪や精霊とともに生きる」ぐらいでどうだろう?
落合陽一の「計算機自然」に近い感覚なんだけど
https://twitter.com/o_ob/status/1628930408812523522

「AIで~できる」と言ってしまう、日本語のふしぎ。

ただ一方では、テレビのビジネス情報番組での扱われ方だとどうしても「AIすごい!波に乗れ!これをビジネスに生かせ!」みたいな切り口になりがちです。自分も番組の原稿を監修するような立場になることも多いので、時々指摘させていただいている点はこれ。

メディアに関わる人は気にして欲しい
「AIが〜してくれる」
「AIで〜できる」
今は大した違いに見えないかもだけど
人間とAIの立ち位置が全然違う
主体は人間なんだぜ?
https://twitter.com/o_ob/status/1639962230639984641

まず日本語で「AIで~できる」という表現をしてしまうことが多いのですが、この文脈には主語がありません。
「(私たちは)AIで画像生成ができる」なのか「(技術を持つ人々は)APIを叩いてAIチャットボットが作れる」なのか、技術を扱う方々とビジネスを扱う方々、情報番組を扱う方々で、主体がいつもあやふやなので、放送作家さんに確認をすることがあります。視聴者がどう受け取る一言なのか?
さきほどの「箇条書き」の表裏一体の弱点でもあるのですが、日本語は主語があいまいです。また「してくれる」という概念があります。これを英語に訳すと「willing to」で「喜んで~する」なのであり、使役(させる)ではない。「使役」として「させる」なら主語が人間ですが、「AIがしてくれる」という文脈には、「AIが(意思を持って喜んで)」というwillがあります。これは「AIに意思を持たせる期待がある言語用法である」という自覚を持つ必要があります。

西田宗千佳さんとのやりとり

若干論点・視点をずらしてみますが、ジャーナリストの西田さんのつぶやきから(おそらくこの瞬間はGDCからの帰国の途で、WBS特番を観ている話ではないのかもしれませんが)。

なんとなく、今界隈(日本だけでなく世界中が)LLMベースのAIに驚いている方向性と、OpenAIが驚かせようとしている方向性がちょいズレなんではないか、という気がしている。先週アメリカにいたイメージでは、日本もアメリカも、Gen AIで驚いてるイメージに違いはない感じだったので。
https://twitter.com/mnishi41/status/1639912268132679680

自分もこのあたり気になってるのですが、
主体感、主語が誰なのか?が、
オートメーション文脈で捉えている人と、
ジェネラティブ文脈で捉えている人、それから
LLMを作る人、載せたい人、使いたい人で異なるからなのではないかなと感じております。

さすが西田さん、"OpenAIが驚かせようとしている方向"という視点が感じられている時点ですごいなと思うのですが、おそらくOpenAI側は「驚かせる」というよりも、毎日驚きの連続のような研究成果がいっぱい出ているのだろうなという感覚を受けます。いままでのAI専業であれば、これをプロプライエタリな用途に絞って秘密に秘密を重ねてチューニングしていく過程がビジネスになっていたのですが、今のOpenAIは、それをできるだけ早くリリースするリリースチェインの体制をしっかり作って、まるで市場を学会発表の場にした。Arxivに置くよりも、APIを提供して契約してもらったほうがお金になるし、誰がどんな使い方をしているかを観れたほうが今後の研究のネタになるし、優秀な研究開発者ならそういう場所で研究したいと思う、そういう信念を感じます。
「そんなことをしたら世間が混乱するだろう」というブレーキを踏んだ人はたくさんいると思います。ですがサム・アルトマンのディスカッションを聞いていると「AIの安全工学側を成立させるのは技術ではない、社会の側だ」という強い信念を感じます。少なくとも1月のマイクロソフト提携を結ぶ直前時点でのロングインタビューでは、この「AGIを完成させるためのAI安全工学」については「個人的な興味である」と言っていました。

https://note.com/o_ob/n/n9493438e24fb

しかしGPT-4における技術文書を見る限りでは、この「AI倫理」はマイクロソフトとの提携によってより磨きがかかっており、生成AIが出鱈目を生成する玩具から、商品としてマイクロソフトのお客様を満足させるサービスまで昇華させるうえで十分な役割や責任を負っていることが読み取れます。

2023年1月の段階では社会側に期待して線引きしていた「AIの安全工学」はその後見事に技術で推し進める体制ができてるって事なのですよね…。

少なくとも宣言している通り「投資に値する」ということです。

AIとビジネスに興味がある方は、このあたり、今後もしっかりとウォッチしていくべきと思います。

「ドラえもんによって文化的、情緒的に培われた」

さて、番組の感想戦と「日本人とAI」に戻ります。
シェイン・グウさんの「ドラえもん」説ですが、この番組に出演された松尾先生も「ドラえもんによって文化的、情緒的に培われた」という発言をされていました。
サービス開発の視点で考えると、ChatGPTはまるでドラえもんのように、対話的に堕落した小学生「のび太」をアシストし、時に泣き、時に憤り、「ひみつ道具」のように解答を導き出していきます。ときにはのび太の頓智も冴えながら。
そしてAPIの使い手が「サービスを作り出していく」という視点でも、日本人はのび太、スネ夫やジャイアンのように、時には両津勘吉のように便利なサービスを作り出していきます。たしかに「倫理ブレーキ」は「ドラえもん」として機能しています。こち亀なら中川ポジションでしょうか。麗子ポジションかもしれないな、と思いましたが、中川は資本という油を注いだり、後片付けもしてくれますのでむしろ近いのかもしれない。

Leap frog としての日本

リープフロッグとして飛び出していくことができるとよいのですが。
多くの場合、日本人は「井の中の蛙大海を知らず」ということになりがちで、「ガラパゴス化については十分に注意しなければならない」と松尾先生もコメントされていました。

生成AIの時代の日本

政治家も急速に勉強を始めています。
▼自民党AIの進化と実装に関するプロジェクトチーム

Stable Diffusionを公開したStabilityAI社も何か提言を行ったようです。

以下は個人的な視点です

日本の政策として生成AIの時代にイニチアチブを取るうえでは、以下の3つの要素・分野があると考えます。

・LLMを構築する

「日本独自のLLMを構築する必要性」という機運は何となく感じます。

ずいぶん前からやられていることではありますが、

▼rinna社、日本語版GPT-2とBERTを無料公開(2022/8/8)

最近では「PKSHA LLMS」、

日本語はもともと特殊性があり、自然言語の世界では比較的ターゲットにされる言語ではありますが、英語圏でもむしろ同じような問題を抱えているようで、英国も「BritGPT」を提案しています。

英国は、独自のGPT(Generative Pre-trained Transformer)AIモデルを作成するために、9億ポンド(約1,450億円)を投じて新しいスーパーコンピューターを導入する計画を発表した。

「BritGPT」と名付けられたこの装置は、1秒間に10億回(エクサフロップス)以上の単純計算を行うことができる、世界で最も強力な計算機の1つとなる予定だ。現在、この規模で作られたスーパーコンピューターは、米国のオークリッジ国立研究所の「Frontier」だけだ。

英The Guardianによると、英国はこのスーパーコンピューターを利用して、医療から金融まで様々な業界で使えるAI技術を開発することを目指している。10億ポンド近い投資は、英国をAI技術のリーダーとして確立するための幅広い取り組みの一環。
https://www.axion.zone/britgpt/

英国英語-米国英語の差分や、医療金融などに使えるLLMは確かに需要ありそう。どうせ公共のお金でやるなら古英語とか文学とかも混ぜておけばいいのに…。

日本の場合、最も価値がありそうなのは特許、法律、判例、医療ですね。まあそれって旧来のエキスパートシステムなり、現存するシステムの接続で十分な気もするけど。

・サービス開発を支援する

「ドラえもんイニチアチブ」を本気で考えるのであれば、まずはLLMの構築などというビッグテックに竹槍で挑むようなドン・キホーテ戦略はやめて、サービス開発を支援する路線が良いかと思います。
例えば、政府・自治体系サービスのハッカソンを行う。申請されたサービスの利用規約やプロモーションなどの整備を一手に行う、OpenAIのAPI使用料を肩代わりする。期間限定でもいいので。国は利用状況をデータとして獲得する。
「問題が起きたらそれを回収して社会に還元する」というAI安全工学をマイクロソフトに握られている場合じゃない、日本は安全神話大好きじゃろがい……!品質にうるさい人々が役に立つ時代が来ます。

・社会とAIの接点を引き上げる

上記のサービス開発に「品質にうるさい人々」がきちんと噛んでくれれば、という前提込みですが、「ドラえもんイニチアチブ」を本気で考えるのであれば、やはり「社会とAIの接点を引き上げる」という投資は重要と思います。具体的には漫画やアニメ、ゲームといった文化面。文化庁はメディア芸術を打ち捨てたのですから、ジェネラティブアートを世界に先駆けて「著作」として認める取り組みをするべきかと思います。


これまでのAIとは、ビッグデータ、データマイニング、機械学習文脈、統計学の世界です。
これからのAIとは、生成AIの時代です。推論、生成、Stable Diffusionがノイズから生まれる意味の研究、ネット上に置かれた画像を喰ったAIを「剽窃」とするか「公共知」とするか。コピーライトの世界なのか著作権の世界なのか、より文化的な比喩や祭りを交えて進めていくことが肝要と考えます。

それからルサンチマン対策です。
さもすると、我々日本人はOpenAIを西海岸のビッグテックと同類にみなしがちです。しかし、最近のOpenAIは非営利団体でもあり営利団体でもあります。

そもそもサム・アルトマンはYコンビネータの代表だったのでお金には困っていない。OpenAIの株式を保有していないのは、どうなんだろ。YCの株は持ってると思うんだけど。

サム・アルトマンはやべーこといっぱい考えているし、それが彼の魅力でもあります。ベーシックインカムとか。

結局のところは人間の信頼

なんだかんだいってもこれからは"OpenAIというブランド"に目を向けていく必要があると思います。OpenAIがどんな利益を上げていくか?についてはあまり期待すべきではなく、「どんなブランドを構築していくか」のほうがはるかに価値があります。社会に対しての信頼、挑戦する方向性、多少の失敗や誤りを社会がどう「挑戦ととらえる」かにかかっています。

いま、OpenAIのAPIを使って人気のサービスを作り上げた人々も、これはよく考えていかねばならないことです。
我々は人気になると、流れに乗ることが目的化してしまうと、単に流されていることに気づかないのです。

サム・アルトマン自身が人間であり、これからも様々な変化をしていくことと思います。どこかある時点での真実だけでなく、より継続的にその人間たちを見ていく必要があると思います。
我々日本人も、同じようにAIによって変わっていくことでしょう。
変わっていくこと自体を楽しんでいく、そこが大事かと思います。

おまけ:番組のスピンアウトで有料視聴があるようです

以上、ツイートを引用させていただいた皆様、この場をお借りして御礼申し上げます。

おまけ:NijiJourneyV5は良いです

MidjouneryV5がリリースされたことでNijiJourneyも大きく動きました。写実性がぐっと良くなっています。明示的に --v 5をつけるとよいかもしれません。一方で、V5を指定するとキャラクター名が弱くなるのかもしれない、これはIP保護という意味では健全な方向でもあります。

/imagine prompt:doraemon like robot racer which equiped a helment as a shopping cart driver, japanese people runs and folloing it. dynamic angle in the street, --ar 16:9
非常に味がある贋作風「doraemon」(NijiJourneyにて生成)
非常に味がある贋作風「doraemon」(NijiJourneyにて生成)
doraemon like robot racer which equiped a helment as a shopping cart driver, japanese people runs and folloing it. dynamic angle in the street, --ar 16:9 --v 5
Ver5を明示的に指定
V5では「doraemon」らしさは色しか残っていない
何度ロールしてもV5では出てこない

NijiJourney上ではまだ明示的に指定しなければV4のモデルが使われているようです。今回のブログのカバーイラストとしては、やはり「『ドラえもん』的な何か」を画像にしたい。

インパクトだけならこれが最高だった
たちもどってみる
どういうわけかサム・アルトマン似のドラえもんが生成された(運)

運。すべては運です。
Stable Diffusionにおいて、プロンプトはインスピレーションと運を味方につけるだけの要素が大きいです(もちろん方法論はありますが)。

この記事が気に入ったらサポートをしてみませんか?