【AIのべりすと】4,5年後のAI世界のロードマップ

2021年12月16日 23:39

AI「AIのべりすとα2.0」を公開して2ヶ月経過し、おかげさまでさまざまな反響をいただきました。

「とりんさま6.8B」は現存する国内のパブリックな自然言語処理AIでも最大級のものということで、反響は単純に「面白い」というものから、AIの賢さに関するコメント、AIのスペックに関するコメントを多くいただきました。

クリエイティブなAIというのはまだまだ黎明期にあります。2017年にTransformerが発表されるまで、AIが三人称の小説を書くというのは「あり得ない」「不可能」と考えられていました。

現在の世間の主な関心は「もっと高いスペックのAIがリリースされるか」「AIがより賢くなっていくかどうか」「AIが人間を超えるか」ということにあるようです。しかし、今年に入って、先端研究の世界では考え方の軸が変わってきつつあります。

神さまのようなAIは別に必要ない

現在「AIのべりすと」で稼働している68.7億パラメータのAIに対して、英語圏や中国語ではすでに1750億パラメータのGPT-3 DaVinciや1780億パラメータのJumbo-1、1.5兆パラメータのWu Dao 2.0といったものが発表されています。Bit192でも、DeepSpeedをベース技術とした200億～400億パラメータ級のモデルを研究中ですが、パラメータ数が増えるとそれだけAIは賢くなるのでしょうか？

答えは○であり×です。というのも、モデルサイズが大きくなるほどリターンは減衰するからです。実際、1750億パラメータのモデルでも登場人物を混同したり、基本的な算数を間違えたりといったことが当然のように起きます。

もうひとつ問題があります。そうした巨大なモデルは、それだけの計算資源を要求するため、現時点では用途別にチューンしたりユーザーの好みに合わせるということが難しく、また限られた人間しかアクセスしたり稼働させたりすることができません。

「ユーザーのためのAI」を考える上で、ユーザー個人に合わせたチューンというのはAIにおいて非常に重要です。わずか350万パラメータのファインチューンされたモデルが、60億パラメータの汎用モデルを遥かにアウトパフォームするということは普通にあるからです。

「AIのべりすと」は、アメリカの各地にあるデータセンターをお借りして、最大で同時200台以上のGPUサーバーを同時に稼働させていますが、毎日の費用だけでも大変なものです。AI将棋大会の、自作PCを持ち込むという牧歌的な（？）光景が遠い昔のことのようです。

また、データセンター方式では、使用しているユーザーのプライバシーは保障されなくなってしまいます。実際にGPT-3では、セミオープンという性質上仕方ないのですが、プライバシーに関する許容しがたい問題が多数起きてしまっています。

いま、私や一部の先端研究のコミュニティが考える数年後のAIというのは、限りなく巨大化した神さまのようなAIがズンと鎮座して人間がそれに合わせるイメージではなく、各個人が持っているPC・タブレットや携帯に宿るティンカーベル（妖精）のようなものです。

ティンカーベルは人間よりも賢い超越した知性である必要はありません。むしろ、信頼できるペットのようにユーザーに忠実であれば、飼い主よりすこしくらい愚かでもかまわないのです。

ティンカーベルとしてのAI

いま当たり前に使われている先端GPUのスペックですらも、ほんの4年前は夢のまた夢の話だったのですから、もう4,5年もすればスマホだけで「AIのべりすと」くらいのAIなら稼働できるようになっている可能性はかなり高いです。

また、ただ出来合いの汎用AIを稼働させるだけでなく、数十分もあれば誰でも自分だけのAIを訓練できるようになるでしょう。

※「AIのべりすと」で導入しているMOD機能は、4~5分から最大30分程度で自分好みにAIを再訓練できる機能ですが、こういうこともスマホ1台で出来るようになるはずです。

もうひとつ、いま注目されているのがマルチモーダルAIです。これはOpenAI CLIPのモデルリリースによって大きく注目が集まった概念で、画像AI、音声AIや文章AIといったまったく別のドメインのAIどうしを協業させる概念です。

例えば動画サイトやゲームの世界で当たり前になっているモデルデータやテキストデータの相互コンバート、キャラクターを別のゲームに移すというようなことが、AI対AIの世界でもようやく普通にできるようになってきました。

AIとは、極端な話「入力と出力の差（loss）を限りなく低くする仕組み」にすぎませんが、だからこそ、今あるフレームワークをほとんどいじらなくても、色々な用途に応用することができます。

また、現在では処理速度の関係からリアルタイム環境でのAIの適用はあまり見られませんが、GPUのスペックがもう少し上がれば、描いた先からリアルタイムでストロークや絵のスタイルを調整してくれるようなAIもできるようになるはずです。

具体的には、下記のようなことが当たり前にできるようになるはずです。

1. 自分の絵をリアルタイムで「翻訳」するAI

例えば「王道ジャンプ漫画のような絵が描きたい」と平文でAIに入力して、サンプルになるユーザー自身の絵をいくつか与えるとユーザーの絵→認識して収集した王道ジャンプ漫画の絵に変換するAIを自動的に訓練してくれるAI（そう、AIがAIを訓練するのです。正しい意味でのシンギュラリティですね）。

また、ユーザーのストロークを読み取って、バックグラウンドで何度でも再訓練を行ってくれます。

2. ゲームのマップやキャラクターを作ってくれるAI

あるゲームのマップ、キャラクターの外見や性格などの特徴のデータをオープンAPI化（jsonデータなど）して、ユーザーが好みに合わせて収集したデータでAIを訓練できるようにします。

ユーザーが楽しいと思うようなアクションゲームのマップが無限にできたり、マップ上に指先でカーブを描いただけで細かいオーダーを反映した海岸線ができあがったり、カーブを1本描いただけで自分好みのキャラクターができたりするようになるでしょう。作ってみたけどなんとなく納得がいかないキャラクターをいじっていると、リアルタイムで自分好みにアジャストしてくれたりもできそうです。

3. 育てたAIとAIを対話させる・戦わせる

自分の文章でチューンした「AIのべりすと」と他の人がチューンした「AIのべりすと」同士を接続して、ちょうど作家2人のコラボのように競作させてみたらどうでしょうか。文章に限らず、画像でも、マップの生成やキャラクター生成でもできそうです。

人工知能というと人形をしていて、人間がわかる言語や、人間のような声を使ってコミュニケーションするイメージを持ってしまいますが、別に無線通信やバイナリデータの通信でもかまわないのです。SFによく出てくるテレパシーをもった宇宙人はBluetooth搭載なのかもしれません。

4. スピーチを「翻訳」してくれるAI

半分冗談のような話ですが、自分のスピーチが聴衆にウケるかどうか心配な時はAIを使いましょう。自分のスピーチをリアルタイムで音声認識→「自分の喋りの書き起こし」を「ターゲットのオーディエンスが好む文章」に変換した文章がプロンプターに再出力されます。もし聴衆の反応が悪ければ、聴衆の反応を評価セットとしてリアルタイムでAIを再訓練してくれるので安心です。

これならマーケティングやゴーストライターも不要になるかもしれません。

「AIのべりすと」が次の4～5年で目標とするところ

小説生成AIとしての「AIのべりすと」が次の4～5年で目標とするところは、自分専用にカスタマイズされた、リアルタイムで自分に合わせて変化するティンカーベルのようなAIを、各自のスマホにボタンひとつでデプロイして使えるようにすることです。途方もない巨大なモノリスAIをはるか遠くのデータセンターで動かして、ユーザーが制約の中で無理やりAIに合わせるビッグブラザーのような未来より、このほうがずっと未来的だと思っています。

この記事が気に入ったらサポートをしてみませんか？