2022年10大AIニュースと2023年の展望

2022年12月20日 17:32

　2022年は、AIが加速度的に進化して、その驚異的な能力を世界に見せつけた年となりました。今まで、AIが人間の知能を超えるシンギュラリティの話を聞いても、SFの世界のようにしか感じていなかったのが、初めて現実味を持って実感したという人も多いのではないでしょうか。
　今回は、今年のAI関係の10大ニュースと、惜しくも10位までには入りませんでしたが、紹介しておきたい3件のニュース、それから来年のAIの展望について解説します。

１．番外だけど紹介しておきたい3件

(1) Minerva（6月）

Minervaは、Googleが開発した数学や科学の問題を解くことができるAIで、今年6月に発表されました。
　Minervaは、巨大言語モデルのPaLMをベースとして、大量の科学論文や数式を含むWebページなどで学習し、答えを出すまでの詳細な手順をサンプルとして入力するchain of thought（思考の連鎖）の手法などを活用することで、数式の理解や定量的推論の能力を向上させています。
　その結果、小学生の算数問題、高校レベルの数学問題、高校・大学レベルの科学問題のいずれのテストでも、過去のAIの最高成績を上回る成績を収めました。
　AIに科学的な発見を行わせたり、人間が解けなかった科学上の未解決問題を解かせたりすることは、汎用AI開発の目標の一つであり、言語モデルの発展によって、こうした科学の発展に貢献できるAIの実現が期待されています。

(2) Whisper（9月）

Whisperは、OpenAIが開発した早口の音声でも問題なく文字起こしできる音声認識AIで、今年の9月に発表されました。
　英語より少し精度が落ちますが、日本語にも対応していて、単語誤り率は、英語で4.5%、日本語で6.4%となっています。これまでも、自動文字起こしが可能なAIはありましたが、Whisperは格段に高性能で、議事録や字幕作成など様々な用途に利用できます。

(3) CICERO（11月）

CICEROは、Metaが開発した、他のプレイヤーと交渉しながら土地を奪い合う戦略ゲームのディプロマシーをプレーできるAIで、今年の11月に発表されました。その名称は、ローマの政治家キケロにちなんでいます。
　CICEROは、オンライン版のディプロマシーで人間と対戦し、平均スコアの2倍以上を達成し、上位10%にランキングされたといいます。

　これまでのAIのゲームへの挑戦としては、2016年にGoogle傘下のDeepMindのAlphaGOがトップ囲碁棋士に勝利し、2017年にPonanzaが将棋名人に勝利し、2019年にはDeepMindのAlphaStarがリアルタイム戦略ゲームのスタークラフト2でトッププレイヤーに勝利しています。
　無限の選択肢があり、自然言語の会話で交渉する、より人間的な能力が必要とされるディプロマシーでも高成績を収めたことから、AIは、ほとんどのゲームで人間の能力を上回ることが証明されたのではないかと思われます。

２．6位～10位

10位　PaLM-SayCan（8月）とRT-1（12月）

PaLM-SayCanは、Googleが開発した人間の曖昧な言葉からロボットが取るべき行動を決定するAIで、今年8月に発表されました。
　PaLM-SayCanは、自然言語処理の質問応答タスクを応用しており、巨大言語モデルのPaLMが人間のリクエストに対するふさわしい行動の候補を立案して、ロボットの行動を決定します。

　また、今年12月にGoogleは、700種類以上の命令を97%の成功率で実行できるロボット用AIのRT-1を発表しています。
　今年は、進化した言語モデルとの連携によって、汎用的ロボットの開発も大きく進展しました。

９位　Gato（5月）

Gatoは、DeepMindが開発した、ビデオゲーム、画像へのキャプション付与、チャット、ロボットアームの制御など、全部で604種類のタスクを実行することができる多機能なマルチモーダルAIで、今年の5月に発表されました。
　Gatoでは、異なるタスクのデータがトークンに分割され、学習段階で、これらのトークンが区別されずに、同じTransformerのニューラルネットワークで処理されます。
　Gatoの開発者の1人は、今後、コンピューターパワーを増やして、実行できるタスクを増やしていけば、汎用AIが実現できると発言し、そのアプローチでは無理だと考える人達との間で論争になりました。

８位　PaLM（5月）

PaLMは、Googleが開発した5,400億のパラメーターを持つ巨大言語モデルで、今年の5月に発表されました。
　PaLMは、多くの自然言語処理タスクでSOTA（最高性能）を達成し、BIG-benchのベンチマークテストでは、人間の平均スコアを超える成績を達成するなど、現在、最高の性能を持つ言語モデルの一つです。
　PaLMは、この後にGoogleが開発したPaLM-SayCanやMinervaなど数多くの機能特化型AIのベースモデルの役割を担っています。

　GoogleがTransformer（2017年）とTransformerベースの言語モデルのBERT（2018年）を発表して以来、AI開発の世界では、巨大言語モデルの開発競争が起こりました。
　そして、2020年6月にOpenAIが発表したGPT-3は、人間が書いたような文章を生成できる最先端の汎用型巨大言語モデルとして、社会的にも大きな注目を浴びました。GPT-3もPaLMと同様に、OpenAIが開発する機能特化型AIのベースモデルの役割を担っています。
　GoogleもGPT-3に対抗して、Switch TransformerやGopherなどの巨大言語モデルを次々と開発し、その最新版として開発されたのがPaLMです。
　現在、OpenAIは、次世代の巨大言語モデルであるGPT-4の開発を急いでいます。Microsoftが支援するOpenAIとGoogleは、（中国を除けば）AI開発の2大巨頭ですが、今後、この競争に決着が付くときがあるのでしょうか。
　筆者は、OpenAIのChatGPTと今後出てくるGPT-4に対抗して、Googleがどのような対応をするのか非常に注目しています。

７位　Galactica（11月）

Galacticaは、Metaが開発した、科学的な質問に答えたり、文献調査をしたりすることができるAIで、今年の11月に発表されました。
　Galacticaは、1,200億のパラメーターを持つ巨大言語モデルに4,800万件の科学論文や教科書などを学習させたことにより、科学に関連する様々な問題が解けると説明されており、ユーザーが質問を入力すると、Galacticaが解答文を生成するデモサイトが公開されました。
　しかし、Galacticaが生成する解答文にデタラメな内容や人種差別的な表現が含まれているとして批判を集めたため、デモサイトは、わずか3日で公開停止になってしまいました。

　Galacticaがその実際の性能を見せる前に公開停止になってしまったのはとても残念でした。ただ、ネットで公開されている膨大な量のテキストデータなどを学習に利用している限りは、一部にデタラメな内容や差別的な表現が含まれてしまうのは避けられないため、事前にもう少し丁寧な対応を取っておくべきでした。特に科学関係の情報には正確さが求められるため、不正確な情報が生成されてしまうことは致命的な欠点であり、慎重な対応が必要でした。
　その後に公開されたOpenAIのChatGPTは、リスクのある質問には回答しないような仕組みになっており、その上、操作画面上に、テストバージョンなので不適切な回答が表示される可能性があるという注意書きがくどいほど表示されていました。
　今後のAIモデルの公開は、Galacticaの騒動を反面教師として、さらに注意深い対応を取るようになるでしょう。しかし、これがGoogleのようにAIモデルを公開しない方針へと向かうことは、ユーザーの利益を損ね、多くの人の知見を集めて技術を発展させていくオープンソースの考え方にも反し、結局は、社会的に大きな損失となります。
　一部のいたずら者が裏技を使って、わざとAIに不適切な表現を表示させ、それをマスコミが大げさに取り上げて炎上するという悪循環はストップしてもらいたいものです。

６位　Riffusion（12月）

Riffusionは、画像生成AIのStable Diffusionを利用して、入力したプロンプトに沿った楽曲を自動生成するAIです。今年12月に、Riffusionを誰でも無料で簡単に利用できるデモサイトが公開され、モデルやアプリもHugging Faceで公開されています。
　Riffusionは、Stable Diffusionに調整を加えて、プロンプトから関連する楽曲のスペクトログラム（音の周波数分析の結果について、横軸に時間、縦軸に周波数、信号の強度を各点の明るさや色で表したグラフ）の画像を出力できるように学習させ、このスペクトログラム画像をオーディオデータに変換することによって、楽曲を生成する仕組みとなっています。

　Riffusionは、モデルやアプリが無料で公開されているため、今後、どんどん有志によって改良され、普及していくと考えられます。簡単な手法であるため、他社から同様の楽曲生成AIが発表される可能性もあります。
　性能が向上して、いずれ画像生成AIのように爆発的なブームとなるのでしょうか。その場合は、また、学習データや生成物の著作権の問題が再燃するのではないかと心配です。
　今年は、文章生成や画像生成などのジェネラティブAIが世界を席巻した年でしたが、ついに拡散モデルで楽曲を自動生成できるAIも出現しました。しばらくは、ジェネラティブAIの時代が続くでしょう。

３．1位～5位

５位　AlphaCode（2月）、GitHub Copilotの一般公開（6月）

AlphaCodeは、DeepMindが開発した、コードを自動生成する自動プログラミングAIで、今年の2月に、競技プログラミングコンテストで上位54.3%以内に相当する成績を収めたと発表されました。
　AlphaCodeは、OpenAIが開発した自動プログラミングAIのOpenAI Codexを改良して、競技プログラミングのコード作成が可能になるまで精度を向上させたモデルです。
　具体的な仕組みとしては、最初に、ソフトウェア開発プラットフォームのGithubで公開されている大量のコードを利用して事前学習を行い、その後、競技プログラミングコンテストの過去問などでファインチューニングを行います。
　そして、ファインチューニング済みのモデルで回答候補となるコードを大量に生成し、フィルタリングによってその中から有望なコードを選び出すことによって、精度の高いプログラミングを実現しています。

　AIが人間の知能を超えるシンギュラリティは、AIが自らプログラムを組んで自己改良を繰り返し、無限に進化することによって実現すると言われています。
　AlphaCodeは、ハイレベルのプログラミング問題まで解くことができるようになってきましたが、答の分かっている問題を解いているのに過ぎず、これまでに無かった新しい機能を持つプログラムの開発とは、未だ雲泥の差があります。
　しかし、AlphaCodeの成果は、シンギュラリティの実現に必要とされる自動プログラミングによるAIの自己改良へと繋がっていることは間違いないでしょう。自動プログラミングの更なる進化が期待されます。

GitHub Copilotは、ユーザーが途中まで入力したコードの続きを自動で補完してくれるAIプログラミング支援ツールです。
GitHubがOpenAIと協力して開発し、昨年6月にテクニカルプレビュー版を公開し、今年6月から有料で一般公開されました。
　GitHub Copilotについては、プログラム開発者の権利を侵害しているのではないかという批判が起こり、今年11月には、米国で集団訴訟が提起されています。訴訟の結果によっては、画像生成AIの権利の問題などにも影響してくるため、今後の動向が気になるところです。

４位　LaMDA騒動（6月）

　LaMDA騒動とは、今年6月に、Googleの開発した対話型AIのLaMDAが意識や感情を持っていると同社のエンジニアが主張して、解任された一連の騒動を言います。
　Googleエンジニアのルモワン氏は、LaMDAが意識や感情を持っており、Googleはそれに配慮した対応を取るべきだと主張して、LaMDAへのインタビュー記録を公開し、各種ニュースに取り上げられて、大きな騒動となりました。
　ただ、AIの専門家からは、LaMDAが意識や感情を持ったという主張に対して否定的な意見が多かったようです。

　LaMDAの仕組みは、まず、最大1,370億のパラメーターを持つ巨大言語モデルを公開対話データや公開Web文書などの大量のテキストで事前学習させ、次に、人手で注釈を付けた応答データを使用して、応答案を生成する「生成器」と、応答案の安全性と会話品質を評価する「分類器」をファインチューニングします。
　そして、生成器が直前のユーザーの発言に対応した複数の応答案を生成し、分類器がその応答案を評価し、順位付けして、最も順位の高い応答案を最終的な応答として出力することによって、自然で流れるような会話を実現しています。

　騒動の後、あまり続報がないのですが、LaMDAが意識や感情を持ったというのは事実ではないということで収まったのでしょうか。
　この後にOpenAIから発表されたChatGPTは、AIが意識や感情を持っているような発言をしないように規制が施されているようですが、ChatGPTとの対話を見ると、AIが実際に意識や感情を持っていなくても、LaMDAのように、意識や感情を持っていると相手に感じさせる回答をする能力は十分保持しているように思います。

３位　動画生成AI（9月～）

　今年9月、Metaが文章から動画を生成する動画生成AIのMake-A-Videoを発表しました。
　動画生成AI開発の課題は、文章と動画のペアデータが少なく、画像生成AIほど大量のデータで学習ができないことでしたが、Make-A-Videoは、学習済みの画像生成AIモデルを活用することで、この課題を解決しています。
　具体的には、まず、文章と画像のペアデータで学習した画像分類AIのCLIPを使用して、入力された文章から基本となる画像（フレーム）を生成します。
　次に、動画データで学習した拡散モデルで基本画像を時間方向、空間方向に拡張し、64×64ピクセルのフレームを16枚生成します。
　そして、フレームレート（１秒間当たりのコマ数）を上げるために、生成した各フレームの間を埋める補間画像を複数枚生成して追加し、最後に、超解像度モデルでフレームを768×768ピクセルまで拡大して、高解像度・高フレームレートの動画を生成します。

　MetaがMake-A-Videoを発表してから約1週間後（今年10月）に、Googleが動画生成AIのImagen Videoを発表しました。Imagen Videoは、Googleが今年5月に発表した画像生成AIのImagenを動画生成に応用したものです。

　また、Googleは、Imagen Video発表と同日に、もう一つの動画生成AIであるPhenakiを発表しました。Phenakiは、Make-A-VideoやImagen Videoより長くてストーリー性のある動画を生成できることが特徴です。

　現在、Googleは、Imagen VideoとPhenakiの技術を組み合わせて、より長時間で高解像度の動画を生成できるAIを目指して開発を進めているようです。
　今後、こうした長時間で高解像度の動画を生成できるAIが開発されて、サウンドや音声を生成するAIと組み合わされれば、将来的に、脚本を用意するだけで本格的なビデオや映画を作成することができるようになるかもしれません。
　動画生成AIは、画像生成AIのようにサービスやモデルが公開されていないため、一般のユーザーが利用することはできません。画像生成AIの公開は、画家やイラストレーターの仕事を奪うのではないかと騒動にもなりましたが、サービスやモデルが多くのユーザーに利用され、新しい技術やサービスも次々と生み出されました。実用的な動画生成AIが公開されれば、そのインパクトは画像生成AI以上のものになるでしょう。
　画像生成AIのブームで始まった生成AIモデルの発展は、無限の可能性を秘めているように感じられます。

２位　ChatGPT（11月）

ChatGPTは、OpenAIが開発した対話のためのAI言語モデルで、今年11月にテスト版が公開されました。
　ChatGPTの特徴は、フォローアップの質問に答えたり、自分の間違いを認めたり、間違った前提に異議を唱えたり、不適切な要求を拒否したりできることで、対話形式に最適化されたAI言語モデルとなっています。

　ChatGPTは、2020年に発表された巨大言語モデルGPT-3の比較的新しいモデルと位置付けられるtext-davinci-002やtext-davinci-003などのいわゆるGPT-3.5シリーズをベースとして、人間のフィードバックからの強化学習で訓練されています。
　ChatGPTの強化学習は、具体的には以下の3つのステップで進められています。
　① 人間がユーザーとAIアシスタントの両方の役割を演じた会話データによる教師あり学習
　② 人間がチャットボットと交わした会話データに順位付けして学習させた報酬モデルの作成
　③ 報酬モデルを利用したPPO（近接方策最適化）という強化学習アルゴリズムによる言語モデルの最適化

　ChatGPTは、ユーザーの様々な質問に答えたり、ニュース記事や小説などの文章を書いたり、文章の翻訳や要約を行ったり、詩を作ったり、プログラムを書いたりと、およそ言語に関することであれば、何でも対応できるように見え、AIが人間の知能を超えるシンギュラリティの世界を垣間見せてくれたように感じます。
　また、ユーザーが欲しい形で回答を提示してくれるChatGPTは、これまでネットの最重要機能であった検索機能に取って代わる可能性もあります。
　一方で、一部の質問には回答を拒否するものの、事実と見分けがつかないデタラメな回答を返してくることがあり、正確さが保証できないというGalacticaと同様の欠点は残っています。今後、テスト版から正式版に切り替えていく上で、この点が重要な課題となるでしょう。
　いずれにせよ、ChatGPTのような対話型AIは、iPhoneの出現がIT革命を牽引したように、AI革命を牽引するような存在に育っていくと思います。ChatGPTや現在、OpenAIが開発中のGPT-4をベースとした対話型AIが今後どのように発展していくのか目が離せません。

１位　画像生成AIブーム（7月～）

　今年のAIニュースの中で最上位に位置づけるべきなのは、やはり、この夏から始まった画像生成AIブームでしょう。これまでのAIが主としてAI業界の中でのブームに留まったのに対して、画像生成AIは、パソコンやネットにあまり詳しくない人達にも広がり、一種の社会現象となりました。

　その口火を切ったのが、OpenAIが今年4月に発表したDALL-E 2です。2021年1月に発表された初代のDALL-Eは、変分オートエンコーダーのVQ-VAEを利用した画像生成AIでしたが、DALL-E 2は、画像分類モデルのCLIPと拡散モデルを利用した画像生成AIで、出力画像の多様性と高解像度を両立し、これ以降、拡散モデルの画像生成AIが主流となりました。

　その後、Googleから今年5月に拡散モデル画像生成AIのImagenが、6月に自己回帰モデル画像生成AIのPartiが発表され、どちらもDALL-E 2を超える性能を示したとされています。しかし、Googleは、これらの画像生成AIのサービスを公開しませんでした。
　一方、OpenAIは、今年7月からDALL-E 2のβ版の有料オンラインサービス（無料枠あり）を公開し、多くのユーザーがDALL-E 2を実際に利用する機会を得て、これがその後の画像生成AIブームへと繋がっていきました。

　そして、今年7月に、個人が手軽に高品質な画像を生成できるMidjourneyのオープンベータ版が有料オンラインサービス（無料枠あり）で公開されると、瞬く間に世界中で爆発的な人気を呼び、画像生成AIのブームが起こりました。
　Midjourneyは、米国フロリダ出身のデイヴィッド・ホルツ氏が創設した社員わずか10人余りの小さな民間研究所が開発した拡散モデルの画像生成AIで、指示通りの正確な画像を生成するよりも、バイアスを掛けて、個性的でスタイリッシュな画像を生成するのが特徴です。
　特に、ファンタジーやサイバーパンク系の画像に強く、簡単なプロンプトでも、プロが描いたような個性的で格好の良い画像が生成できるので、一気にユーザーの人気を集めるようになりました。

　今年8月には、バングラデシュ出身の英国人エマード・モスターク氏が率いるStability AIがStable Diffusionを公開しました。Stable Diffusionについては、有料オンラインサービス（無料枠あり）だけでなく、個人のパソコンでも使用可能なモデルデータやコードなどもオープンソースとして公開されたため、画像生成AIブームをさらに加速してMidjourney以上に広く普及し、次々と派生モデル、関連アプリ、新サービスなどが生まれました。
　Stable DiffusionもCLIPを利用した拡散モデルの画像生成AIですが、Latent diffusion（潜在拡散）という技術を導入して画像特徴量の次元を減らし、情報量を圧縮して、計算量とデータサイズを減らしています。この技術により、Stable Diffusionは、少ないメモリーでの動作と高速な処理が可能となり、個人のパソコンでも動作できるようになりました。
　Stable Diffusionのモデル公開については、アーティストやイラストレーターからの反対もありましたが、現在の画像生成AIブームの立役者となったことは間違いなく、公開されたモデルデータやコードを利用した新しい技術やサービスが次々と生み出され、生成AI分野の発展と普及に大きく貢献することになりました。

４．2022年のAI動向に関する３つのポイント

　今年は、AIの世界が大きく動いた1年でした。特に後半は、毎週のように驚くような新しいAIや新しい関連技術が現れて、フォローしきれないほどでした。これをAIのカンブリア爆発と呼ぶ人もいます。

　今年のAIの動きには、以下の3つのポイントがあると考えています。

巨大言語モデルの成果の一斉開花
ジェネラティブAIの隆盛
オープンソースのインパクト

(1) 巨大言語モデルの成果の一斉開花

　2017年にTransformer、2018年にBERTが発表されて以来、Google、OpenAI（Microsoftが支援）、Metaなどの巨大テック企業がTransformerベースの巨大言語モデルの構築に力を入れて競争してきましたが、その成果が具体的な形となって現れたのが今年だと言えます。
　巨大言語モデルを構築した各社は、これをベースモデルとして、次々と新しい機能特化型のAIモデルを生み出しました。対話型AI、自動プログラミングAI、ロボット用AI、科学の問題を解くAIなどは、すべて巨大言語モデルをベースとした機能特化型AIモデルです。また、文章から画像、動画、楽曲を生成するAIにも、CLIPなどの言語モデルが関わっています。
　Transformerベースの巨大言語モデルは、様々な分野のAIモデル開発のエンジンの役割を果たしており、現在開発が進められているGPT-4などの次世代の巨大言語モデルの登場によって、さらにどのように進化していくのか楽しみでなりません。

(2) ジェネラティブAIの隆盛

　今年の夏から画像生成AIブームが巻き起こり、次々と新しい技術やサービスが生み出されて、ジェネラティブAI(生成AI)の実力が多くの人たちに認知されるようになりました。また、画像生成AIの技術は、動画生成AIや楽曲生成AIの登場にも繋がり、ChatGPTの公開による文章生成AIの盛り上がりと合わせて、ジェネラティブAIの時代を強く印象付けることになりました。

　新しい技術が社会的なブームを起こすには、条件が2つあります。
　一つは、従来の技術との違いや便利さが誰にでも一目で分かること、もう一つは、誰でも簡単にその技術にアクセスして使えることです。
　Stable Diffusionなどの画像生成AIやChatGPTは、正にこの条件に該当していたと考えられます。

　拡散モデル技術の発展によって始まった画像生成AIの進化は続いており、ChatGPTも次々と新しい使い方が開発されています。そして、さらに今後は、動画生成AIや楽曲生成AIも進化していくことが期待でき、ジェネラティブAIの時代は、まだしばらく続きそうです。

(3) オープンソースのインパクト

　画像生成AIが大きなブームを巻き起こした理由の一つに、Stable Diffusionのモデルデータやコードがオープンソースとして公開されたことがあります。このことが多くの人たちの手で、次々と派生モデル、機能拡張、新サービスを生み出すことを可能にしました。
　例えば、使いやすい専用のWebユーザーインターフェスが開発されたり、様々な機能拡張が行われたり、追加データでファインチューニングしたアニメイラスト専用モデルなどの数多くの派生モデルが作成されたりしました。楽曲生成AIのRiffusionも、Stable Diffusionの派生モデルとして作成されています。
　また、Stable Diffusionのモデルは商用利用することも認めているため、派生モデルを使用した有料サービスなども提供されています。

　オープンソースは、多くの人たちの力を借りて、技術やサービスを大きく発展させる可能性がありますが、未だ言語モデルや生成AIの分野でStable Diffusionのようにモデルデータやコードを公開しているところは多くありません。例えば、この分野で最も優れた技術を持つと言われているGoogleは、モデルデータやコードどころか、サービスさえオープンにしていません。
　今後は、オープンソースを取り入れるところが増えて、大勢の協力者の力で技術やサービスを発展させていくようになることを期待します。

５．2023年のAIの展望

　では、今年のAIの動きを踏まえて、来年のAIはどうなっていくのでしょうか。その予想を3つ挙げておきます。

ジェネラティブAIの時代の継続
マルチモーダルAIの覚醒
AIアシスタントの普及

(1) ジェネラティブAIの時代の継続

　今年の画像生成AIブームで始まったジェネラティブAIの発展は、来年も進化と拡大が続くと思われます。
　画像生成AIの大きな変化としては、高速化が挙げられます。おそらく短時間で大量の画像を生成することができるようになります。そうなると、人間が望ましい画像を選び出すことも大変になるため、選定するためのフィルタリングもAIが行うようになっていくと考えられます
　また、モデルのコンパクト化が進み、スマホにもローカルで搭載できるようになるでしょう。

　動画生成AIは、テレビドラマや映画サイズ（30分から2時間）の長時間で高精細な動画の自動生成が可能になるでしょう。
　将来的には、台本と絵コンテを示せば、アニメや実写風映画を作成できるようになるかもしれませんが、来年時点では、まだ細かい指示に正確に従った映像を生成するのは難しく、商業作品レベルの動画の自動生成は無理だと思います。
　一方で、アニメのフレーム補間画像を生成したり、特撮映画の背景映像を動かしたりするなど、映像作成支援ツールとして利用されるようになっていくのではないかと思われます。

　楽曲生成AIは、精度が上がってくると、画像より厳しい音楽の著作権問題に直面するでしょう。当面は、著作権フリーの楽曲やサウンドデータを利用したモデルに留まるのではないでしょうか。ただ、それでも、ちょっとしたBGM程度を生成するには十分だと思います。

　文章生成AIは、一番の弱点の正確性を担保するための努力が続けられ、ある程度の対策の方向性が見えてくるでしょう。方法としては、根拠の信憑性や論理性を数値で評価するモデルを作成するなどでしょうか。
　また、対話型の文章生成AIは、検索で新たな情報を取り入れたり、これまでのユーザーとのやり取りを記憶して、次回の会話の参考にしたりすることができるようになるでしょう。よりパーソナライズ化が進むと思います。

(2) マルチモーダルAIの覚醒

　多くのAI研究者が次はマルチモーダルAIが来るだろうと予測しています。

　実際にGoogleの巨大言語モデルのPaLMのベースとなったPathwaysというAIは、テキストデータだけでなく、画像や音声などの様々な種類のデータを扱うことができるマルチモーダルのAIであり、Googleは、このPathwaysを基にGatoやFlamingoなどのマルチモーダルAIモデルを開発しています。
　また、文章から画像を生成する画像生成AIもマルチモーダルAIの一種だと言うことができます。
　今後、さらにマルチモーダルAIの開発は加速していき、来年中には、これまで考えられなかったような驚異的な成果を見せてくれるのではないかと期待しています。

　Gatoが目指す一つのニューラルネットワークで多種多様なタスクを実行できる汎用的なAIは、さらに対応できるタスクの種類を増やして進化していくでしょう。
　特にロボットの分野では、マルチモーダルAIを活用することによって、音声の指示を受け、ビデオカメラの映像からの情報と合わせて行動を判断するなど、より複雑なタスクを実行できるようになると思います。
　また、マルチモーダルAIによって、テキスト、画像、音声、動画などを組み合わせた様々なタスクを実行できるようになります。例えば、1回の指示で、参考画像や挿絵入りのプレゼン資料を作成したり、音声、効果音入りのビデオ映像を作成したりすることも可能になるでしょう。
　さらに、画像や動画から得た情報をテキストデータに変換して学習データとして活用することなどもできるようになっていくでしょう。そうすれば、現在の機械学習における学習データが足りないという問題も解決するかもしれません。人間は、毎日、五感から得た沢山の情報をもとに学習していますが、この手法が実現すれば、ビデオカメラなどを通じて、AIも人間と同じように、日々体験した情報から学習できることになります。

(3) AIアシスタントの普及

　今後は、AIを組み込んだ自律的な機械や装置が増えていくことでしょう。最近、ChatGPTを使用していて、そういう自律的な機械の操作は、対話型AIに対するのと同じように、インタラクティブに機械と対話しながら決めていく形に変わっていくのだと気づきました。そこから考えると、最終的には、「すべてのヒューマンインターフェイスは対話型AIに収束していく」のだと思います。
　対話型AIによるヒューマンインターフェイスは、その秘書のような機能から、AIアシスタントと呼ばれるようになるでしょう。現に、ChatGPTもAIアシスタントと呼ばれています。

　AIアシスタントには、3つの方向性があります。すなわち、スマホ型端末とロボットとメタバースです。

　最も早く普及するのは、スマホ型端末でしょう。最初は、スマホのアプリとしてAIアシスタントが入ります。そこに実際に話をしているようなアバターの映像が加わるのではないでしょうか。来年中に、そこまで実現するのではないかと思っています。将来的には、端末は、AIアシスタントがメインの機能になり、電話やメールやSNSは、AIアシスタントが取り次ぐ付随的なものになるでしょう。

　ロボットについては、将来的には、一家に一台、ロボットのAIアシスタントが配備されるようになると思いますが、さすがに来年は、そこまで行かず、進化した対話型AIを搭載した高機能スマートスピーカーという形で登場するでしょう。それでも、普通に家族のように会話できるスマートスピーカーとして、今までの物とは全く別物のように進化すると思います。

　メタバースについては、AIアシスタントは、メタバース内で人間の操作するアバターをサポートするAIアバターとして活躍するでしょう。コンピューターRPGにおけるノンプレイヤーキャラクターに高度な対話型AIが搭載されたものをイメージすればよいと思います。AIアバターは、メタバース内で秘書のような役割を果たしたり、ショップの店員として客に対応したり、様々な役割を果たすことになるでしょう。

　そして、これら3種類のAIアシスタントは、すべての情報をクラウドで共有し、ユーザーはどこからでも、同じ相手に対するように話を続けることができるようになるでしょう。

６．まとめ

　IT革命は1995年に始まったと言われています。これは、インターネット接続を前提としたOSのWindows 95がこの年に販売されたからです。これを契機にインターネットを利用するユーザーが増え、IT革命が始まったとされています。

　今年は、画像生成AIブームが巻き起こり、実用レベルの対話型AIのChatGPTが現れて、AIを利用することが当たり前の時代になってきました。今後、さらにAI技術の発展とAIの普及が加速し、これからの10年間は、AI革命の時代と呼ばれることになるでしょう。
　2022年は、1995年と同じように、後の時代からAI革命が始まった年として記憶されるようになると予想します。

この記事が気に入ったらサポートをしてみませんか？