ChatGPT登場までの会話型AIの歴史をまとめてみた！

2022年12月18日 23:19

はじめに

こんにちは、maKunugiです。この記事は「CureApp Advent Calendar 2022」の19日目の投稿になります。

本記事ではタイトルの通り、先日公開されて大きく話題を呼んだ「ChatGPT」について触れています。ChatGPTの登場は「会話型AI」が社会を今後大きく変えていくことを予感させる、非常に強いインパクトのある発表でした。今回はChatGPTが登場するまでの同領域の変遷を振り返り、将来について考えていこうと思います。チャットボットを初めとした会話型AIの領域に興味がある方はぜひお読みいただけますと幸いです。

本記事のモチベーション

筆者は約10年ほど、細々とではありますが、会話型AIの領域の動向を追いながら、この領域のサービス開発に取り組んできました。現在は会話型AIを簡単に構築することができるサービス「（ミーボ）」等を開発・運営しています。

この領域に触れていると、ここ数年で関連技術が目覚ましい進化を遂げていることを強く肌で感じていました。そして、先日のChatGPTの登場です。ChatGPTを触り、その性能に衝撃を受けただけでなく、ここからどのように会話型AIの領域が社会を変えていくのかを思うと、とても強い興奮を覚えました。

本記事は、今非常に熱い会話型AIの領域の変遷を振り返り、この領域の未来について考えています。約80年に跨る歴史を振り返り、今後会話型AIが社会にどのような影響を与えていくのかを考えるきっかけになれば幸いです。

登場する言葉の定義を確認する

本題に入る前に、本記事で扱う用語について整理します。

ChatGPT

ChatGPTは、OpenAIが開発した対話特化の大規模言語モデルです。

会話形式でユーザーの質問に答えたり、プロンプトの指示にしたがって自然言語によるタスクを高精度にこなします。(ソースコードの記述、手順書の作成、エッセイの執筆、インタビュースクリプトの作成 etc…)

とにかくなんでもできてしまいます。

ChatGPTすごすぎる。。。
「Kotlinでログイン画面書いて」とだけお願いしたら、ちゃんとActivity作ってログイン画面書いてくれた。 pic.twitter.com/3HxIb2yCFU
— maKunugi (@maKunugi) December 1, 2022

ChatGPTが手順書書き出した。 pic.twitter.com/5ek8Wpju2P
— maKunugi (@maKunugi) December 1, 2022

文章生成系の大規模言語モデル「GPT-3」の後継にあたる、GPT-3.5を対話向けにファインチューニングしているとのことです。AIが書いたかどうか、ぱっと見てもわからない、高精度な文章生成が行える点に加え、特筆すべきは、下記の機能を備えている点です。

間違いを認めることができること
正しくない前提に対する意義を唱えることができる
不適切なリクエストに応じないこと

これまでのGPTシリーズ同様、事実と異なることをあたかも本当のことのように語ってしまうといった問題はあります。しかし、これらの特徴により、実用性が増した分瀬縫製整形の大規模言語モデルが登場したと言えます。ここからさらに進化を続けていけば、会話型AIが社会の中で今後より重要な役割を担うようになると思わされるようなプロダクトです。

ChatGPTの詳細については、下記の記事がとても勉強になりました。

会話型AI

コンピュータが人間の発話に自動で応答するプログラム(AI)のことを、本記事では「会話型AI」と呼ぶことにしました。
(類似の表現があり、毎回どう呼ぶべきか迷います。)

類似表現としては、下記のような表現があります。
・対話システム
・対話型AI
・自動対話AI
・会話AI

日本では「対話システム」という表現が学術的に多く利用されている節ががあります。しかし、世間一般的に「人間のように話せる」＝「AI」のようなイメージが定着している感もあり、「会話型AI」という表現がしっくりきたため、この表現としています。

明確な定義があるわけではない認識ですが、下記のようなシステムは、会話型AIに含まれるものとして話を進めます。

・チャットボット
・ボイスボット
・スマートスピーカー
・音声アシスタント

また、会話型AIの分野では「何を持ってAIなのか？」という話が付きものです。機械学習的な要素を含むものなのか、はたまたディープラーニングを活用しているものなのか等です。しかし、ここでは特にそこは気にせず、「人間のように会話をしようとするプログラム」のことを総称して「会話型AI」として呼称させていただきます。

会話型AIの意義

会話ができるAIが求められる理由についても少し考えたいと思います。会話型AIに求められる要素は様々であると思いますが、「会話」というコミュニケーションのインターフェースが、人間が長い歴史の中でアップデートしてきた、ものすごく親しみ深く効率的なものであるという点が重要だと考えています。「会話」は人間同士の意思疎通や情報伝達を図る上で、非常に効率的なインターフェースです。このインターフェースを人間とコンピュータ間にも適用するのが、会話型AIに期待されることです。

人間とコンピュータの間に存在するインターフェースは、今までキーボードやマウス入力、音声入力、CUI、GUIなど様々な形で進化してきました。しかし、まだまだコンピュータが理解するために人間が気を遣わなければいけないことが多く、一度のやりとりで疎通できる情報量に限りがあります。会話型AIは人間とコンピュータのやりとりを人間に馴染みが深い自然なものとします。それにより、人間がAIやソフトウェアの恩恵をより多く得られるようにすることにつながります。そのための１つのhowが会話型AIであるのだと思います。

こういった理想はありつつ、技術的に自然な会話を行うには至っていなかった背景がありました。しかし、ようやくその理想の実現が見え始めた出来事こそが、ChatGPTの登場なのではないでしょうか。

変遷

前置きが長くなってしまいましたが、それでは本題に入っていきましょう。
会話型AIに関わるサービスや技術について、年代順に振り返っていきます。

ELIZAの登場(1964年~)

会話型AIの始まりは、「ELIZA(イライザ)」であると言われることが多いです。マサチューセッツ工科大学のワイゼンバウム教授によって開発されました。PCが一般化する15年も前の時期に行われた、コンピューターと人間の間で、人間同士の会話を行っているように見せかけようとした最初の試みです。

ELIZAは「パターンマッチング」の手法を使った自然言語処理プログラムです。文字入力によって対話を行います。あらかじめ「こう聞かれたらこう返す」というパターンを用意しておき、ユーザーの発話とそのパターンを照合して応答を行います。また、ユーザーの発話から抽出したキーワードを、次の応答に織り交ぜることによって、会話をシミュレートしました。用意したパターン内でしか応答を返せませんが、多くの人が人間相手だと錯覚し、反響を呼びました。

引用元: https://ja.wikipedia.org/wiki/ELIZA

ELIZAはコンピュータによるカウンセリングを目的に開発されました。「非指示的カウンセリング」というカウンセリングの療法が採用されており、ELIZAは聞き役としてユーザーの発話に対して応答を返します。

このELIZAが会話型AI領域の先駆けになりました。日本ではELIZAの影響を受け、後述する「人工無能」と呼ばれるプログラムが流行ることにもなりました。

PARRY(1972年~)

アメリカの精神科医であるKenneth Colbyが開発したのが、PARRYです。大まかにはELIZAと似たような技術が利用されていますが、PARRYはELIZAとは逆で、患者を模倣したプログラムです。統合失調症の患者を模倣し、会話をシミュレートしました。患者側の振る舞いをモデル化して会話をシュミレートすることによって、治療に生かすための試みでした。PARRYは自身の感情についての発言も行い、より人間味のあるプログラムであると注目を浴びました。ELIZAとPARRYでAI同士の会話をさせる試みも行われたそうです。

JABBERWACKY(1988年~)

JABBERWACKYは、Rollo Carpenterによって開発された会話型AIです。チューリングテストに合格できる人工知能を作ることを目指していたとされています。ELIZAやPARRYのように特定の領域に特化したものではなく、人間とコンピュータが自然に一般的な会話ができることに焦点を置いていたと言います。一問一答のやりとりではなく、会話のコンテキストを把握し応答をするアプローチも採用されました。JABBERWACKYは1997年にインターネット上でも公開をされています。JABBERWACKYから派生してCleverbotなどの様々な会話型AIが生まれました。

A.L.I.C.E. (1995年~)

A.L.I.C.EはRichard Walleceが開発を行った会話型AIです。A.L.I.C.Eも特定の領域の会話に特化せず、楽しくコンピュータと会話をすることを目的に開発されています。(非タスク思考型の会話型AI)
A.L.I.C.EはELIZA同様、パターンマッチングを使用して会話を行いますが、AIMLと呼ばれる人工知能用のマークアップ言語（XMLの拡張）を開発して利用したところが特筆すべきポイントです。AIMLは今日の会話型AI(特にシナリオ型のチャットボット)でも幅広く利用され、様々なプログラミング言語で利用するためのライブラリが公開されています。A.L.I.C.Eはオープンソースで開発がされており、AIMLで記述された膨大な数のルールが作成されています。2000年には人工知能として最も人間に近いと評価された会話型AIに贈られる「ローブナー賞」を受賞しています。(2001, 2004年も受賞。)

日本における「人工無脳」のブーム

前述したELIZAを初めとする会話型AIの影響を受け、日本でも会話型AIの開発が行われます。日本語は区切りが曖昧である等の背景もあり、独自の進化を遂げてきました。(形態素解析が必要になるなど)厳密な年代は不明ですが、1990年代後半〜2000年代前半には、この「人工無脳」というワードが広く扱われていた印象です。

ややネガティブな表記ですが、日本ではパターンマッチングによって応答をするような会話型AIを「人工無能」と呼ぶようになりました。プログラムが会話の内容を理解しているわけでなく、パターンマッチングによって反射的に応答を返しているだけであったため、映画に登場するような「人工知能」と対比した「人工無脳」(人工無能)という表現が利用されるようになったものと思います。日本では、安易にパターンマッチングで会話ができるプログラムを「人工知能」と呼ぶと、「それって人工無脳なんじゃないの？」とまさかりが飛んでくるような時期がありました。

人工無脳の実装方法は様々で、パターンマッチングを用いた方法やマルコフ連鎖を用いて応答を確率的に生成する方法、会話ログから適切な応答を抽出して応答を返す用例ベースの方法など様々です。現在現役で活躍しているような会話型AIも捉え方によっては「人工無脳」であるとも言えますが、この表現はあまり利用されなくなってきていると感じます。

シーマン(1999年~)

世界で初めての音声認識を用いた会話型ゲーム「シーマン」がセガから1999年に発売されました。「シーマン」はシーマンと呼ばれる人面魚と会話をしたり、餌を与えるなどしてコミュニケーションを図りながら育成をするコミュニケーションゲームです。シーマンの独特なキャラクター性やゲームの世界観が反響を呼びました。まだ音声アシスタントやスマートスピーカーも存在しない時代にかかわらず、音声会話によって成立した人気サービスであった点からは、学ぶことが多いプロダクトです。

SmarterChild(2001年~)

ニューヨークにあるActiveBuddy社が開発した会話型AIです。いわゆるチャットボットとして提供され、多くのユーザーに利用されました。MSN MessengerやAOL Instant Messangerなどのプラットフォームで利用ができ、今でこそ一般的になった様々なメッセンジャーサービス上で動作するチャットボットの先駆けです。様々なサービスと連携したりデータベースにアクセスして情報提供ができました。

Siri (2010年~), Google Now(2012年~)

2010年にはSiriが登場しました。Siriは多くの方がご存知の通り、iPhoneで動作する音声アシスタントサービスです。iPhone4Sから搭載されました。自然言語を理解し、スマートフォン操作や一部の雑談を行うことができるサービスです。Siriの登場により、音声認識・音声合成を用いた会話型AIがより身近な存在となりました。

2012年にはGoogle Now（現在のGoogleアシスタント）がリリースされるなど、Siri以外の音声アシスタントサービスが増え始めます。
日本でも、NTTドコモから「しゃべってコンシェル」が、ヤフーから「音声アシスト」がローンチされるなど、様々な企業がこの領域に参入しました。
（余談ですが、私もちょうど大学生だったこの時期に音声アシスタントアプリの開発にチャレンジし、Android向けに運用を行っておりました。)

上記は私が開発していた音声アシスタントアプリを取り上げていただいた記事です。

Word2vecの登場 (2013年~)

2013年にGoogleの研究者のトマスミコロフ氏によって提案された手法です。いわゆる単語の分散表現を獲得するための手法で、単語の関係性をベクトルで定量的に表現をすることができるようになりました。
(※単語のベクトル表現を行う手法自体はそれ以前にもありました。)

Word2vecの紹介でよく利用される式

king - man + woman = queen

単語の「意味」を定量的に扱えることが一般的になったことで、会話型AIの精度向上にも大きく寄与しました。例えば、Word2vecは文章間の類似度計算の精度向上に繋がりました。この頃の会話型AIは、「用例ベース」と呼ばれるような前もって蓄積された会話の発話ペアから似た発話を探して応答を返すような仕組みを採用しているプロダクトが多くありました。そういったプロダクトはこの文章間類似度の計算精度の向上の恩恵を強く受けました。

そのほかにも様々な場面で応用され、Word2vecの登場は自然言語処理の分野におけるブレイクスルーとなりました。Word2vecを皮切りに様々な分散表現獲得の手法が発表されましたが、現在も自然言語処理の分野において不可欠な技術要素となっています。

Deep Learning(2013年〜)

現在の人工知能ブームを到来させたDeep Learningがこの頃から広く活用され始めます。Deep Learningの根幹である「多層ニューラルネットワーク」の研究は1990年代からすでに行われていましたが、マシンスペックの制約等があり長らく冬の時代を迎えていました。ようやくこの頃になり制約を乗り越え、広く利用されるまでに至ります。

Deep Learningは会話型AIに関わるあらゆる技術領域の精度を飛躍的に向上させました。音声認識の精度向上はDeep Learning人気が白熱する際によく取り上げられた領域です。音声アシスタントやスマートスピーカー普及につながりました。また、自然言語処理領域では、翻訳技術向上で注目をされていた「Seq2Seq」等の技術により自然な会話が実現できるようになり、会話型AIの開発に応用されました。Seq2SeqはRNNという時系列データの予測で利用されるDeep Learningの代表的な手法を応用した技術です。そして、音声読み上げ(合成)の領域でも、WaveNet(2016年)などの手法が発表され、機械かどうか少し聞いただけではわからない精度の音声読み上げが実現できるようになりました。

りんな (2015年~)

日本マイクロソフトが開発した「女子高生AIりんな」は、自然な女子高生らしさを保ったまま親しみ深い自然なやりとりをLINE上でできると話題を呼びました。(現在は、rinna株式会社としてMicrosoftからスピンアウト)
コンセプトを「Emotional」としており、感情的で会話(雑談)をしたくなるような設計が施されてます。

何かしらのタスクの実行を目的とした会話型AIは「タスク指向型」と呼ばれます。一方で、特定のタスクが目的ではなく、雑談コミュニケーションに目的を置いたものを「非タスク指向型」(あるいは雑談AI)と呼びます。非タスク指向型の会話型AIはビジネス化が難しく、曖昧な表現に対処しなくてはいけなかったり、話題が無限にあったりと、大きな困難を抱えていました。そんな中でのりんなの登場は、雑談ができるAIとして注目すべき存在でした。多くの人々から受け入れられ人気を博した点において、雑談AI普及の先駆け的存在でいsた。

チャットボット元年 (2016年)

世界ではこの頃すでに、チャットボットを活用したサービスが流行り始めており、市場規模が急速に拡大を始めていました。そのため、2016年は世界的なチャットボット元年と呼ばれることもあります。Deep Learningを初めとした自然言語処理技術の発展と、スマートフォン登場後の様々なメッセージングサービスの普及が後押したものでした。

この頃、チャットボットの「会話」を構築するためのサービスが次々と生み出されます。例えば、現在Googleが会話型AI構築サービスとして提供している「Dialogflow」も2016年に「api.ai」というサービスを買収して生まれました。そのほかにも数多くのサービスが登場しました。2010年ごろから開発が始まっていたとされる、IBM Watsonも大きな注目を集めました。

そんな中、日本で最も普及したメッセージングサービスである「LINE」からMessaging APIがリリースされます。LINE上で動作するチャットボットを構築するための仕組みとして発表されました。これにより日本でもチャットボット作成の流れに火が付き、様々な企業がチャットボットの作成に乗り出します。同時に国内でもチャットボット構築のためのSaaSが爆増し、今やとんでもない数のサービスが存在しています。(日本では2017年がチャットボット元年と呼ばれます。)

チャットボットが普及する中、音声合成・音声認識を組み合わせた「ボイスボット」の領域も拡大し始めました。

スマートスピーカー元年(2017年)

チャットボットの盛り上がりの中、スマートスピーカーも登場します。Amazon EchoやGoogle Homeといった家庭用のスマートスピーカーがリリースされ、アメリカを中心に普及しました。スマートスピーカーの登場により、「Voice UI」という新たなユーザーインターフェースの概念も登場します。日本ではややスマートスピーカーへの反応が薄い感が否めないですが、世界的にかなり一般的なものになっています。会話型AIがチャットボットのようなメッセージングUIを飛び出し、より人々の暮らしに近いところで動作できるようになった衝撃的な出来事でした。

大規模言語モデルの登場(2018年~)

BERT

2013年のDeep Learningの流行により、様々な分野でAIが急速に発達を遂げてきました。前述した通り、Deep Learningは自然言語処理領域にも影響を及ぼしていたものの、画像認識や音声認識などといった分野と比べると、大きなインパクトがなく、実用性が少ない状況でした。

そんな中、2018年ごろから自然言語処理領域でもブレイクスルーが起き始めます。それが、大規模言語モデルの登場です。その筆頭が2018年にGoogleが発表した大規模言語モデルの「BERT」です。BERTは文章を文頭と末尾の双方向から学習を行う設計のモデルで、文脈を高度に読み取り、様々な自然言語処理のタスクをこなすことができます。会話型AIはチャットボット、ボイスボット、スマートスピーカー、音声アシスタントなど、様々な形で提供され始めていました。それにより会話型AIへのユーザーの発話の仕方も多様化し、より柔軟な「発話の意図理解」が必要とされました。BERTはコンピュータが人間の発話意図を汲み取ることができるレベルを飛躍的に上げ、より文脈にあった情報をユーザーに提示できるようになりました。現在の会話型AI領域におけるシステム開発に欠かせないものとなっています。

GPT
そしてもう一つ大きなインパクトを世界に与えたのが、「GPT-3」です。BERTが文章を「読む(理解する)」言語モデルだとすると、GPT-3は「生成する(書く)」ための言語モデルです。GPT-3は2020年にOpenAIが発表しました。GPT-3は下記から利用が可能です。

「3」とあるように、GPT,GPT-2といった先代の言語モデルも存在しますが、GPT-3はその並外れた学習データの量とコストが可能にした高精度な文章生成能力が評価され、注目を集めています。GPT-3はあたかも人間が書いたかのような自然な文章を自動で生成ができ、様々なタスクに応用できます。
「SNSでGPT-3が投稿したコメントが、AIによるものだと気づかれなかった」
「GPT-3が書いたブログをAIが書いたものだと見抜けなかった」
といった反響が世界中で巻き起こりました。そして、GPT-3を初めとした文章生成型の言語モデルにおいて注目を集めたのが、「プロンプト」によるAIへの指示です。プロンプトとは、文章生成したい文章の前に記述しておく、「見本となる文章」です。こんな文章が欲しい」という要望を言語モデルに伝える仕組みです。

引用元: https://wirelesswire.jp/2021/04/79591/

こちらは、英語をフランス語に訳す処理をGPT-3に実行させている様子です。「English: ~ French: ~」という文章がプロンプトです。いくつかの英語とフランス語のペアをGPT-3に教えることで、英語をフランス語に翻訳して欲しいことを言語モデルに伝えています。

このプロンプトを用意した上で、「English: I love you.」という文章を入力すると、フランス語に翻訳されています。このように、事前にタスクを実行するための学習(ファインチューニング)などを行わずとも、プロンプトを書いただけでAIに特定のタスクを実行してもらうことができてしまったわけです。これはAIの活用をより身近なものにする画期的な仕組みでした。ChatGPTが様々なタスクを自然言語の問いかけに対して実施できるのも、同様な仕組みです。

GPT-3はプロンプトを工夫することで、自然な応答を行う会話型AIの構築も可能です。しかし、BERTが幅広く会話型AIの分野で実用的に活用されているのに対し、GPT-3はそこまで実用的な活用は進んでいません。その背景には、GPT-3が事実と異なることも「あたかも本当のように」文章生成してしまう点にありました。例えばGPT-3で作成した会話型AIは、下記のような返答をしてしまう可能性があります。

Q: 山梨県の名産といえば？
A: キウイフルーツが有名です。山梨県のキウイフルーツはジューシーで全国　的な人気を誇っています。また、キウイフルーツを品種改良したネオキウイフルーツという黄金のキウイも販売されています。ふるさと納税の商品として絶大な人気を誇っています。

例えるために私が書いた極端な例ですが、例えばこんな嘘の内容をあたかも本当かのように書いてしまう可能性があります。GPT-3はパラメータ数約1750億、学習コスト5億円超えの大規模モデルですが、まだ事実と異なることを述べてしまうことが多々あります。また、できないことを「できない」と言えないため、「それっぽいことを返してしまう」傾向があります。

Q: この前タイムマシンができたらしいんだけど、もう利用しましたか？
A: はい、早速利用しました。タイムマシンはとても便利ですよね。

こちらも私が例えるために書いた極端な例ですが、ユーザーが嘘の事実に基づいた発話をした場合も、確率的に生成されたそれっぽい文章で応答をしてしまう傾向があります。これらの課題があり、会話型AIへの実用的な応用がそこまで進んでいない現状がありました。

しかし、このGPT-3の後継であるGPT-3.5をベースとしている「ChatGPT」は、これらの問題を大きく改善していました。かなり実用的なレベルに近づいたことをChatGPTを利用した多くの方が感じたと思います。GPT-4の登場も近いと噂されていますが、GPTのような文章生成AIが会話型AI領域で実用的になるのも時間の問題だと思われます。

また、日本語向けのモデルとして、2021年にrinnna株式会社が日本語特化のGPTモデルをオープンソースで公開しました。(日本語の自然言語処理領域に携わる人々にとって、大変ありがたいことでした。)

LINE株式会社も超巨大言語モデルの開発に乗り出したという発表も2020年にありました。

文章生成系の大規模言語モデルから目が離せません。

メタバースへの注目 (2020年~)

ここ数年でメタバースへの注目が高まっています。似たようなバーチャル空間の概念は以前からありましたが、Facebookの巨額投資やVR、AR、ブロックチェーンといった技術の登場の流れを受け、「メタバース」が脚光を浴びています。それと同時に、バーチャル空間におけるコミュニケーションのあり方にフォーカスが集まるようになりました。

デジタルヒューマンの登場 (2020年~)

メタバースのようなバーチャル空間では、会話型AIはより生き物に近しい見た目で存在するようになりました。チャットボットのようなメッセージングUIから、より実際の会話に近いインターフェースに変化してきています。そんなか登場したのが、「デジタルヒューマン」です。デジタルヒューマンは人間をリアルに再現したAIキャラクター(AIアバター)です。

無機質なコミュニケーションになりがちだったチャットボットと違い、より人間味のある共感を得られやすい対話ができると、期待されています。

ChatGPTの発表(2022年)

そして最後に、ChatGPTの登場です。ChatGPTは冒頭で説明した通りです。GPT-3の持つ課題も解消されつつある、GPT-3.5ベースの対話に特化した大規模言語モデルです。「シンギュラリティ」の到来さえも予感してしまうような、とてつもないインパクトのあった発表でした。

公式サイトに記載があるように、まだまだ課題はあります。改善されてきているとは言え、まだまだ事実と異なる情報を述べてしまうケースも多くあります。こういった課題は後継のモデルでさらに改善がなされていくと考えられます。

まとめ

会話型AIに関連する技術やサービスの変遷を、個人の主観が多めですがまとめてみました。振り返ってみると、Deep Learningの普及から約10年で目まぐるしい技術進歩があったことがわかります。

①Deep Learning普及前 (~2012年)
②Deep Learning普及後 (2012年~)
③BERT普及後(2018年~)
④???

上記のように大きく４つのフェーズに会話型AIの変遷は区切れるように思います。「①Deep Learning普及前」はELIZAを皮切りに会話型AIの基礎技術が発達してきました。Deep Learning以前の機械学習の様々な手法を駆使して進化を遂げてきました。

そして「②Deep Learning普及後」は、それまでの会話型AIの基礎技術にDeep Learningの技術を組み合わせることによって、会話型AIの精度を飛躍的に向上させました。

さらに、Deep Learningの研究が進み発表された「③BERT普及後」は、会話型AIをより実用的なものに変え、スマートスピーカーなどのインターフェースの多様化も相まり、社会に浸透して身近な存在になりました。

①~③のフェーズは、利用している技術は違えど、実用化されている会話型AIの大半は「人間が設計した会話をAIによって実行させる」というものでした。人間が会話のシナリオや用例、情報検索用のデータベースを用意し、応答をさせているものがほとんどです。人間のコントロールが可能な範囲で会話ができる会話型AIが主流の世界でした。

一方で、次の会話型AIの変革であろう④は「次世代の文章生成系の大規模言語モデルの実用化」によって起こると考えられます。ChatGPTでその片鱗がみられたように、文章生成系の大規模言語モデルを用いた会話型AIは、大量の学習データを元にAIが判断を下して会話を行っていきます。GPT-3 -> GPT3.5で既に飛躍的な進歩があったように、今後GPT-4の発表等によりさらに改善が見られるはずです。これまでの文章生成系の大規模言語モデルの課題を克服する、さらに高精度のモデルが近い将来登場するでしょう。そうなれば、人間が会話の設計をせずとも、自立して会話を行うような会話型AIが登場し始めます。①〜③のフェーズにあった会話型AIのあり方を大きく覆す、とてつもない変化となります。会話の設計に人の手が加わらないことにより、会話型AIにおける「道徳・倫理」「法律」「情報の信頼性の判断」「AIの思考プロセスの可視化」「会話型AI運営者の責任」といった議論が白熱していくとでしょう。GPT-4の発表は2022年という噂も前々から飛び交っており、近い将来とんでもない発表があるかもしれません。

また、会話型AIのインターフェースはCUIから始まり、チャットボットのようなメッセージングUI、スマートスピーカーにおけるVoice UI、そしてデジタルヒューマンと様々なインターフェースが登場してきました。会話型AIのユーザーインターフェースが多様化するに伴い、社会のあらゆる場面で会話型AIの活用が進んでいくと考えられます。

引用元: https://www.gartner.co.jp/ja/articles/the-4-trends-that-prevail-on-the-gartner-hype-cycle-for-ai-2021

上記はGartner社のHype Cycleです。2021年の時点においてチャットボットは「幻滅期」に差し掛かっていました。冒頭で「会話型AIの意義」について考えましたが、これまでのチャットボットを初めとする会話型AIは、「会話」というとても理想が高くなってしまいがちなコミュニケーションインターフェースに立ち向かってきました。その理想に技術が追いつかず、幻滅をされていたのがまさに今のフェーズでした。チャットボットの「過度な期待期」にこぞって導入されたチャットボットの多くは、運用が終了されています。クーポン発行のためにLINE公式アカウントのBotを友達追加しても、すぐにブロックしてしまう人が多いのも事実です。そんな幻滅期でしたが、今まさにフェーズが変わる兆しがあります。会話型AIの再ブームが近い将来訪れるはずです。ぜひこの動向を注視していきたいです！

長々としたまとめになってしまいましたが、最後までお読みいただきありがとうございました。個人的な主観に基づいている箇所も多々ありますが、参考になれば幸いです。

気になる点やフィードバック等ございましたら、お気軽にこちらのTwitterまでお寄せください。
https://twitter.com/maKunugi

この記事が気に入ったらサポートをしてみませんか？