短期記憶を持たないAIとの会話、あるいは私達がそう感じるもの
ChatGPT、便利ですよね。テレビでも取り上げられるなど一般認知度も急上昇している印象です。しかし知名度が急に上がったことに反して、実はそれほど、急に出てきた技術ではありません。GPTシリーズ最初のGPT-1が発表されたのは2018年です。
Google Trendsで検索数を見ても、やはり2022年11月のChatGPTリリースから検索数が急激に伸びている印象です。それ以前からあったGPTの検索数はそれに比べると少ないものです。バージョン的にはGPT-1、GPT-2、GPT-3、ChatGPT(3.5)、そして最新のGPT-4と上がっていますが(*1)、知名度が急上昇したタイミングと性能の上昇の程度やタイミングが必ずしも一致しているわけではないことがわかります。
普及のポイントはもちろん「Chat」でしょう。以前からGPTシリーズを使うことはできた、とは言っても、ChatGPTのように誰でも簡単に利用できるインターフェースはありませんでした。インターフェースの改善というのはユーザーにとって重要ではあるものの、OpenAIの開発者たちもこんなにも人気になるとは想像できていなかったと言います。
そして流行の理由にはもう一つ「会話形式でやり取りができる」ということが挙げられるでしょう。チャットと会話って一緒じゃないか、と思うかもしれませんが、チャット風入力ができてもトンチンカンな返答ばかりで会話は成り立たないことはありますよね。人間相手でも時々ありますね。
「GPT」は「Generative Pre-traind Transformer」の略です。事前に、大量の文章から、そこに含まれるパーツ(トークンと言います)の「関係性」を学習しておきます。そしてそれをもとに入力に対しても、関係性から出力の文章を生成する仕組みです。
まず一つここでポイントなのは「事前に」ということです。私と会話している(ように私たちが感じる)ChatGPTも、「事前に」学習したことしか覚えていません。「事前に」なので、その時交わされている会話のことも覚えていません。
会話とはやり取りが続いていることです。そしてやり取りが「続いていること」とは単に時間的に連続しているということではありません。内容も続いているということです。
続くために必要なのは、それ以前に何を話していたかという記憶です。「おはよう」の後に「お腹すいた」と言ったら朝ごはんについての会話がなされるのは、その前の「おはよう」という会話の「文脈」を覚えているからです。もし人間が一言発するごとに記憶を失っていたら会話を継続するのは難しいですよね。
ChatGPTはさきに述べた「学習」した時の、ある意味での記憶は持っています。しかし、今している会話内容がその学習に含まれてすぐに反映されるようなものではないわけです。私と交わした1分前の会話のことは覚えてはいません。あえて人間に置き換えて例えるならば、長期記憶は持っているが、短期記憶は持っていない人間のようなものでしょうか。
ではどのように「会話している感じ」を実現しているか。「会話のやり取りの履歴を、こちらが一言話すたびに毎回改めて全て教えてあげている」のですね。
つまり、ChatGPTと人間の実際のやり取りの、イメージとしてはこんな感じです。
連載中の漫画家がそれまでの連載のことを一切記憶していなくて毎回第一話から読み直してちゃんと最新話を書くようなことかもしれません。
「世界五分前仮説」というものが哲学の思考実験にあります。
これはもちろんただの思考実験で、世界はおそらくは5分前以前から存在します。しかし常にイチから説明されて返答するChatGPTにとっては世界とはまさにそのようなものである、と喩えてもいいのかもしれません。
もし人間との会話で同じように、毎回新しい発言をするたびにイチから伝え直していたら、自分がいましてるこれは果たして、会話していると言っていいのか?と疑問に感じるでしょう。しかしChatGPTの中身はそのような仕組みなのです。そして私たちはそこに確かに会話をしているという感覚を持っています。
記憶を持って会話しているように私たちが感じるChatGPTの内部的な仕組みが実はそのような、ある意味で単純なものであるというのは「ChatGPTが大したことがない」ということを示すのではないかもしれません。もしかしたら「私たちが普段している会話というものも実はそのようなものなのではないか」という可能性を示唆しているとも言われています。
*1: 「セマンティックバージョニング」と呼ばれるテック業界でよく見かけるバージョン番号の付け方についてはこちらの記事が参考になります。
*2: GPTの中身(モデル)も「Ada」「Babbage」「Curie」「Davinci」など、性能やコストが異なる複数のものがありトレードオフがあります。かつ目的によって(ChatGPTであれば会話が成立しやすいように、など)調整されたり組み合わせたりされているので、一概に単純比較できるものではありません。
この記事が気に入ったらサポートをしてみませんか?