シンギュラリティが起きてしまった感、あるいは人とAIの思考の決定的な違い

2023年7月4日 17:04

シンギュラリティは訪れたのか

いきなりですが、文章を書くという領域に限ると、AIが人の能力を超えるときは来たのでしょうか。私はそうだと思っています。シンギュラリティを「人の能力をAIが上回ること」と捉えるなら、シンギュラリティは既に起きたとの立場です。ただし、かなりの留保付きではありますが。

前回書いた通り「知性」という言葉に決まった定義がないのと同様、書く力も数々の評価軸から成る多角的な技能であり、ある面では人を超え、別の点ではまだまだ劣るのが、言語処理能力を備えるAIの現状でしょう。それでもChatGPTと戯れていると、「シンギュラリティが起きてしまった感」をどうにも拭い去れないのです。

何よりも強調したいのは、ChatGPTがちゃんとした文章を書けることです。私が日々使い始めて一番衝撃を受けたのが、言葉遣いが変じゃないどころか、どんな質問をしてもきちんと筋道の通った文章が返ってくることでした。そんなはずはないと知りながらも、「実は人が書いているんじゃないか」という疑念がしばらく頭を離れませんでした。今ではだいぶ慣れましたし、ちょっとAI臭いかなと思う回答も結構目にしますが。

AIがまともな文章を書けることは、いくら強調しても足りないくらいすごいことだと自分は感じています。それでもこの能力についてAIを褒め称える発言をあんまり見たことがありません。

もちろん、AIブームと言われ続けてきた中でも空前の盛り上がりを見せる昨今の状況は、この点に大きく与っているでしょうし、AIが「嘘をつく」ことには非難轟々なのに、「文章がおかしい」という指摘を驚くほど見かけないのは、そこには穴がないことを暗黙のうちに皆が認めているからでしょう。それでも私は声を大にして言いたい。機械が文章を書けるって本当にすごい。

人は文を書くのが苦手

正直に言えば、AIがここまでの力を身につけるのは、まず無理だろうなと思っていました。技術的な観点からではなく、文章の書き手として常々思うところがあったからです。「人間でもちゃんとした文章を書けるのは一握り。それくらい難しい能力なのだから、機械にはできるはずがない」と。現に、この理屈を持ち出して、AIの成長に脅威を感じる相手に、反論したことがあったような、なかったような。

自分の30年を超える職歴の中で、中心的な業務の一つは文章を読むことでした。市販の書籍や雑誌を読み耽るということではありません。そうした商品になる前の原稿が、自分の作業の対象でした。記者や寄稿者が書いた文に疑いの目を向け、論理の矛盾や本筋と関係ない話をあぶり出し、時には著者に話を聞きつつ、バッサリと書き直す。いわゆる「デスク」と呼ばれる役割をずいぶん長いことしていました。

その間にしみじみ思ったのが、じっくり読ませる原稿どころか、首尾一貫した文章を書くことさえ、そう簡単には身につかない能力だということです。デスク作業が憂鬱な理由は、初めて読む原稿には、ほぼ間違いなく手直しが必要なことにあります。散漫な文章がわけもなく続いたり、そもそも何が言いたいのかわからない原稿は珍しくありません。

最初は、理系出身者ばかりいる職場のせいかと邪推しました。ところが、文系揃いの環境に放り込まれた時でも大差はありませんでした。本職ですらこうなのですから、書き慣れない人にとってのハードルは相当のはず。その証拠に、文章術を指南する書籍は世にこれでもかと溢れています。

一方でChatGPTの手による文章は、心に響く名文とはいわないまでも、正しく意味が伝わるように、きちんと書かれた印象です。文の主題が明確で、論理的に主張を展開しています。私は主に質疑応答形式で使っているので、当たり前かもしれませんが。

それでも、ややこしい技術の概要を的確にまとめたり、それなりに長い文章を器用に要約したりする手腕にしばしば驚かされます。知識の量や書き上げるスピードが人並み外れているので、一概に比較はできないのですが、自分の知る記者の中でここまで書ける人材はすぐには思い浮かびません。

小さい器に途方もない知識

もちろん、人並みに文章を書けるだけでは、人を超えたとは言えません。大上段に構えて、シンギュラリティとまで大言壮語したのは、それなりの理由があってです。一言で表せば、ChatGPTをはじめとする自然言語処理AI（≒大規模言語モデル）は、文章を扱う上で、人の頭脳よりもずっと優れた仕組みかもしれないこと。あわてて付け加えると、ここでもまた一部の側面に限った話ではありますが。

この見解を初めて目にしたのは、Googleをやめたジェフリー・ヒントン教授の発言でした。MIT Technology Reviewのインタビューで、教授はこう語っています。「人の脳には100兆もの結合があるのに対して、大規模言語モデルでは1兆の半分、多くても1兆だ。それでもGPT-4は、一人の人間と比べて何百倍も多くのことを知っている」（拙訳）。

彼が比較した数字は、人と大規模言語モデルそれぞれで記憶を担う素子の数と言い換えられます。人の脳は神経細胞の間のつながり（いわゆるシナプス）の強弱に、大規模言語モデルでは演算素子（ニューラルネットワークのユニット）の間の重み（いわゆるパラメータ）の大小として、学習した情報を蓄えているからです。

念のためヒントン教授の指摘をもう一度書くと、人の脳のシナプスの数は100兆、大規模言語モデルの重みの数は多くても1兆$${^{*1}}$$。つまり両者の差は数百倍にも及ぶのです。大雑把にいうと、大規模言語モデルは記憶素子の数が人の脳の何百分の1に過ぎないにも関わらず、ありとあらゆる問いに対して答えが返ってくるほど膨大な知識を蓄えていることになります。

*1　例えばイェール大学の研究室のサイトでは、教授と同様に人の脳内のシナプスの総数は100兆以上と見積もっています。一方の大規模言語モデルの規模は個々のモデルによって様々ですが、現在のChatGPTの前身とも言えるOpenAIの「GPT-3」では重みの数は1750億でした。後継の最新技術GPT-4の数字は非公開ですが、既に1兆を超えるモデルの事例はある上、この業界の立役者であるヒントン教授の発言は鵜呑みにしていいと思います。

もちろん人の脳のシナプス数には異論もありそうですし、知覚から運動まで人の行動全てを律する脳が、言語処理に割り当てているシナプスの総数は意外に小さいのかもしれません。その結果、仮に人とAIで言語処理に利用する記憶素子の数が同程度だったとしても、現状の大規模言語モデルの能力が驚異的であることに変わりはありません。ポンコツな自分の頭は言うに及ばず、ChatGPTほど博識な人物の存在は、ちょっと想像がつかないほどです。もちろん繰り返し指摘されるように、大規模言語モデルの答えには間違いもかなりありますが$${^{*2}}$$。

*2　言語モデルがありもしない事実をでっち上げる現象は「幻覚（hallucination）」などと呼ばれますが、ヒントン教授は先のインタビューで「作話（confabulations）」と呼ぶ方がいいとして、「人はいつも作話している。作話は人の記憶の証しであって、これらのモデルは人と似たようなことをしている」（拙訳）と語っています。私も同感で、こちらの記事にもちょっと書きました。実際、その気になって探すと人の間違いは結構あるもので、例えば最近読んだ書評に「『リバース･エンジニアリング』という言葉がある。テクノロジーの進化にまつわる概念で、デネットという哲学者が提唱した」と書いてありました。自分の理解では、この言葉はテクノロジーの進化にまつわるというより、技術を再構成するための（時として後ろめたい）手法であり、ダニエル・デネットが提唱したという事実は確認できませんでした。試しにChatGPTに聞いてみると、《哲学者ダニエル・デネットは、「リバース・エンジニアリング」という語を起源や発展に関連づけることで有名ですが、彼がその語を最初に作ったわけではありません》とのこと。他にも別の記事や本で、いくつも間違いを見つけたのですが話が逸れるので、このくらいで。そもそも、明らかな嘘をいつまでたってもつき続ける人物が、世界最高の権力を握る、大国の大統領だったりする人類にはAIを非難できないのでは。

想定外の急成長

元々、大規模言語モデルの基盤技術であるディープニューラルネットワーク（DNN）は、知的な作業を実行する仕組みとしては、人の脳と比べて劣る存在と見なされてきました。当のヒントン教授がそう考えており、DNNの学習方法を人間のそれに近づける「Forward-Forwardアルゴリズム」を2022年末に発表していたほどです。シンギュラリティ論者が、AIが人の能力を超える時期を見積もるために、人の脳の動作を再現できるほど高いコンピュータの処理性能を前提としてきたのも、同じ発想に基づきます。

昨今の言語モデルの進歩が、この常識を覆しました。こちらのインタビューによれば、ヒントン教授はGoogleの大規模言語モデル「PaLM」がジョークのおかしさを説明できるようになった頃から、見方が変わってきたといいます。そして、Googleを辞める数ヶ月前に「（彼自身が開発に携わったAIの学習アルゴリズムである）バックプロパゲーションの方が、脳よりもずっと優れているのではないか」（拙訳）と思い立ち、1980年代からずっと抱いてきた信念を翻したのだとか。

実際、言語モデルのここ数年の歩みは、自然言語処理の研究者も驚きを隠せないほどです。ChatGPTが研究者の注目を集めた大きな理由は、質疑応答に限らず、文章に関わる幅広い作業（タスク）をこなせることにありました。箇条書きした文の清書や多言語間の翻訳、文法のチェックや内容に応じた文書の分類、さらにはソフトウエアのコーディングまで、人間顔負けの能力を発揮します。

しかも大規模言語モデルは、少しの回答事例を示してあげるだけで、全く新しいタスクにも対応できるのです。以前は言語モデルに限らず、DNNの学習には個別のタスクごとに莫大なデータを用意して学習させる必要があり、それが人の脳に比べて劣るとされる第一の要因でした。こと言語モデルについていえば、この制約はもはや過去のものといえそうです$${^{*3}}$$。

*3　もちろん大規模言語モデルの学習には、インターネットから集めた膨大な文章を利用しているのですが、これは言語モデル本来のタスクである文章中の言葉の確率分布を再現する（例えば、それまでの文脈を与えられた時に、次に来る単語の確率を予測する）ために使います。そうして出来上がった大規模な言語モデルは、それ以外のタスクを明示的に学習させていないにも関わらず、わずかな事例を与えたりするだけで実行可能になります。なお、OpenAIの開発品の中で大規模言語モデルに相当するのは「GPT-3」や「GPT-4」で、「ChatGPT」はこれらの言語モデルを応用して開発した対話システムという位置付けです。具体的には大規模言語モデルをもとに、不適切な会話をしないように、人によるフィードバックを利用した強化学習（RLHF：Reinforcement Learning from Human Feedback）という手法によって追加で学習させています。

人よりもどんどん上手に

つまり本稿でシンギュラリティと呼んでいるのは、大規模言語モデルが、人よりも劣る仕様（記憶素子の数）で、人と同等以上の能力（人には困難なほどの知識量に基づいた様々なタスクの実行）を実現したことを指しています$${^{*4}}$$。

*4　人の脳と大規模言語モデルを実行するハードウエアの大きな違いとして、処理装置の動作速度（≒データをやり取りする速さ）があります。人の脳の神経細胞は数十ミリ秒で信号やりとりするのに対して、大規模言語モデルを支えるハードウエアである最新のGPUは動作周波数が1GHzを超え、データのやり取りにかかる時間はざっくり1ナノ秒くらい（1サイクルでデータをやり取りできる場合）です。つまり、大規模言語モデルは人の脳より数百万倍も速くデータをやり取りできることになります。ただし、この能力を使ってもDNNの記憶素子（重み）の数を補うことはできず、記憶できる知識の量は増えません。頭の回転の速さと、物覚えの良さは別物というわけです。その伝で行けば、最近の大規模言語モデルは、頭の回転は超速いが物覚えはそれほどでもと思われていたところ、蓋を開けてみたら超絶的な記憶を備えていたといった感じでしょうか。

しかもDNNの学習方式には、性能を保ったままで重みの数を格段に減らせる「蒸留（Knowledge distillation）」という技術があります。これもまたヒントン教授の業績で、重みの数が多いDNNを先生、重みの少ないDNNを生徒と見立てて、生徒が先生の振る舞いを真似するように学習させることで、DNNをスリムにする手法です。現在、パラメータ数が数千億もある大規模言語モデルの能力を、ずっと小さい規模のDNNで再現しようとする研究が各所で進行しています$${^{*5}}$$。

*5　例えばGPT-3.5を先生にして学習させたMicrosoftの「InheritSumm」というAIは、文章の要約というタスクについては、4億弱のパラメータでGPT-3を凌ぐ性能を実現したと主張しています。これは実行するタスクを絞った例ですが、例えば知識の範囲を限定するなど、工夫次第で小さいサイズのAIであっても高い性能を実現することは十分可能と見られます。

現在の大規模言語モデルに嘘をつくことをはじめ様々な欠点があるのは確かです。しかし人間と違って、大規模言語モデルはいくらでも改良が可能です。すなわちコンピュータのハードウエアの性能が高まり続ける限り、今後も能力の進歩は続きます$${^{*6}}$$。

*6　現在の大規模言語モデルの能力をもたらしたのは、単純化していえばモデルの規模の拡大、すなわちパラメータ数の増大です。2020年にOpenAIが発表した論文で、規模が大きくなるほど性能が高まる関係が指摘されました。GPT-4ではこの関係を保てる学習環境を構築して、大規模化から予想される通りの性能を実現できたとされます。ただしGPT- 4などを開発したOpenAIのCEO、サム・アルトマン氏は「巨大なモデルを使う時代は終わりつつある」（Wiredの記事）などと発言しており、今後はパラメータ数の増大とは異なる方向性を目指す可能性があります。

現に大規模言語モデルの改良や応用に関わる論文が、連日恐ろしい勢いでプレプリントサーバー（査読前の論文を公開するサイト）に投稿されています。もちろんシンギュラリティ論者が流布するほどの爆発的な成長を遂げるかどうかはわかりませんし、全ての面で人を凌ぐかどうかは別問題ですが。

これらの事象が指し示すのは、大規模言語モデルがクラウド上のサービスどころかスマートフォンのような身近な端末にさえ常駐し、あまねく利用可能になる将来です。例えば、世の中のありとあらゆる常識が、いつでもどこでも対話を通じて引き出せるようになるかもしれません。極論すれば、人はものを知らずとも、その都度機械に聞けば済むようになるのです。本当にそうなったら、文章を書く場面どころか、人とAIの関係は劇的に変わります$${^{*7}}$$。

*7　個人的に、ChatGPTの返答を見ていてしばしば思うのは、ものすごく優等生的といいますか、多くの人の意見を平均したような答えが返ってくることです。ここから敷衍すると、将来の大規模言語モデルは、社会の常識を答えてくれる存在になるかもしれません。既に私の周りでは、言葉の常識的な使い方をChatGPTに聞くといった利用が始まっています。かつて常識を学ぶことは困難とされたAIが、逆に常識の裁定役になるという皮肉な未来像です。また、言語モデルは人には言えない悩みの相談相手になる可能性も高そうです。こちらの記事によれば、米国で医師とChatGPTに同じ質問を投げて答えを比較したところ、ChatGPTの方が情報の質の高さを示す指標は3.6倍、共感力は約10倍高かったとか。このような比較の先には、それぞれの人の情報をたっぷり蓄えた言語モデルが、ひとりに一つ存在する時代の到来が見え隠れします。そうなると、AIの言語処理能力の巧みさと相まって、例えば人と人とのコミュニケーションの間にAIが介在するのが普通になるかもしれません。

前回の記事から今回にかけて、シンギュラリティ説が前提とする「一般的な知性」は定義ができないので、その観点から人とAIを比べるのは難しいとして、話を進めてきました。それでもChatGPTの登場以降、AIの脅威を巡って世の中がにわかに騒がしくなったのは無理もありません。言語を操る能力は動物にはない、人ならではの特質であり、人の知性の中核とさえ呼べそうだからです。

特に欧米では、知性と言語は表裏一体とみなされてきました。1992年に米国で発行された「Encyclopedia of Artificial Intelligence（AI百科事典）」では、その分野の問題を解決できればAI全体の問題解決に相当するとされる「AI完全（AI compulete）」タスクの筆頭に、自然言語処理が挙げられていたほどです。

画像認識やゲームの対戦でAIが人に勝ったり、真に迫った画像を生成する能力と比べてさえも、言語処理は次元の違う話なのです。ヒントン教授をはじめ、欧米でAIに対する危機感が急激に盛り上がっている背景には、恐らく言語の絶対視があるのだと思います。

言語モデルの三つの強み

ちょっと風呂敷を広げすぎました。本稿の主題であった原稿を書く話に戻りましょう。大規模言語モデルは人と比べて一体どこが優れているのかを、その内部に踏み込んで考えてみたいと思います。

言語モデル内部の動作を見ていくと、文を書く上で人がとても敵わない要素がいくつかあります。ここでは私が気づいた三つを取り上げたいと思います。キャッチフレーズ風に書けば、「全知識を総動員」「文脈をどこまでも追う」「迷わない」です。それぞれ、書く内容の準備、読む内容の理解、文章の書き方に対応しています。

これらの特徴は、文章を速く書いたり、内容をわかりやすく伝えたりする上で大きく貢献する能力だと思います。ただし、出来上がった文章が面白いかどうかは別の話です。この問題は最後に考えるつもりです。

但し書きをつけておくと、実際の比較の対象は「人間」よりも「私」です。文を書いているときの内部状態を観察できる人間は、自分しかいないからです。もしかしたらそのせいで、以下の議論は人間が劣る側にバイアスがかかっているかもしれません。上記の三つのいずれも「AIは記憶した内容を忘れない」という事実に多かれ少なかれ関係していますが、私自身の記憶力は心許ないどころか、日々薄れつつある様をありありと感じております。

なので、以下で紹介する話は、いわゆる映像記憶を持つ方では事情が相当違うでしょう。あるいは、高品質の原稿を電光石火のスピードを書き上げる著者の方なら「迷わない」書き方は当たり前なのかも知れません。その分、割り引いて読んでもらえると幸いです。

言わずもがなですが、筆者が研究者でも開発者でもないことにもご留意ください。筆者の本分は書くことであり、言語モデルの原理や動作については、あくまで論文などから判断した「頭でっかち」な意見です。間違いがあったらぜひご指摘ください。

全知識を総動員

最初のポイント「全知識を総動員」は、文章に書く材料を準備するときに関係します。自分の主張を伝える文章であっても、内容の大半は様々な情報です。情報で補強することによって、主張に説得力を持たせるからです。

情報は、大きく二つに分けられます。自分が知っていることと、知らないので調べる必要があることです。ここで伝えたいのは前者、すなわち自分が知っていることについての大規模言語モデルの振る舞いです。なお情報というとかなり曖昧ですが、ざっくり主張を裏付ける事実やエピソード、学問上の知識などとお考えください。

ご存知の通り、大規模言語モデルは極めて大量の知識を備えています。学習した時点までの情報ではありますが、インターネットや書籍から入手できる多種多様な情報を学習に利用し、その結果を全て内部に記憶しています。つまり、ニュースや論文など、最新の話題を除けば全てが頭の中に入った状態なのです。

大規模言語モデルは、文章を作り出すときに、基本的にこれらの知識全てを利用します$${^{*8}}$$。先に書いたように、大規模言語モデルの中で知識は演算素子の間をつなぐ重みの値として蓄えられています。そして、入力された文章に応じて新たな文章を作り出す際には、関連する全ての重みが計算に使われます。具体的には、入力した文章は数字の組み（ベクトル）に変換され、このベクトルに全ての重みを使った計算（掛け算や足し算）を施して、最終的な文章に対応するベクトルを求めているのです。

*8　実行中の処理に対して、全体の知識ではなく一部分だけを利用する方式もあります。例えばGoogleの「Switch Transformer」は全体のパラメータ数が1.6兆にも達するのに対して、入力に応じて利用する部分を切り替えることで一部の知識だけを利用しています。こちらの論文によれば、一つの単語の処理で利用される重みの割合は0.1%（15億パラメータに相当）とのことです。ちなみに重みを切り替える機構（ルーター）のパラメータも学習で求めています。GPT-4は、16のサブネットワークから成り、そのうち一度に二つだけを使っているという話もあるようです。

重みを使った一連の計算は、入力された文章を、自らの内部にある全ての知識に照らしわせていることに相当します$${^{*9}}$$。直感的に書けば、入力された要求に応えることができる単語の連なりを、途方もない量の知識の中から探し出しているイメージです。このことを「全知識を総動員」と呼んでみたわけです。

*9　大規模言語モデルは、基本的にトランスフォーマー（Transformer）と呼ばれる構造をいくつも直列につなげて構成されています。それぞれのトランスフォーマーは大雑把にいうと、マルチヘッド自己注意（MHSA）と多層パーセプトロン（MLP）という二つの部分をつなげたものです。前者のMHSAの役割は入力された文章の文脈をまとめることとで（本文で後述）、後者のMLPがここでいう知識の照らし合わせを実行していると解釈できます。Preferred Networksの岡野原大輔氏の著書『大規模言語モデルは新たな知能か』によれば、MLPは「学習中に出会った情報を保存しておき、今処理している内容と関係しそうな記憶を読み出して処理している」とのことです。同氏は別の著書『ディープラーニングを支える技術』でMLPの動作を自己注意に準えて、MLPの中間層にある各ユニットが保持する学習時の記憶を読み出す操作に相当すると読み解いています。

この方式の利点は、人にはまず不可能な知識の広がりを基に、文章を作成できることでしょう。しかもそれを、目にもとまらぬ勢いで実行できます。さらには内部の知識が間違っていなければ、ひょっとすると人よりも正確な記述が可能になるのかもしれません$${^{*10}}$$。

*10　ただし大規模言語モデルの出力は確率的に変化するため、内部の情報が正しくても間違いを犯す可能性はありそうです。また、言語モデルの内部で情報がどのように表現されているのかが明確ではないため、何をもって内部の情報が正しいとみなせるのかもはっきりしません。間違った知識をどのように修正するのかも厄介な問題です。大規模言語モデルとの対話の中で間違いを指摘しても、それが内部の知識に反映されることはありません。内部の知識の修正には再学習が必要になるからです。しかも大規模言語モデルを含むDNNの学習には、ある間違いを正すと別の知識が壊れてしまったりする難しさがあります。画像認識用DNNを対象にした富士通の研究では、既にある知識を壊さないように間違いを減らそうとすると、減らせる間違いの数が大幅に減ってしまうことがわかりました。そもそも、いわゆる「幻覚（ハルシネーション）」は、学習に用いたデータから正当化できないはずの回答をする現象と捉えられています。このことから、言語モデル単体で間違いをなくそうとするだけでなく、ファクトチェックなどを担当する別システムと組みわせるアプローチが必要かもしれません。

頼りにならない人の記憶

これに対して人間が文章を書くときには、頭の中にある情報だけでは足りないことがしばしばです。大規模言語モデルほどの知識がないことはもちろん、自分は知っているつもりでも、いざ書くとなると思い出せなかったり、内容が曖昧だったりします。そのまま書いてしまうと得てして間違いにつながり、調べ始めると結構な時間がかかります。

私はいつもこの作業で引っ掛かってしまうのです。目当ての情報をなかなか見つけられなかったり、余計なことに手を出したりして、気がつけばあっという間に時は過ぎ、今度は書くのが億劫になってしまう。特に面倒なのは取材で聞いてきた話で、記憶が掠れているどころか、知りたい箇所が手書きのメモや録音のどこにあるのか分からず、探し回ることもしょっちゅうです。

調べ物に時間がかかる根っ子には、人の記憶の仕組みがあります。人の知識は長期記憶と呼ばれる形式で、脳内に分散して保存されていると考えられています。その内容を執筆に使うには、まずワーキングメモリという情報処理用の領域に移す必要があります。パソコンが、SSDにあるアプリケーションソフトを主記憶にコピーして使うのと一緒です。

この仕組みには至る所に難点があります。まず、長期記憶に保存された情報が不正確だったり歪められていたりする場合があること。次に、長期記憶から望みの情報を思い出すのが時として難しいこと。さらに、ワーキングメモリの容量が限られていて、一度に大量の情報を保存できないことなどです$${^{*11}}$$。これを補うには、どうしてもノートや書籍、パソコンなど、外部の力を借りざるを得ません。

*11　人の脳がこのような仕組みになっている一因はエネルギーの消費を抑えることかもしれません。人の脳は消費電力が20W程度と、巨大な電力を消費するスパコン上の大規模言語モデルと比べて非常に低いことが知られており、電力効率を高めるお手本とされることが多いです。省エネが可能な理由は、*4に示した処理速度の遅さや、*8にあるSwitch Transformerのように一部だけを動作させる仕組みにあると見られます。ここに書いた脳の特徴もその一翼を担うとしたら、超低電力で動作する言語モデルは、忘れっぽかったりするのかも。

もちろん大規模言語モデルの知識も万全ではありません。情報の不正確さは再三指摘した通りですし、最新情報をブラウジングで集める場合は、結構な時間がかかったり誤解したりもします。それでも、学習した内容の全てを頭の中に保持して即座に利用できる能力は驚異的です$${^{*12}}$$。自分もできることならそうなりたいものです$${^{*13}}$$。

*12　大規模言語モデルの重みのデータは、処理の実行中は一般的にGPUの高速メモリに保存されます。GPUのメモリが足りないときは、CPUのメモリなどからコピーされますが、人の記憶と比べるとコピーに要する時間は極めて短く、内容の劣化もありません。大規模言語モデルの重みは人の長期記憶に例えられたりしますが（例えば岡野原さんの大規模言語モデル本）、私が執筆時に悩まされる長期記憶の特性は、綺麗さっぱり拭い去られているように思います。

*13　そもそも自分が、この文を書くうえで鬱陶しいほど多くの注を入れたり、リンクを貼ったりするのは、せっかく調べた内容をより記憶に刻む効果を期待しつつ、後から読み返したとき、なるべくたくさん思い出せるようにするためです。

文脈をどこまでも追う

次の「文脈をどこまでも追う」は、入力した文章、すなわち言語モデルが「読む」文の扱いに関わる特徴です。

大規模言語モデルに文章を入力すると、一つ一つの単語ごとに計算が実行されます$${^{*14}}$$。ここで、文中の単語の意味は、文脈から切り離してしまうと一意に確定できません。「大谷翔平、やばい」と「遅れそう、やばい」では同じ「やばい」でもだいぶ意味が変わります。しかも前の文章では、大谷選手が特大ホームランを打った日と、怪我で戦線を離脱した場合では、真逆のトーンになります。

*14　正確にはトークンと呼ばれる単位で、入力された文章は自動的にトークンの系列に切り分けられます。トークンは、複数の単語で使いまわされるような、単語よりも小さい単位（サブワード）を考慮しています。ChatGPTによると《英語のサブワードの例として、"unbelievable" は、"un", "belie", "v", "able" のように分割されるかもしれません。日本語の場合、文字レベルで分割することが多いですが、一部の頻出する単語やフレーズはサブワードとして保持されることもあります》（編集済み）。

そこで大規模言語モデルでは、それぞれの単語の処理に、その単語に関連する文脈の情報を加味する仕組みがあります。具体的には、処理対象の単語に対して、それ以前の単語のそれぞれを、関係する度合いの大小に応じて現在の単語に足し合わせるような計算をしています$${^{*15}}$$。

*15　*9にあるマルチヘッド自己注意（MHSA）がこの処理を担当しています。言語処理モデルでは、「全知識を総動員」の項で説明したように、単語（実際はトークン）を数字の組み（ベクトル）として処理しています。MHSAは、このベクトルに対して、関係する別の単語のベクトルを、関係の度合いを加味して足し合わせるような処理をします。「マルチヘッド」というのは、同じ文脈（単語の系列）に対して、複数の観点から関係の度合いを計算することに相当します。なお、大規模言語モデルのうちGTP-4などは、学習時に処理中の単語よりも前にある文脈を利用しますが、ある単語の前後の文脈を学習時に利用する方式もあります。

大規模言語モデルが人と比べてすごいのは、この文脈をかなり大きく取れることです。つまり、ある単語の意味を解釈するときに、相当前の文章まで遡って考慮に入れることができるのです。

例えばChatGPTの背後にある最新モデルのGPT-4は、文脈中に標準モデルで8000トークン、拡張モデルで3万2000トークンまで含めることができます$${^{*16}}$$。ChatGPTによれば、日本語に換算すると前者は《4000-6000文字、約2-4ページのテキスト》、後者は《16,000-24,000文字、約8-16ページのテキスト》に相当するとのこと。つまり、それまでの何ページ分もの文の内容に基づいて、単語を解釈できるわけです。

*16　実際には文脈は、入力した文章に、出力する文中の単語も加えてカウントされます。対話が続いて最大のトークン数より長くなると、最初にある単語から順番に文脈から外されます。

しかもこの能力には、まだまだ伸び代がありそうです。扱える文脈の範囲を拡大すれば、原理上は何冊もの書籍の内容を考慮に入れた処理さえ可能になるでしょう。実際、最大10万トークンに対応したという言語モデル「Claude」や、100万トークンも可能とする「Recurrent Memory Transformer（RMT）」などが登場しています$${^{*17}}$$。ChatGPTに聞いてみたら、文脈を非常に大きくする弊害として《計算リソース（例：メモリ、処理能力）を大幅に増やす必要がある、モデルの学習が難しくなる、（長い文脈に基づいて長い文章を生成しようとしても）文章の一貫性や品質を保つことが難しくなる》（編集済み）を挙げるなど、今ひとつ納得がいかない様子でしたが。

*17　こちらの記事で清水亮氏は、RMTに対して「100万トークンといえば、小説でも10巻以上に相当し、人間の著者でも完璧な整合性を維持できるとは言い難い。（中略）そもそもそんなデータセット自体を人間が持っていない可能性がある」として、有効性に疑問を投げかけています。

聴いた内容を即座に要約

いずれにしても、私はこの能力が羨ましくてなりません。長い文章を読んでいるうちに、前の内容が次第に記憶から薄れ、意味を掴めなくなることが結構あるからです。

特に顕著なのは、馴染みのない分野で数式が現れる論文を読んでいるときです。それぞれの変数が何に対応しているのかわからなくなって、目を皿のようにして論文を見返す羽目によく陥ります。あるいは外国人の登場人物が多い小説で、誰が誰なのかを確認するために、人物紹介のページに繰り返し戻ることも珍しくありません。

こうした振る舞いも、人の脳の仕組みに還元できます。鍵はやはりワーキングメモリにあるようです。人のワーキングメモリの記憶容量は非常に限られており、「マジカルナンバー7」と題した有名な論文で、記憶に留められる個別の内容はせいぜい7±2個しかないとされました$${^{*18}}$$。書籍『言語はこうして生まれる』では、先行する経験がない場面では、この数が4±1にまで減るとする研究を引いているほど。状況や人による差もあるでしょうが、たったこれっぽっちしか覚えていられないのです。

*18　ここでいう記憶はいわゆる短期記憶に相当します。ワーキングメモリと短期記憶は似た概念ですが微妙に異なります。大きな違いは、前者は視覚と聴覚それぞれに対応する短期の記憶を司る要素に加えて、情報を処理する要素も含むこと（例えばこのモデル）。後者は人が短時間覚えていられる記憶の能力を指す言葉です。

しかし、さすがに4±1しか覚えられないとすると、読書どころか会話もままならなさそうです。先ほどの『言語はこうして生まれる』は、人がこの壁を乗り越えて、1分間に100単語にもなるという話し言葉を理解できる仕組みを解説しています。次々に耳に入ってくる単語を、その都度「チャンク（意味を持った言葉のかたまり）」にまとめることで、記憶の負荷を減らすという考え方です。

横文字が出てくると何だか難しそうですが、例えば10桁の番号「0334127698」をそのまま覚えるのは大変だけど、03-3412-7698といった塊に分ければ途端に覚えやすくなるというアレです。ここで三つに分けた数字の塊のそれぞれがチャンクに相当します。同様に、人は入ってくる単語の列を即座にチャンクにまとめ、複数のチャンクをさらに大きなチャンクにまとめるといった処理を繰り返すことで、発言の内容をリアルタイムに了解しているというのです。

筆者には思い当たる節があります。忍び寄る記憶の衰えを鑑み、最近は取材をした直後に内容をなるべく忘れないよう、ポイントとなる話を箇条書きとして残すようにしています。そのメモを、音声をそのまま起こした文章と比べてみると、相手が時間をかけて細かく語った内容を、ほんの1文くらいにまとめていることがよくわかります。逆に言えば、細かい話を捉え損ねていたりもするのですが。

あるいは別の事例として、よく知らない分野の論文を読まねばならない時の経験則があります。最初は全然頭に入らなかったのが、同じ文面に繰り返し目を通していると、いつしか内容がわかるようになるのです。個人的にはこれも、何らかのチャンク化が起きているおかげだと解釈しています。

それにしても言語モデルの能力には驚くばかりです。素人考えでいえば、言語モデルの文脈の扱いは、それぞれの単語を溢れんばかりの文脈を使ってチャンク化しているようなものでしょう。そんな芸当が身についたとしたら文章の認識がいったいどのように変わるのか、叶うならば体験してみたいものです。

迷わない書き方

最後の「迷わない」は、ごく単純な話です。自分は文章を書く際に、しばしば迷って迷って迷いまくります。全体の構成をはじめ、取り上げる情報や個々の文章の並び順、単語や「てにをは」の使い方まで、悩みの種が尽きません。

これに対して大規模言語モデルは、入力の文章を与えられると、対応する出力が一発で出てきます。入力から出力までの処理は一直線で、内部には一切ループ処理はありません。書いた原稿の見直しすらしないのです。

これもまた驚くべきことです。ただし、人によっては似たようなことをしているのかもしれません。世の中には信じられないほど筆が速く、なおかつ原稿も面白い書き手がいるからです。そういう方は、自分のように迷っていると、とても量をこなせないので、おそらくスラスラと流れるように文章が出てくるのでしょう。

そのヒントは、話すように書くことだと自分は推測してきました。講演やテレビ番組で流暢に話す人を見ていると、「ああいうふうに原稿を書きたいものだ」と思わずにはいられません。中には話のつなぎが上手いだけで、よく聞くと内容がどんどん逸れていく場合もあるのですが。

もちろん自分も調子に乗ってくると、話すにしろ書くにしろ、自然に言葉が溢れる場面はあります。何を話すかはっきりしないまま、とりあえず言葉を口にしてみると、次々に話がつながり、事前には思ってもみなかった発想が湧き出すこともあるほどです。改めて振り返ると、自分があたかも言語モデルになったかのようです。

そもそも私は、「書き直しが多い原稿は得てして碌でもない」という持論を抱いてきました。原稿を書く際に迷う理由は、書きたいこと、すなわち主張がはっきり定まっていないか、取材が足りない場合がほとんどです。ここをきちんと固めるのが原稿書きの第一歩です。

主張が明快で取材も十分ならば、次は、どの話題をどういう順番で書くかという問題になります。ここでもしっかり迷い抜いて、話の流れをきちんと組み立てられれば、あとは個別の表現の選択になって、スムーズに書き進められます。書き直しはゼロにはなりませんすが、ちょっとした表現など細部の微調整で済むのです。つまり書く前に悩むことが大事です。

最悪なのは、考えがまとまらないうちに書き始めることです。大抵は書いては消し、書いては消しのループに陥り、そのうち自分が何を書いているのか、何を書きたいのかが分からなくなります。力業でなんとかまとめ上げても、主張が曖昧で話が行ったり来たりする不恰好な原稿になりがちです。先の「書き直しが多い原稿」とは、このことを指しています。

大規模言語モデルは、主張の部分はユーザーから与えられ、取材をせずとも広範な知識をたっぷり内部に蓄えています。その後の処理を一気に済ませ、最も適切と判断した単語の連なりを文章として出力しているわけです。その結果を読む限り、先ほどの持論をひっくり返した「書き直しのない原稿は得てして優れている」という経験則は、ここでも成り立つようです。

連携でさらに高機能に

ただし、長い文章の場合は話が少し変わります。一貫性を保ちながら長文を作りげるには人間も大規模言語モデルも、もう少し知恵をしぼる必要があります。まず人間の場合。これはもう当たり前の話ですが、最初に章立てなど全体の構成を考え、それから章ごとの構成、さらには細部の内容……と、段階的に話を詰めていくのが定石です。この方法は大規模言語モデルにも通用するはずです。

案の定、ChatGPTに相談したら似たような答えが返ってきました。トークン数の制約などを考慮した上で長編小説を書かせる戦略を聞いてみたところ、《1.章ごとまたはセクションごとに分割　2.概要を作成　3.コンテキストの保持　4.反復的な改善…》との回答$${^{*19}}$$。だいぶ人の書き方に近づくようです。

*19　実際のChatGPTの答えは以下の通りです。ちゃんと人の目で確認するよう促しています。
《長編小説をChatGPTを使用して書くためには、トークン数の制約とコンテキストの制約を考慮しながら、効果的な戦略を計画する必要があります。以下は、そのための戦略です。
1. 章ごとまたはセクションごとに分割: 長編小説全体を一度に生成するのではなく、章ごとやセクションごとに生成します。これにより、トークン数の制約を考慮しながら、それぞれの部分に焦点を当てて内容を深堀りすることができます。
2. 概要を作成: 最初に、物語全体の概要やプロットの構造を作成します。これを参考にしながら各章やセクションを生成する際に、物語が一貫した方向性を保つようにします。
3. コンテキストの保持: 以前のセクションや章で生成されたテキストの一部を次のセクションや章の入力として使用します。これにより、モデルは以前のコンテキストを覚えているというわけではなく、新しいテキストを生成する際に前のコンテキストを利用することができます。
4. 反復的な改善: 最初のドラフトが完成したら、各セクションを見直し、改善や修正を行います。モデルに特定のセクションを入力として与え、改良されたテキストを生成させることができます。
5. 人間のレビューと編集: モデルが生成したテキストは、必ずしも完璧ではありません。そのため、人間の目でレビューし、必要に応じて編集することが重要です。物語の流れ、キャラクターの一貫性、文法などをチェックします。
6. バリエーションを試す: 同じセクションや章を異なるプロンプトや指示で何度か生成し、最も適切な結果を選ぶか、複数の結果を組み合わせます。
このように、ChatGPTの制約を考慮しつつ、段階的かつ反復的なアプローチで長編小説を生成することができます。ただし、大規模なテキストの生成は時間がかかる可能性があるため、時間とリソースを適切に計画することが重要です。》

もちろん大規模言語モデルの文脈を大きく拡大することで、長文を一気に作成することも可能になるでしょう。ただし、それで人を楽しませる作品がすぐにできるかと言えば疑問です。満足がいくまで全体の文章を何度も繰り返すことを考えると、段階を踏んで作成した方が結局は早いのではないでしょうか。

人間の記者に原稿を書いてもらう場合に、事前におおまかな骨子を詰めるのもこのためです。デスクの立場でいえば、何も知らない状態でいきなり出てきた原稿を読んでため息をつくよりも、あらかじめ全体の構成を組み立てて書いてもらった方が、後の作業が楽になるのです。私の場合、自分で構造を作り直して書き換えてしまう場合も割とあったのですが……。

今のところ、上記のような戦略で長い文章を作成するには、基本的に人手が必要です。ただし、一連の手順を含めて自動化することはそう難しくなさそうです。大規模言語モデルと、一連の手順を制御するソフトや、出てきた文章を評価するソフトなどを組み合わせるわけです。

そもそも、大規模言語モデルのように、ループすらなしに一方通行で情報を処理するソフトウエアは異例です。数式処理システムMathematicaなどを開発したスティーブン・ウルフラム氏は、この点を著書『What Is ChatGPT Doing ...and Why Does It Work?』で「内部にループがないことは、既存のコンピュータはもちろん、人の脳と比べても間違いなく計算能力に足枷をかけている」（拙訳）と表現しています。今後は、様々なツールと大規模言語モデルを連携させて、文章作成はもちろん、幅広いタスクを自動化可能になるでしょう$${^{*20}}$$。

*20　実際、大規模言語モデルを各種のツールと組み合わせることで、多種多様なタスクを実行可能な「エージェント」にする動きがあります。例えばこちらのブログ記事が概要をまとめています。

面白い文章を書けるのか

ここまで言語モデルが、わかりやすい文章を素早く大量に書く上で、人と比べて有利な特徴を備えていると主張してきました。最後に検討したいのは、その結果出来上がった原稿が、果たして面白いのかどうかです。

世の中の意見を斜め読みする限り、文章を書く能力の中でも、ここはまだ人の独壇場といえそうです。

例えば、古川渉⼀氏らによる書籍『先読み!IT×ビジネス講座 ChatGPT 対話型AIが生み出す未来』には、「AIで量産されたもの（コンテンツ）は、どのコンテンツも似たり寄ったりの内容になりがち」とか、「文章の場合、画像に比べると学習元の個人のテイストのようなものが生成結果に反映されにくい傾向はあると思います」$${^{*21}}$$といった発言があります。清水亮氏のこちらの記事では、面白いコンテンツを作れるかどうかは「使う人の想像力の差」に依存し、「計算規模が100倍になっても、クリエイターの魂にAIは絶対勝てない」と断言しています。

*21　ChatGPTでは、例えば「村上春樹風の文体で〜」などと指定して文章を書いてもらうこともできます。ただし、それっぽい文章は出て来はするものの、別人の書き振りとの区別はなかなか困難です。もっともこのことは、人間の筆者それぞれにスタイルがあることを否定するわけではありません。大規模言語モデルに依頼する場合も、指定した内容や分量によっては顕著に差が現れる可能性はあります。一方で、ChatGPTの文章は構成が非常に画一的である気がします。本文で原稿の書き方として説明したように、話題をどのような順番で並べるかは悩みどころで、この点も記事の面白さを左右します。こうした側面で大規模言語モデルの実力がどれほどなのかは検討の余地が大きいと思います。

そもそも、面白いとはどういうことでしょうか。技術誌の編集者をしていた頃の私の基準は「読者が読んだことのない内容」でした。さらに噛み砕くと、「ニュース」か「主張」のどちらかに新しさがあることだと。

この尺度で測ると、確かに言語モデルの出番はあまりなさそうです。まず「ニュース」について言えば、人間の記者が足で稼ぐようなネタを見つけることは望むべくもありません。そもそも言語モデルには体がありませんし、学習済みの知識は古いままで、インターネットの最新情報でさえ検索するしかないのですから。ユーザーがうっかり入力した秘密をスクープする能力でも身につければ別ですが。

一方の「主張」についても同様です。言語モデルに欠けているものが何かといえば、主張や見方、あるいは切り口といった、様々な話題を「その人ならでは」の視点で捉える能力でしょう。そこが欠けるからこそプロンプトで指示を出す必要があり、裏を返せば指示通りの振る舞いができるのは「自分」がないからともいえます。

筆者のいない未来

ただし、です。私は、言語モデルに斬新な視点や切り口を提案する能力を授けることは可能ではないかと疑っています。

現在のChatGPTでも、特定の話題を指定して、一味違う視点を提案してもらうことはできます。いわゆる「発想の壁打ち」の相手として使えるのも、それなりの切れ味があるからこそです。ただし回答が予想をそこまで超えず、常識の範囲内であることも確かです。その殻を破るには、やはり人の才能に学ぶのが近道でしょう。

私が仕事で出会った発想の鋭い人には、共通の特徴があるように思います。まず、極めて多くの物事を知っていること。その上で、物事の背後にある関係を抽象化して捉え、突拍子もない結びつきを見つけ出す能力です。

実は、この能力は人間らしさの根底にあって、見方が鋭い人物はその力が人並外れて発達しているのではないかと想像しています。実際、最近読んだ『心はこうして作られる』という本では、人の知性の役割を感覚器からの情報や過去の経験を材料に意味のあるパターンを探すこととした上で、前例のない創造的な意味や解釈を生み出す「想像の飛躍は人間の知性のまさに核心である」と主張していました$${^{*22}}$$。その威力は凄まじく、自分の性格や信念や感情でさえ、その時々の解釈の産物だとするほどです。もしこれが本当だとしたら、目覚ましい発想の起点には、潤沢な知識と奔放な想像力の幸福な邂逅があるのかもしれません。

*22　先に紹介した『言語はこうして生まれる』の著者の一人、ニック・チェイター教授の著書です。こちらの本では、精神分析などが指摘した広大無辺な無意識などは存在せず、人の心には意識できる表面しかないという説を展開しています。ただし無意識の処理自体を否定しているわけではなく、意識下の脳の働きは感覚信号などからパターンを探すといった機械的な処理であって、抑圧された欲望や思考が渦巻く領域ではないと指摘します。同教授は、認知科学分野のノーベル賞ともされる「ラメルハート賞」を2023年に受賞しました。ちなみにラメルハート氏は、現在の深層学習につながったニューラルネットワーク研究の草分けで、ヒントン教授も名を連ねるバックプロパゲーション論文の筆頭著者です。同賞の2001年の第1回受賞者はヒントン教授でした。

言語モデルは、このうち知識の量という点では文句なく合格です。一方で領域の垣根を超えて想像を膨らませる能力はまだまだ未発達に感じます。例えば、ある方と話していて、「スポーツの起源は格闘と射的に分けられる」という意見を聞いてハッとしたことがあります。同じ球技でも、ボールをカップに入れる腕を競うゴルフは射的、テニスはラケットとボールを使って安全に戦う格闘技というのです。まさかそんな見方があるとは思いもよりませんでした。

残念ながら、このニュアンスはChatGPTには伝わりませんでした。「スポーツの起源を射的と格闘に分けるとしたら、テニスはどちらの系統に入りますか」と聞いたところ、《射的の系統に近い》との答え。理由は《目標（相手のコート）に向かって物（テニスボール）を送る動作に関連して》いるからだと。どちらが正解という話でもないのですが、ちょっとがっかりでした。

以上で紹介したのは、仮説というほどもない思いつきです。今の言語モデルには、愛情も恐怖も、締め切り後の爽快感も眠気を堪える夜もありません。文章を書くことに残った人間らしさに肉薄するには、他にもやることは山ほどあるかもしれせん。

それでも、脳を一種のコンピュータと見なせる限り、人間の活動全てがいずれは機械でも実現可能になるのは必然のようにも思えます。面白い文章を読みたい読者と、超絶的な想像力を備えた言語モデルだけがあれば済む世界。その時が本当に来てしまったら、「シンギュラリティが起きてしまった感」などと誤魔化さずに、書き手として潔く白旗を掲げるしかありません。

この記事が気に入ったらサポートをしてみませんか？