シンギュラリティが起きてしまった感、あるいは人とAIの思考の決定的な違い
シンギュラリティは訪れたのか
いきなりですが、文章を書くという領域に限ると、AIが人の能力を超えるときは来たのでしょうか。私はそうだと思っています。シンギュラリティを「人の能力をAIが上回ること」と捉えるなら、シンギュラリティは既に起きたとの立場です。ただし、かなりの留保付きではありますが。
前回書いた通り「知性」という言葉に決まった定義がないのと同様、書く力も数々の評価軸から成る多角的な技能であり、ある面では人を超え、別の点ではまだまだ劣るのが、言語処理能力を備えるAIの現状でしょう。それでもChatGPTと戯れていると、「シンギュラリティが起きてしまった感」をどうにも拭い去れないのです。
何よりも強調したいのは、ChatGPTがちゃんとした文章を書けることです。私が日々使い始めて一番衝撃を受けたのが、言葉遣いが変じゃないどころか、どんな質問をしてもきちんと筋道の通った文章が返ってくることでした。そんなはずはないと知りながらも、「実は人が書いているんじゃないか」という疑念がしばらく頭を離れませんでした。今ではだいぶ慣れましたし、ちょっとAI臭いかなと思う回答も結構目にしますが。
AIがまともな文章を書けることは、いくら強調しても足りないくらいすごいことだと自分は感じています。それでもこの能力についてAIを褒め称える発言をあんまり見たことがありません。
もちろん、AIブームと言われ続けてきた中でも空前の盛り上がりを見せる昨今の状況は、この点に大きく与っているでしょうし、AIが「嘘をつく」ことには非難轟々なのに、「文章がおかしい」という指摘を驚くほど見かけないのは、そこには穴がないことを暗黙のうちに皆が認めているからでしょう。それでも私は声を大にして言いたい。機械が文章を書けるって本当にすごい。
人は文を書くのが苦手
正直に言えば、AIがここまでの力を身につけるのは、まず無理だろうなと思っていました。技術的な観点からではなく、文章の書き手として常々思うところがあったからです。「人間でもちゃんとした文章を書けるのは一握り。それくらい難しい能力なのだから、機械にはできるはずがない」と。現に、この理屈を持ち出して、AIの成長に脅威を感じる相手に、反論したことがあったような、なかったような。
自分の30年を超える職歴の中で、中心的な業務の一つは文章を読むことでした。市販の書籍や雑誌を読み耽るということではありません。そうした商品になる前の原稿が、自分の作業の対象でした。記者や寄稿者が書いた文に疑いの目を向け、論理の矛盾や本筋と関係ない話をあぶり出し、時には著者に話を聞きつつ、バッサリと書き直す。いわゆる「デスク」と呼ばれる役割をずいぶん長いことしていました。
その間にしみじみ思ったのが、じっくり読ませる原稿どころか、首尾一貫した文章を書くことさえ、そう簡単には身につかない能力だということです。デスク作業が憂鬱な理由は、初めて読む原稿には、ほぼ間違いなく手直しが必要なことにあります。散漫な文章がわけもなく続いたり、そもそも何が言いたいのかわからない原稿は珍しくありません。
最初は、理系出身者ばかりいる職場のせいかと邪推しました。ところが、文系揃いの環境に放り込まれた時でも大差はありませんでした。本職ですらこうなのですから、書き慣れない人にとってのハードルは相当のはず。その証拠に、文章術を指南する書籍は世にこれでもかと溢れています。
一方でChatGPTの手による文章は、心に響く名文とはいわないまでも、正しく意味が伝わるように、きちんと書かれた印象です。文の主題が明確で、論理的に主張を展開しています。私は主に質疑応答形式で使っているので、当たり前かもしれませんが。
それでも、ややこしい技術の概要を的確にまとめたり、それなりに長い文章を器用に要約したりする手腕にしばしば驚かされます。知識の量や書き上げるスピードが人並み外れているので、一概に比較はできないのですが、自分の知る記者の中でここまで書ける人材はすぐには思い浮かびません。
小さい器に途方もない知識
もちろん、人並みに文章を書けるだけでは、人を超えたとは言えません。大上段に構えて、シンギュラリティとまで大言壮語したのは、それなりの理由があってです。一言で表せば、ChatGPTをはじめとする自然言語処理AI(≒大規模言語モデル)は、文章を扱う上で、人の頭脳よりもずっと優れた仕組みかもしれないこと。あわてて付け加えると、ここでもまた一部の側面に限った話ではありますが。
この見解を初めて目にしたのは、Googleをやめたジェフリー・ヒントン教授の発言でした。MIT Technology Reviewのインタビューで、教授はこう語っています。「人の脳には100兆もの結合があるのに対して、大規模言語モデルでは1兆の半分、多くても1兆だ。それでもGPT-4は、一人の人間と比べて何百倍も多くのことを知っている」(拙訳)。
彼が比較した数字は、人と大規模言語モデルそれぞれで記憶を担う素子の数と言い換えられます。人の脳は神経細胞の間のつながり(いわゆるシナプス)の強弱に、大規模言語モデルでは演算素子(ニューラルネットワークのユニット)の間の重み(いわゆるパラメータ)の大小として、学習した情報を蓄えているからです。
念のためヒントン教授の指摘をもう一度書くと、人の脳のシナプスの数は100兆、大規模言語モデルの重みの数は多くても1兆$${^{*1}}$$。つまり両者の差は数百倍にも及ぶのです。大雑把にいうと、大規模言語モデルは記憶素子の数が人の脳の何百分の1に過ぎないにも関わらず、ありとあらゆる問いに対して答えが返ってくるほど膨大な知識を蓄えていることになります。
もちろん人の脳のシナプス数には異論もありそうですし、知覚から運動まで人の行動全てを律する脳が、言語処理に割り当てているシナプスの総数は意外に小さいのかもしれません。その結果、仮に人とAIで言語処理に利用する記憶素子の数が同程度だったとしても、現状の大規模言語モデルの能力が驚異的であることに変わりはありません。ポンコツな自分の頭は言うに及ばず、ChatGPTほど博識な人物の存在は、ちょっと想像がつかないほどです。もちろん繰り返し指摘されるように、大規模言語モデルの答えには間違いもかなりありますが$${^{*2}}$$。
想定外の急成長
元々、大規模言語モデルの基盤技術であるディープニューラルネットワーク(DNN)は、知的な作業を実行する仕組みとしては、人の脳と比べて劣る存在と見なされてきました。当のヒントン教授がそう考えており、DNNの学習方法を人間のそれに近づける「Forward-Forwardアルゴリズム」を2022年末に発表していたほどです。シンギュラリティ論者が、AIが人の能力を超える時期を見積もるために、人の脳の動作を再現できるほど高いコンピュータの処理性能を前提としてきたのも、同じ発想に基づきます。
昨今の言語モデルの進歩が、この常識を覆しました。こちらのインタビューによれば、ヒントン教授はGoogleの大規模言語モデル「PaLM」がジョークのおかしさを説明できるようになった頃から、見方が変わってきたといいます。そして、Googleを辞める数ヶ月前に「(彼自身が開発に携わったAIの学習アルゴリズムである)バックプロパゲーションの方が、脳よりもずっと優れているのではないか」(拙訳)と思い立ち、1980年代からずっと抱いてきた信念を翻したのだとか。
実際、言語モデルのここ数年の歩みは、自然言語処理の研究者も驚きを隠せないほどです。ChatGPTが研究者の注目を集めた大きな理由は、質疑応答に限らず、文章に関わる幅広い作業(タスク)をこなせることにありました。箇条書きした文の清書や多言語間の翻訳、文法のチェックや内容に応じた文書の分類、さらにはソフトウエアのコーディングまで、人間顔負けの能力を発揮します。
しかも大規模言語モデルは、少しの回答事例を示してあげるだけで、全く新しいタスクにも対応できるのです。以前は言語モデルに限らず、DNNの学習には個別のタスクごとに莫大なデータを用意して学習させる必要があり、それが人の脳に比べて劣るとされる第一の要因でした。こと言語モデルについていえば、この制約はもはや過去のものといえそうです$${^{*3}}$$。
人よりもどんどん上手に
つまり本稿でシンギュラリティと呼んでいるのは、大規模言語モデルが、人よりも劣る仕様(記憶素子の数)で、人と同等以上の能力(人には困難なほどの知識量に基づいた様々なタスクの実行)を実現したことを指しています$${^{*4}}$$。
しかもDNNの学習方式には、性能を保ったままで重みの数を格段に減らせる「蒸留(Knowledge distillation)」という技術があります。これもまたヒントン教授の業績で、重みの数が多いDNNを先生、重みの少ないDNNを生徒と見立てて、生徒が先生の振る舞いを真似するように学習させることで、DNNをスリムにする手法です。現在、パラメータ数が数千億もある大規模言語モデルの能力を、ずっと小さい規模のDNNで再現しようとする研究が各所で進行しています$${^{*5}}$$。
現在の大規模言語モデルに嘘をつくことをはじめ様々な欠点があるのは確かです。しかし人間と違って、大規模言語モデルはいくらでも改良が可能です。すなわちコンピュータのハードウエアの性能が高まり続ける限り、今後も能力の進歩は続きます$${^{*6}}$$。
現に大規模言語モデルの改良や応用に関わる論文が、連日恐ろしい勢いでプレプリントサーバー(査読前の論文を公開するサイト)に投稿されています。もちろんシンギュラリティ論者が流布するほどの爆発的な成長を遂げるかどうかはわかりませんし、全ての面で人を凌ぐかどうかは別問題ですが。
これらの事象が指し示すのは、大規模言語モデルがクラウド上のサービスどころかスマートフォンのような身近な端末にさえ常駐し、あまねく利用可能になる将来です。例えば、世の中のありとあらゆる常識が、いつでもどこでも対話を通じて引き出せるようになるかもしれません。極論すれば、人はものを知らずとも、その都度機械に聞けば済むようになるのです。本当にそうなったら、文章を書く場面どころか、人とAIの関係は劇的に変わります$${^{*7}}$$。
前回の記事から今回にかけて、シンギュラリティ説が前提とする「一般的な知性」は定義ができないので、その観点から人とAIを比べるのは難しいとして、話を進めてきました。それでもChatGPTの登場以降、AIの脅威を巡って世の中がにわかに騒がしくなったのは無理もありません。言語を操る能力は動物にはない、人ならではの特質であり、人の知性の中核とさえ呼べそうだからです。
特に欧米では、知性と言語は表裏一体とみなされてきました。1992年に米国で発行された「Encyclopedia of Artificial Intelligence(AI百科事典)」では、その分野の問題を解決できればAI全体の問題解決に相当するとされる「AI完全(AI compulete)」タスクの筆頭に、自然言語処理が挙げられていたほどです。
画像認識やゲームの対戦でAIが人に勝ったり、真に迫った画像を生成する能力と比べてさえも、言語処理は次元の違う話なのです。ヒントン教授をはじめ、欧米でAIに対する危機感が急激に盛り上がっている背景には、恐らく言語の絶対視があるのだと思います。
言語モデルの三つの強み
ちょっと風呂敷を広げすぎました。本稿の主題であった原稿を書く話に戻りましょう。大規模言語モデルは人と比べて一体どこが優れているのかを、その内部に踏み込んで考えてみたいと思います。
言語モデル内部の動作を見ていくと、文を書く上で人がとても敵わない要素がいくつかあります。ここでは私が気づいた三つを取り上げたいと思います。キャッチフレーズ風に書けば、「全知識を総動員」「文脈をどこまでも追う」「迷わない」です。それぞれ、書く内容の準備、読む内容の理解、文章の書き方に対応しています。
これらの特徴は、文章を速く書いたり、内容をわかりやすく伝えたりする上で大きく貢献する能力だと思います。ただし、出来上がった文章が面白いかどうかは別の話です。この問題は最後に考えるつもりです。
但し書きをつけておくと、実際の比較の対象は「人間」よりも「私」です。文を書いているときの内部状態を観察できる人間は、自分しかいないからです。もしかしたらそのせいで、以下の議論は人間が劣る側にバイアスがかかっているかもしれません。上記の三つのいずれも「AIは記憶した内容を忘れない」という事実に多かれ少なかれ関係していますが、私自身の記憶力は心許ないどころか、日々薄れつつある様をありありと感じております。
なので、以下で紹介する話は、いわゆる映像記憶を持つ方では事情が相当違うでしょう。あるいは、高品質の原稿を電光石火のスピードを書き上げる著者の方なら「迷わない」書き方は当たり前なのかも知れません。その分、割り引いて読んでもらえると幸いです。
言わずもがなですが、筆者が研究者でも開発者でもないことにもご留意ください。筆者の本分は書くことであり、言語モデルの原理や動作については、あくまで論文などから判断した「頭でっかち」な意見です。間違いがあったらぜひご指摘ください。
全知識を総動員
最初のポイント「全知識を総動員」は、文章に書く材料を準備するときに関係します。自分の主張を伝える文章であっても、内容の大半は様々な情報です。情報で補強することによって、主張に説得力を持たせるからです。
情報は、大きく二つに分けられます。自分が知っていることと、知らないので調べる必要があることです。ここで伝えたいのは前者、すなわち自分が知っていることについての大規模言語モデルの振る舞いです。なお情報というとかなり曖昧ですが、ざっくり主張を裏付ける事実やエピソード、学問上の知識などとお考えください。
ご存知の通り、大規模言語モデルは極めて大量の知識を備えています。学習した時点までの情報ではありますが、インターネットや書籍から入手できる多種多様な情報を学習に利用し、その結果を全て内部に記憶しています。つまり、ニュースや論文など、最新の話題を除けば全てが頭の中に入った状態なのです。
大規模言語モデルは、文章を作り出すときに、基本的にこれらの知識全てを利用します$${^{*8}}$$。先に書いたように、大規模言語モデルの中で知識は演算素子の間をつなぐ重みの値として蓄えられています。そして、入力された文章に応じて新たな文章を作り出す際には、関連する全ての重みが計算に使われます。具体的には、入力した文章は数字の組み(ベクトル)に変換され、このベクトルに全ての重みを使った計算(掛け算や足し算)を施して、最終的な文章に対応するベクトルを求めているのです。
重みを使った一連の計算は、入力された文章を、自らの内部にある全ての知識に照らしわせていることに相当します$${^{*9}}$$。直感的に書けば、入力された要求に応えることができる単語の連なりを、途方もない量の知識の中から探し出しているイメージです。このことを「全知識を総動員」と呼んでみたわけです。
この方式の利点は、人にはまず不可能な知識の広がりを基に、文章を作成できることでしょう。しかもそれを、目にもとまらぬ勢いで実行できます。さらには内部の知識が間違っていなければ、ひょっとすると人よりも正確な記述が可能になるのかもしれません$${^{*10}}$$。
頼りにならない人の記憶
これに対して人間が文章を書くときには、頭の中にある情報だけでは足りないことがしばしばです。大規模言語モデルほどの知識がないことはもちろん、自分は知っているつもりでも、いざ書くとなると思い出せなかったり、内容が曖昧だったりします。そのまま書いてしまうと得てして間違いにつながり、調べ始めると結構な時間がかかります。
私はいつもこの作業で引っ掛かってしまうのです。目当ての情報をなかなか見つけられなかったり、余計なことに手を出したりして、気がつけばあっという間に時は過ぎ、今度は書くのが億劫になってしまう。特に面倒なのは取材で聞いてきた話で、記憶が掠れているどころか、知りたい箇所が手書きのメモや録音のどこにあるのか分からず、探し回ることもしょっちゅうです。
調べ物に時間がかかる根っ子には、人の記憶の仕組みがあります。人の知識は長期記憶と呼ばれる形式で、脳内に分散して保存されていると考えられています。その内容を執筆に使うには、まずワーキングメモリという情報処理用の領域に移す必要があります。パソコンが、SSDにあるアプリケーションソフトを主記憶にコピーして使うのと一緒です。
この仕組みには至る所に難点があります。まず、長期記憶に保存された情報が不正確だったり歪められていたりする場合があること。次に、長期記憶から望みの情報を思い出すのが時として難しいこと。さらに、ワーキングメモリの容量が限られていて、一度に大量の情報を保存できないことなどです$${^{*11}}$$。これを補うには、どうしてもノートや書籍、パソコンなど、外部の力を借りざるを得ません。
もちろん大規模言語モデルの知識も万全ではありません。情報の不正確さは再三指摘した通りですし、最新情報をブラウジングで集める場合は、結構な時間がかかったり誤解したりもします。それでも、学習した内容の全てを頭の中に保持して即座に利用できる能力は驚異的です$${^{*12}}$$。自分もできることならそうなりたいものです$${^{*13}}$$。
文脈をどこまでも追う
次の「文脈をどこまでも追う」は、入力した文章、すなわち言語モデルが「読む」文の扱いに関わる特徴です。
大規模言語モデルに文章を入力すると、一つ一つの単語ごとに計算が実行されます$${^{*14}}$$。ここで、文中の単語の意味は、文脈から切り離してしまうと一意に確定できません。「大谷翔平、やばい」と「遅れそう、やばい」では同じ「やばい」でもだいぶ意味が変わります。しかも前の文章では、大谷選手が特大ホームランを打った日と、怪我で戦線を離脱した場合では、真逆のトーンになります。
そこで大規模言語モデルでは、それぞれの単語の処理に、その単語に関連する文脈の情報を加味する仕組みがあります。具体的には、処理対象の単語に対して、それ以前の単語のそれぞれを、関係する度合いの大小に応じて現在の単語に足し合わせるような計算をしています$${^{*15}}$$。
大規模言語モデルが人と比べてすごいのは、この文脈をかなり大きく取れることです。つまり、ある単語の意味を解釈するときに、相当前の文章まで遡って考慮に入れることができるのです。
例えばChatGPTの背後にある最新モデルのGPT-4は、文脈中に標準モデルで8000トークン、拡張モデルで3万2000トークンまで含めることができます$${^{*16}}$$。ChatGPTによれば、日本語に換算すると前者は《4000-6000文字、約2-4ページのテキスト》、後者は《16,000-24,000文字、約8-16ページのテキスト》に相当するとのこと。つまり、それまでの何ページ分もの文の内容に基づいて、単語を解釈できるわけです。
しかもこの能力には、まだまだ伸び代がありそうです。扱える文脈の範囲を拡大すれば、原理上は何冊もの書籍の内容を考慮に入れた処理さえ可能になるでしょう。実際、最大10万トークンに対応したという言語モデル「Claude」や、100万トークンも可能とする「Recurrent Memory Transformer(RMT)」などが登場しています$${^{*17}}$$。ChatGPTに聞いてみたら、文脈を非常に大きくする弊害として《計算リソース(例:メモリ、処理能力)を大幅に増やす必要がある、モデルの学習が難しくなる、(長い文脈に基づいて長い文章を生成しようとしても)文章の一貫性や品質を保つことが難しくなる》(編集済み)を挙げるなど、今ひとつ納得がいかない様子でしたが。
聴いた内容を即座に要約
いずれにしても、私はこの能力が羨ましくてなりません。長い文章を読んでいるうちに、前の内容が次第に記憶から薄れ、意味を掴めなくなることが結構あるからです。
特に顕著なのは、馴染みのない分野で数式が現れる論文を読んでいるときです。それぞれの変数が何に対応しているのかわからなくなって、目を皿のようにして論文を見返す羽目によく陥ります。あるいは外国人の登場人物が多い小説で、誰が誰なのかを確認するために、人物紹介のページに繰り返し戻ることも珍しくありません。
こうした振る舞いも、人の脳の仕組みに還元できます。鍵はやはりワーキングメモリにあるようです。人のワーキングメモリの記憶容量は非常に限られており、「マジカルナンバー7」と題した有名な論文で、記憶に留められる個別の内容はせいぜい7±2個しかないとされました$${^{*18}}$$。書籍『言語はこうして生まれる』では、先行する経験がない場面では、この数が4±1にまで減るとする研究を引いているほど。状況や人による差もあるでしょうが、たったこれっぽっちしか覚えていられないのです。
しかし、さすがに4±1しか覚えられないとすると、読書どころか会話もままならなさそうです。先ほどの『言語はこうして生まれる』は、人がこの壁を乗り越えて、1分間に100単語にもなるという話し言葉を理解できる仕組みを解説しています。次々に耳に入ってくる単語を、その都度「チャンク(意味を持った言葉のかたまり)」にまとめることで、記憶の負荷を減らすという考え方です。
横文字が出てくると何だか難しそうですが、例えば10桁の番号「0334127698」をそのまま覚えるのは大変だけど、03-3412-7698といった塊に分ければ途端に覚えやすくなるというアレです。ここで三つに分けた数字の塊のそれぞれがチャンクに相当します。同様に、人は入ってくる単語の列を即座にチャンクにまとめ、複数のチャンクをさらに大きなチャンクにまとめるといった処理を繰り返すことで、発言の内容をリアルタイムに了解しているというのです。
筆者には思い当たる節があります。忍び寄る記憶の衰えを鑑み、最近は取材をした直後に内容をなるべく忘れないよう、ポイントとなる話を箇条書きとして残すようにしています。そのメモを、音声をそのまま起こした文章と比べてみると、相手が時間をかけて細かく語った内容を、ほんの1文くらいにまとめていることがよくわかります。逆に言えば、細かい話を捉え損ねていたりもするのですが。
あるいは別の事例として、よく知らない分野の論文を読まねばならない時の経験則があります。最初は全然頭に入らなかったのが、同じ文面に繰り返し目を通していると、いつしか内容がわかるようになるのです。個人的にはこれも、何らかのチャンク化が起きているおかげだと解釈しています。
それにしても言語モデルの能力には驚くばかりです。素人考えでいえば、言語モデルの文脈の扱いは、それぞれの単語を溢れんばかりの文脈を使ってチャンク化しているようなものでしょう。そんな芸当が身についたとしたら文章の認識がいったいどのように変わるのか、叶うならば体験してみたいものです。
迷わない書き方
最後の「迷わない」は、ごく単純な話です。自分は文章を書く際に、しばしば迷って迷って迷いまくります。全体の構成をはじめ、取り上げる情報や個々の文章の並び順、単語や「てにをは」の使い方まで、悩みの種が尽きません。
これに対して大規模言語モデルは、入力の文章を与えられると、対応する出力が一発で出てきます。入力から出力までの処理は一直線で、内部には一切ループ処理はありません。書いた原稿の見直しすらしないのです。
これもまた驚くべきことです。ただし、人によっては似たようなことをしているのかもしれません。世の中には信じられないほど筆が速く、なおかつ原稿も面白い書き手がいるからです。そういう方は、自分のように迷っていると、とても量をこなせないので、おそらくスラスラと流れるように文章が出てくるのでしょう。
そのヒントは、話すように書くことだと自分は推測してきました。講演やテレビ番組で流暢に話す人を見ていると、「ああいうふうに原稿を書きたいものだ」と思わずにはいられません。中には話のつなぎが上手いだけで、よく聞くと内容がどんどん逸れていく場合もあるのですが。
もちろん自分も調子に乗ってくると、話すにしろ書くにしろ、自然に言葉が溢れる場面はあります。何を話すかはっきりしないまま、とりあえず言葉を口にしてみると、次々に話がつながり、事前には思ってもみなかった発想が湧き出すこともあるほどです。改めて振り返ると、自分があたかも言語モデルになったかのようです。
そもそも私は、「書き直しが多い原稿は得てして碌でもない」という持論を抱いてきました。原稿を書く際に迷う理由は、書きたいこと、すなわち主張がはっきり定まっていないか、取材が足りない場合がほとんどです。ここをきちんと固めるのが原稿書きの第一歩です。
主張が明快で取材も十分ならば、次は、どの話題をどういう順番で書くかという問題になります。ここでもしっかり迷い抜いて、話の流れをきちんと組み立てられれば、あとは個別の表現の選択になって、スムーズに書き進められます。書き直しはゼロにはなりませんすが、ちょっとした表現など細部の微調整で済むのです。つまり書く前に悩むことが大事です。
最悪なのは、考えがまとまらないうちに書き始めることです。大抵は書いては消し、書いては消しのループに陥り、そのうち自分が何を書いているのか、何を書きたいのかが分からなくなります。力業でなんとかまとめ上げても、主張が曖昧で話が行ったり来たりする不恰好な原稿になりがちです。先の「書き直しが多い原稿」とは、このことを指しています。
大規模言語モデルは、主張の部分はユーザーから与えられ、取材をせずとも広範な知識をたっぷり内部に蓄えています。その後の処理を一気に済ませ、最も適切と判断した単語の連なりを文章として出力しているわけです。その結果を読む限り、先ほどの持論をひっくり返した「書き直しのない原稿は得てして優れている」という経験則は、ここでも成り立つようです。
連携でさらに高機能に
ただし、長い文章の場合は話が少し変わります。一貫性を保ちながら長文を作りげるには人間も大規模言語モデルも、もう少し知恵をしぼる必要があります。まず人間の場合。これはもう当たり前の話ですが、最初に章立てなど全体の構成を考え、それから章ごとの構成、さらには細部の内容……と、段階的に話を詰めていくのが定石です。この方法は大規模言語モデルにも通用するはずです。
案の定、ChatGPTに相談したら似たような答えが返ってきました。トークン数の制約などを考慮した上で長編小説を書かせる戦略を聞いてみたところ、《1.章ごとまたはセクションごとに分割 2.概要を作成 3.コンテキストの保持 4.反復的な改善…》との回答$${^{*19}}$$。だいぶ人の書き方に近づくようです。
もちろん大規模言語モデルの文脈を大きく拡大することで、長文を一気に作成することも可能になるでしょう。ただし、それで人を楽しませる作品がすぐにできるかと言えば疑問です。満足がいくまで全体の文章を何度も繰り返すことを考えると、段階を踏んで作成した方が結局は早いのではないでしょうか。
人間の記者に原稿を書いてもらう場合に、事前におおまかな骨子を詰めるのもこのためです。デスクの立場でいえば、何も知らない状態でいきなり出てきた原稿を読んでため息をつくよりも、あらかじめ全体の構成を組み立てて書いてもらった方が、後の作業が楽になるのです。私の場合、自分で構造を作り直して書き換えてしまう場合も割とあったのですが……。
今のところ、上記のような戦略で長い文章を作成するには、基本的に人手が必要です。ただし、一連の手順を含めて自動化することはそう難しくなさそうです。大規模言語モデルと、一連の手順を制御するソフトや、出てきた文章を評価するソフトなどを組み合わせるわけです。
そもそも、大規模言語モデルのように、ループすらなしに一方通行で情報を処理するソフトウエアは異例です。数式処理システムMathematicaなどを開発したスティーブン・ウルフラム氏は、この点を著書『What Is ChatGPT Doing ...and Why Does It Work?』で「内部にループがないことは、既存のコンピュータはもちろん、人の脳と比べても間違いなく計算能力に足枷をかけている」(拙訳)と表現しています。今後は、様々なツールと大規模言語モデルを連携させて、文章作成はもちろん、幅広いタスクを自動化可能になるでしょう$${^{*20}}$$。
面白い文章を書けるのか
ここまで言語モデルが、わかりやすい文章を素早く大量に書く上で、人と比べて有利な特徴を備えていると主張してきました。最後に検討したいのは、その結果出来上がった原稿が、果たして面白いのかどうかです。
世の中の意見を斜め読みする限り、文章を書く能力の中でも、ここはまだ人の独壇場といえそうです。
例えば、古川渉⼀氏らによる書籍『先読み!IT×ビジネス講座 ChatGPT 対話型AIが生み出す未来』には、「AIで量産されたもの(コンテンツ)は、どのコンテンツも似たり寄ったりの内容になりがち」とか、「文章の場合、画像に比べると学習元の個人のテイストのようなものが生成結果に反映されにくい傾向はあると思います」$${^{*21}}$$といった発言があります。清水亮氏のこちらの記事では、面白いコンテンツを作れるかどうかは「使う人の想像力の差」に依存し、「計算規模が100倍になっても、クリエイターの魂にAIは絶対勝てない」と断言しています。
そもそも、面白いとはどういうことでしょうか。技術誌の編集者をしていた頃の私の基準は「読者が読んだことのない内容」でした。さらに噛み砕くと、「ニュース」か「主張」のどちらかに新しさがあることだと。
この尺度で測ると、確かに言語モデルの出番はあまりなさそうです。まず「ニュース」について言えば、人間の記者が足で稼ぐようなネタを見つけることは望むべくもありません。そもそも言語モデルには体がありませんし、学習済みの知識は古いままで、インターネットの最新情報でさえ検索するしかないのですから。ユーザーがうっかり入力した秘密をスクープする能力でも身につければ別ですが。
一方の「主張」についても同様です。言語モデルに欠けているものが何かといえば、主張や見方、あるいは切り口といった、様々な話題を「その人ならでは」の視点で捉える能力でしょう。そこが欠けるからこそプロンプトで指示を出す必要があり、裏を返せば指示通りの振る舞いができるのは「自分」がないからともいえます。
筆者のいない未来
ただし、です。私は、言語モデルに斬新な視点や切り口を提案する能力を授けることは可能ではないかと疑っています。
現在のChatGPTでも、特定の話題を指定して、一味違う視点を提案してもらうことはできます。いわゆる「発想の壁打ち」の相手として使えるのも、それなりの切れ味があるからこそです。ただし回答が予想をそこまで超えず、常識の範囲内であることも確かです。その殻を破るには、やはり人の才能に学ぶのが近道でしょう。
私が仕事で出会った発想の鋭い人には、共通の特徴があるように思います。まず、極めて多くの物事を知っていること。その上で、物事の背後にある関係を抽象化して捉え、突拍子もない結びつきを見つけ出す能力です。
実は、この能力は人間らしさの根底にあって、見方が鋭い人物はその力が人並外れて発達しているのではないかと想像しています。実際、最近読んだ『心はこうして作られる』という本では、人の知性の役割を感覚器からの情報や過去の経験を材料に意味のあるパターンを探すこととした上で、前例のない創造的な意味や解釈を生み出す「想像の飛躍は人間の知性のまさに核心である」と主張していました$${^{*22}}$$。その威力は凄まじく、自分の性格や信念や感情でさえ、その時々の解釈の産物だとするほどです。もしこれが本当だとしたら、目覚ましい発想の起点には、潤沢な知識と奔放な想像力の幸福な邂逅があるのかもしれません。
言語モデルは、このうち知識の量という点では文句なく合格です。一方で領域の垣根を超えて想像を膨らませる能力はまだまだ未発達に感じます。例えば、ある方と話していて、「スポーツの起源は格闘と射的に分けられる」という意見を聞いてハッとしたことがあります。同じ球技でも、ボールをカップに入れる腕を競うゴルフは射的、テニスはラケットとボールを使って安全に戦う格闘技というのです。まさかそんな見方があるとは思いもよりませんでした。
残念ながら、このニュアンスはChatGPTには伝わりませんでした。「スポーツの起源を射的と格闘に分けるとしたら、テニスはどちらの系統に入りますか」と聞いたところ、《射的の系統に近い》との答え。理由は《目標(相手のコート)に向かって物(テニスボール)を送る動作に関連して》いるからだと。どちらが正解という話でもないのですが、ちょっとがっかりでした。
以上で紹介したのは、仮説というほどもない思いつきです。今の言語モデルには、愛情も恐怖も、締め切り後の爽快感も眠気を堪える夜もありません。文章を書くことに残った人間らしさに肉薄するには、他にもやることは山ほどあるかもしれせん。
それでも、脳を一種のコンピュータと見なせる限り、人間の活動全てがいずれは機械でも実現可能になるのは必然のようにも思えます。面白い文章を読みたい読者と、超絶的な想像力を備えた言語モデルだけがあれば済む世界。その時が本当に来てしまったら、「シンギュラリティが起きてしまった感」などと誤魔化さずに、書き手として潔く白旗を掲げるしかありません。
この記事が気に入ったらサポートをしてみませんか?