見出し画像

生成AIはアナキズムの夢を見るか

ChatGPTに課金してしばらく経ちました。なんだかんだちょいちょい色々やってると手応え的にも面白く、ますます興味が湧いてきています。

その流れで読んだのがこの本。

現行の生成AIブームはどういう経緯でこうなったのかなというところに興味があり、ちょうどセールで安かったのでついポチッとしてしまいました。

コンピュータ黎明期から、Yahoo!ディレクトリ検索時代、Googleキーワード検索時代を経て、今の生成AIブームに至る歴史が分かりやすく紹介されていてとても面白かったです。江草もなんだかんだテクノロジー大好きっ子なので、生物のようにテクノロジー同士が分化・進化・融合していくというテクニウムの思想もワクワクする話でありました。

題名が「検索から生成へ」となってますが、まさにその通りで、最近は検索するよりChatGPTに聞く方が楽なことに気づいてしまい、Googleより使用頻度が多くなっています。

回答結果に信頼性がおけないことがしばしばあることは注意点ではあるものの、それはGoogle検索したところで同じく出てきたサイトの記述の信頼性が必ずしも担保されてるわけではないので、単純に利便性で言うとChatGPTに聞く方が楽になってしまってるということになります。(重要な内容は個別に裏を取りに行くのが必要なのはどちらも同じです)


で、(わりと些末なコラム的な話題であったにもかかわらず)この書籍の中で印象に残ったのが、AI界隈において、中央集権的になるか、分散型になるかの二大派閥で分かれてるという話。

当該箇所を引用してみましょう。

 実はいま、世界は生成 A Iに関して二つの大きな潮流の最中にあります。
 一つの流れは、一神教とでも呼ぶべきもので、「世界に究極の AIが一つだけあればいい」という考え方の派閥です。これは、 OpenAI(とそのうしろにいる Microsoft)、 Google、 Meta、 Amazon. comといった会社が推進している考え方になります。
 そしてもう一つの流れは、大規模言語モデルは目的別、場合によってはユーザー別にカスタマイズされ、多様性を持つべきだという、いわば八百万の神といった考え方の流れです。

清水亮『検索から生成へ 生成AIによるパラダイムシフトの行方』

一神教と八百万の神という対比の表現が面白いですね。

つまり、究極の巨大な万能型AIがドドーンとそびえ立つのがいいのか、各個人レベルや細かい目的ごとに多様にカスタマイズされたAIが無数にあるのがいいのか、ということですね。スーパーAIに何でも聞くのがいいのか、自分に合わせてチューニングした固有のAIと伴走するのがいいのか、なかなか興味深いジレンマです。

まあ、人間は(江草のように)現金なところがありますから、どっちでもいいけど便利な方を選びたい、能力が高い方を選びたいと考えるものでしょう。要は使える方はどっちなんだと。

で、AIの能力を左右するのは、もはやそのアルゴリズム(仕組み)的なところよりもデータセットがあるかどうかに依存してるのだそうです。

 すると、結局は A Iの能力は、方式とは関係なく、それを使う人がどのようなデータセットを持っているかによってのみ差別化されることになります。
「よい成果を出す組織」の条件が、「よいデータで訓練したよい A Iを持っていること」になる日はそう遠くないでしょう。
  A Iで差別化するときにもっとも重要になるのは「どんなユニークなデータを持っているか」ということです。それがユニークで、かつ魅力的であればあるほど、その A Iは価値を持つことになります。

清水亮『検索から生成へ 生成AIによるパラダイムシフトの行方』

つまり、良いデータセットがあるなら使えるAIになるし、そうでないなら使えないAIになるということになると言えます。

ここ、何気に重大な社会の分かれ道になるんじゃないかなあと江草は感じたんですね。

だって、良いデータセットを持ってるかどうかがAIの能力を左右する重要な要素であるならば、「データセットを囲い込もう」という動きが出るのは必至でしょう。

現在の生成AIはインターネット上での公開されてるデータで学習したようなんですが、生成AIブームとなったがために皮肉なことに既にネット上は「生成AIが生成した情報」で汚染されつつあるので、学習のデータソースとして望ましくないものになってるんだとか。(人間の審美眼をこそ学習したいのでAIが作ったものをデータとして読み込んでしまうと意味が無い)

となると、次はおのずと、ネット上にない非公開のユニークで貴重なデータを握ったもん勝ち競争になると言えましょう。

たとえばこの点、江草は(まがりなりにも一応は)医者なので意識してしまうのは医療情報のデータですね。

「画像診断の仕事がAIに奪われるか奪われないか」みたいな話はずっと昔からされてますけれど、ぶっちゃけ、大量のDICOMデータ(医用画像のデータ)とそれぞれの読影レポート(なんなら「レポートの質」の評価をつけた教師ありデータでもよいかもしれない)をAIに学ばせたら、そこそこ読影できるんじゃないかと思ってます。

実際、こないだ江草自身のMRI画像をChatGPT君に読ませてみたんです。(自分の画像だからよかろうと)

このMRI画像は腰椎のサジタル断面のものです。

(中略)

この画像からは、下部腰椎(L4-L5、L5-S1)の椎間板に変性や突出が見られる可能性があります。また、脊柱管が狭くなっているようにも見えます。具体的な診断は、患者の臨床症状や他の診断画像と併せて行われるべきです。
医師に相談して、詳細な診断と治療方針を決めてもらうことをお勧めします。

ChatGPTの回答

ぶっちゃけ椎間板ヘルニアがあるんですけど(江草は腰が悪い)、怪しい箇所の腰椎レベルの読みもバッチリです。確たることを言ってないぼやっとした表現ですけれど、むしろこのキー画像的な1スライスだけで確信を持って診断する方がおかしいですから、かなり妥当な読みと言っていいでしょう。

画像診断特化で鍛えられたわけでは全くない一般人でも誰でも使える汎用AIにキー画像一枚渡しただけでサクッとここまで読めるのですから、先ほど言ったように画像データとレポートデータを注ぎ込んでもっと徹底的に画像診断用に鍛えたら、かなりいい線行ってしまうと考えるのはさほど変な話ではないはずです。そして、そのAIの能力を左右するのは「良いデータセットがあるかどうか」にかかっていると。

となると、問題は「良いデータセットが使える状態として収集できているか」と「そのデータセットを扱えるのは誰か」です。

ご存じの通り、日本の医療界では電子カルテなりなんなりが各所で閉鎖的なシステムとなってる傾向があって、医療機関を超えて閲覧編集できる共通カルテの導入はまだまだ道途上です(それでも一昔前よりは進んでるけど)。すなわち、各医療機関内の医用データはバラバラに保管されていて、学習に使えるように統合的に収集されてないのが現状です。

この意味で言えば、前者の「良いデータセットが使える状態として収集できているか」の点で既に壁にぶち当たってるとも言えます。

なのですが、実はもっとやっかいなのは後者の「そのデータセットを扱えるのは誰か」なのではないかと江草は感じてるんですね。

前者の問題は、まあ誰でもすぐに気づくことなので、既に医用画像データベース構築のプロジェクトは各所で進められてはいるんですね。だから早晩、十分なデータセットは集まる可能性があります。

ところが、こうしたデータベース構築プロジェクトというのは、政府であったり大学であったり大企業であったりが主導です。

そうすると「良いデータセットが集まった」としても、扱えるのがそうしたお上であったり大組織だけになってしまう。独占とまでは言わないまでも寡占にはなってしまうわけです。これは実に中央集権的な構造です。

もちろん、広くオープンに利用できるようにするという話は出るでしょう。しかし、許可制になるのは間違いなく、どんな個人でも好きに利用できるということにならないだろうというのは想像に難くありません。特に、医用画像については個人情報的にもナーバスなデータですので、なんやかんや制限をかける建前がいくらでもつけられるんですね。

これは制限をかけずに適当に万人に解放しろと言っているわけではありません。むしろそうした制限をかけることに確かに倫理的正当性があるからこそ、これは厄介なのです。その倫理的正当性を盾に「誰がデータを使えるか」を認定できる者に、事実上の権力が集中するからです。これが、江草が「中央集権的」と言ってるゆえんです。

たとえば、マイナンバーカードに反対する声も、こうした中央集権的な構造に懸念を示しているわけでしょう。マイナンバーを統一的に国民に付与することの実務的メリットは多々あると考えており、江草自身はマイナンバーカードには支持的です。しかし、一方で、そのデータを集中して管理するのが国家政府であって、「データを握る」という意味で中央に権力が集中することを嫌う人たちが居ることも十分理解できます。

従って、AIにおいて「良いデータセットが持てるかどうか」が最重要ポイントということになってるということを踏まえると、仮にこれから大AI時代が来るとなれば、その時は「データを持っている者」「データを扱う権限を付与できる者」に絶大な権力が集中しかねないということになります。

つまり、「データが誰の手の元にあるのか」は今後の社会を占う上で、けっこうな重大な観点になるのではないかと。

そして、実際にすでに、政府機関や大組織はデータの収集管理に努め始めています。もちろん、これは悪意によるというよりも、それどころか大変に善意によるものであろうとは思いますが、それでもそれは自然と中央集権的になることでもある点については無視はできないところでしょう。うまくいってるうちはよくても、何かボタンを掛け違えると急に中央集権的な専横的態度が姿を現す可能性はありえます。

このように、紹介した書籍自体はあくまで「AIそのものが中央集権的な構造になるかどうか」が関心事項だったのですが、江草としてはそこから発展して「AIを用いて誰かが中央集権的に社会を支配するかどうか」につながる危険性も垣間見える話題だなと思ったわけです。

こうなると、気になると思われるのが、非中央集権的なデータの扱い方もありえるのかどうかというところでしょう。それは実際ありえます。

たとえば、先ほどから例に出している医療情報の文脈で言えば、Personal Health Record(PHR)とか。

つまり、個々人が自身で管理する健康情報データですね。中央組織に一元的にデータを集めるのではなく、各自が分散して各々のデータを持っておこうという思想に基づいています。

寡聞ゆえ江草も最新事情までは知らないのですが、さすがにまだ全てのカルテや画像情報まで盛り込むとまではなってないと思います。ただ、究極的には全ての医療情報を各自が持ち歩くようになるというビジョンも描ける概念です。

あるいはブロックチェーン技術を採用したデータ管理も、こうした中央集権を嫌った分散型の志向を持っています。有名なのはビットコインのような仮想通貨ですが、中央銀行のような一元的な管理組織を伴わずに通貨の信用が担保できるとして、反中央集権的な思想を持つ人たち(アナキスト)から人気です。

このように、「各自のデータは各自が所有している」という分散型の管理形式が徹底されると、その時は非中央集権的なアナキズム的なデータ管理社会になることになります。

ところが、まあ、実際のところ、これを徹底するのは現実的な困難が山ほどあるんですね。各自がデータを持ってるだけだと、無くしたり盗まれたら即座に完全喪失です。そして何より皆のデータを持ち寄って色々分析する統計的な作業が全くできなくなります。皆がデータを自室にしまい込んでるようなものですから、学習対象となりうるデータセットが皆無になるわけで、AIにとっては砂漠のような状況ですね。そうでなくても、臨床医学的な研究も全くできなくなります(各個人のカルテを患者さんが持って出て行っちゃうようなものなので)。

だから、各個人も組織も困るがゆえに、現実的には(あくまで利用の同意を得た上で)各個人のデータのコピーを様々な組織が預かるということに至るのですが、各個人のデータのコピーが集う組織があるなら、それは結局は集権的な様相から逃れられてないことになります。

それこそ、それが「八百万の神」と呼んでもよいぐらいに、多種多様の百家争鳴的な環境にとどまるならばいいのかもしれませんが、結局は「大きなデータセット」を求める引力に従って、独占や寡占的な「一神教」に収束してしまう可能性もないではないように思われます。


というわけで、あれやこれや語ってきましたけれど、生成AIの隆盛に伴って、今後各種のデータの取り扱い、特に「誰がデータを扱う権限を有するのか」が社会的に非常に大きな焦点になるのかもしれないということが、本稿で言いたかったことになります。

各個人が自身のデータの権限を事実上手放して巨大な存在に任せることするのか、それとも「自身のデータである」ないし「みんなのデータである」としての万人の自律的権限を保つことができるのか。どちらもがうまい具合のバランスで両立しうるのか。

いやはや、どうなっちゃうんでしょうね。

江草の発信を応援してくださる方、よろしければサポートをお願いします。なんなら江草以外の人に対してでもいいです。今後の社会は直接的な見返り抜きに個々の活動を支援するパトロン型投資が重要になる時代になると思っています。皆で活動をサポートし合う文化を築いていきましょう。