生成AI問題について:機械学習の研究をしている学生の一意見

目覚ましい発展を遂げているAI技術ですが、その一方で特に生成AIに関しては多くの物議を引き起こしているのが現状です。最近では特にイラストをAIに描かせる事への是非について議論されているのを見かけるようになりました。中には相手の人格を攻撃するような内容のものもあり、見ていてあまり気分は良くないものです。生成AIを過大評価するインフルエンサーをはじめとしたユーザーはクリエイター軽視とも言える発言やAIそのものへの嫌悪を招きかねないため、機械学習の研究をしている一学生としては発言を謹んで頂きたいと常日頃から思ってますが、そのような悪意に満ちた論争に巻き込まれたくないので、noteで対立が深まりつつある生成AIについて問題点と今後どのように接していく必要があるのかについて考えたことを述べていきます。

そもそも生成AIって何なの?

結局のところ生成AIって何?チャットGPTとかいうやつだっけ??という人も多いと思うのでまずはその定義と有名なモデル(サービス)について少し触れたいと思います。(私自身もどのような生成AIがあるのかこの記事を書くまではあまり分かってませんでした。)

大阪大学のAmeliaらの論文[1]では生成AIとは過去の膨大な素材を"学習"させる事によって、何らかのコンテンツを生成するAIモデルであると述べています。例えば画像を生成するStable DiffusionはユーザーがAIモデルに対してプロンプトと呼ばれる指示を与える事によってその指示文に沿った内容の画像を生成するAIモデルであり、OpenAI社のchatGPT(GPT-4)は莫大な量の文章をモデルに学習させる事により、これまでの対話型AIとは比べ物にならないレベルでユーザーの意図を汲んだ対話が可能になりました。一方で学習させるためのデータ(訓練データセット)はインターネット上にアップロードされているコンテンツから無断で集めたものも多く、その利用については様々な問題点が存在する事が指摘されています。

生成AIの利用における問題点

・著作権に関する問題

まず挙げられるのが著作権問題です。学習したデータセットはインターネットに存在する数億枚の画像や文章に上るわけですが、それらの学習元データにも著作権が存在します。インターネットにアップロードされているデータを無断で学習した生成AIモデルはある意味で漫画村のようなものに近く、それを公開する事や利用する事は違法アップロードコンテンツを公開したり、利用したりする事に繋がる恐れがあります。

・学習するデータセットの問題

利用するデータセットが著作権的な問題を抱えている事のみならず、児童ポルノを含んだ違法な画像を含んでいたという問題も浮かび上がっています。スタンフォード大学の研究では、LAION-5Bという約58.5億枚もの画像を含むデータセットのうち1000枚以上もの画像が児童ポルノ画像(CSAM)に該当していた事を指摘しています[2]。

なおCSAMとは児童性的虐待のコンテンツ、すなわち性的行為に関与する未成年者を扱った写真や動画、コンピュータに生成による画像などのあらゆる映像描写の総称の事を指し、欧米諸国では所持しているだけで罪に問われます。

・クリエイターの仕事

生成AIがインターネットで論争になっているのは、生成AIによってクリエイターの仕事を奪われるという懸念に起因していると考えられます。産業革命後の機械化反対運動のように単に新しい技術が登場する事により仕事が無くなる事に反対している訳ではなく、上記のような著作権を抱えた生成AIモデルによって生成されたイラストや音楽、小説などが商用素材、フリー素材として流通した結果仕事が無くなってしまう事、実際に無断でイラストを学習され、AI絵として放流される被害を受けた経験から生成AIに対して疑念を持っている人が多いと感じました。自分が描いた絵、自分が作曲した曲、自分が書いた小説を勝手に学習したAIモデルに仕事を取られたりする事には我慢がならないと思います。また描いた絵をAI絵と勘違いされ袋叩きに遇うと言った悲しい事件も発生しています。

よく議論されている点

・人間とAIモデルの学習方法に本質的な違いはない

AI(実際には深層学習モデル)の学習法と人間の脳の学習方法にどのような本質的相違があるのかについてはまだはっきりとした事が言えないので、学習方法という観点では収拾がつかないと思われます。しかし生成AIはどのようなデータを具体的に学習したのかを明らかにしない点や、ほとんどトレパクとも言えるコンテンツが生成されてしまう点は人とは明らかに異なると言えます。

・開発会社とユーザーのどちらに問題があるのか

AIイラストをまるで自分が描いたかのように公開し、高評価を貰うユーザー、過剰な煽りでお金を集めようとするAI驚き屋の印象が悪い事は言うまでもないと思います。しかし問題のあるデータセットでモデルの学習を行っている開発会社側にも問題はあるはずです。

生成AIのこれから

このように現行の生成AIには問題が山積している事が分かります。しかしながらこうした問題を指摘した所で生成AIの利用が止まるとは思えません。実際、多くの人々は生成AIをクオリティの高いイラスト、意味の通った文章を無料で、もしくは幾らかのお金を払えばあっという間に生成してくれる夢のような機械という認識でいると思います。そもそも問題があるのはデータセット・開発会社・ユーザーであり、生成AI技術、ひいてはAI技術そのものを否定する事ではないはずです。生成AIに懸念を抱いているクリエイターの方も例えば「AIが線画を修正したりしてくれるといいな」という声があったようにAI技術そのものには期待している人が多いように見えます。
生成AIをどう対処していけば良いのかについては多種多様な意見があると思いますが、ここでは1つ私見を述べたいと思います。

・データセットのオプトイン化
生成AIモデルにまつわる問題の殆どはデータセットに起因しています。それ故にデータセットの作成・利用方法に制約を設ける事が最初の課題になると思われます。著作権問題や有害なコンテンツの混入を防ぐためには、あらかじめデータの提供元からデータの利用・活用方法について同意を得た"クリーンな"データセットを作成する必要があるでしょう。
更に、私はクリエイティブ・コモンズ(Creative Commons)のような創作物の著作権を守りつつも適切な再利用を促すライセンス策定機関を設ける必要があると感じました。論文[3]によれば現在データセットのライセンスにもCCライセンスやソフトウェアにおけるGPLライセンスと言った既存のライセンスを使われているとされています。しかし著作物・非著作物を問わず集め、学習という行為の為に使われるデータセットは創作物やソフトウェアとは性質がやや異なる部分があり、適切であるとは言えません。法の整備が遅れている現状、生成AIを利用する上では、私たちが積極的にオプトインデータセットの作成とその利用を促していく活動が必要になると思います。

とはいえデータセットのオプトイン化については

・インターネット等を利用した現行のデータ収集法に比べてデータ数が少なくなってしまう

・生成AIモデルの性能がデータ数に比例する

という点で今のところ普及は難しいと考えます。

現在の生成AIモデルはデータの数が多ければ多いほど性能が向上するという事が知られており、より大規模なデータセットの利用が求められています。
GAFAMをはじめとする巨大テック企業は多少の法違反とそれに伴う訴訟・賠償金を払ってでもデータを活用し、利益を上げようとします。利益を上げる事が企業の最大目的なのでその思想は否定しませんが、ビジネスにおいては、どれだけクリーンさを訴えても利益にならなければ利用されることはないでしょう。生成AIの開発においても似たような事が言えると考えます。生成AIの動向は特にOpenAI社に依存していますが、このOpenAI社、その名前に反して学習モデルやデータセットの詳細をほとんど公開していません。こうした姿勢から非常にクローズドな会社であると皮肉られていますがOpenAI社がこんな有様なので、他のサービスもそれに追従していくと予想出来ます。残念ながらオプトイン化したデータセットを使う事による金銭的利益が従来のデータセットよりも優位にならない限り、この問題に終わりはないでしょう。少なくとも小規模なデータで現行以上の性能を持つAIモデルが開発されるまではデータセットに関する問題は続いていくと思われます。

とは言え一番有害なのは生成AIビジネスインフルエンサーです。あれはもはや資本主義が生み出した癌と言って良いです。

おわりに

色々書きましたが私としてはクリエイターの未来が無くならないようにするためにも、AI研究が封印される未来が来ないためにも何とかしたいと思ってます。

参考文献

[1] Katirai, Amelia, 井出 和希, 岸本 充生, 生成AI(Generative AI)の倫理的・法的・社会的課題(ELSI)論点の概観 : 2023年3月版, 大阪大学社会技術共創研究センター

[2] David Thiel, Identifying and Eliminating CSAM in Generative ML Training Data and Models, Stanford Internet Observatory December 23, 2023

[3] 熊谷雄介, 板倉 陽一郎,見並 良治, 猪谷 誠一, 道本 龍, データセットおよび学習済み統計モデルの利用についての法的検討, The 35th Annual Conference of the Japanese Society for Artificial Intelligence, 2021


この記事が気に入ったらサポートをしてみませんか?