AIと著作権の問題を解決するかもしれない「ライセンス市場」というアイデア

今回は、以前Twitterにて話をしたライセンス市場について、筆者の考えをまとめておこうと思います。

このライセンス市場自体は以前からあるものですが、2023年6月19日に文化庁主催で開催された著作権セミナーに掲載されていたことをきっかけにして、私は諸問題の解決策となりえるのではないかと考えるようになりました。

著作権セミナーの内容については、下記の文化庁サイトにて動画のアーカイブと資料が公開されているので、AIと著作権に興味がある方はぜひ目を通していただければと思います。司法の判断が必要な事項がありながらもそれがすぐには出てこない現状において、AIと著作権について話をするのであればこの著作権セミナーの内容を踏まえていることが当然と言ってもよいでしょう。

なお筆者は法律の専門家ではありませんので、本記事の法的な正しさについては保証できません。正確な情報を知りたい場合は、弁護士に相談してください。本記事は、解釈が誤っている可能性を含みつつも、大筋としては主張する価値があると筆者が判断して公開するものです。

本記事の要旨

  • 開発者とクリエイターはお互い反省して、ライセンス市場の確立に向けて協力しよう。

  • クリエイターは、ライセンス管理を業者に委託するのも選択肢の一つ。

  • ライセンス作成のノウハウは非常に重要。広く共有されることで、ライセンス市場が実現しやすくなるかも。

  • 許諾料の価格帯と販売の仕組みは、利用用途によって調整する必要がありそう。

  • 開発者からも許諾料の目安を示すべき。

ライセンス市場のメリット・デメリット

詳しい説明の前に、メリット、デメリットを簡単にまとめておきます。筆者が適当にまとめたものなので、他にも多々あるかと思います。

・開発者
メリット:学習元を明らかにしてクリエイターに還元することで、多く利用されやすくなる。
デメリット:学習データとしての利用許諾料が高額になってしまう。国内における開発が阻害されて、海外大企業に市場を独占される恐れがある。

・クリエイター
メリット:意図しない利用方法を縛ることができる。AIの利用によって発生した利益の一部を還元してもらうことができる。
デメリット:利用権販売前までの著作物の学習への利用は禁止できない(=これまで自身にとって望ましいライセンス管理をしてこなかった事実を受け入れなければいけない)。

・AIの利用者
メリット:学習元が明らかなモデルを安心して利用できる。利用することでクリエイターにも貢献できる。
デメリット:AIを無料で利用することは難しくなる可能性がある。

このように開発者、クリエイターともにデメリットはあります。しかしそうしたデメリットをお互いに都合よく隠した状態では、議論が前に進みません。お互いに反省をし、望ましい未来へ向かって協力していくべきではないでしょうか。

ライセンス市場とは

本記事で「ライセンス市場」と呼んでいるのは、機械学習の学習データとして利用するための権利を販売する市場のことです。

例えば、いくつかの新聞社では主に研究用に過去の記事を年単位で販売しています。下記のリンク先のように、仲介会社に販売を委託しているようです。

こうした仲介会社は、クリエイター方面にも存在します。形は違いますが、例えば一部のYouTuberは自身の動画の切り抜きのライセンス管理を事業者に委託しています。事業者が切り抜き動画の作成者を管理し、その収益の一部を還元してもらう部分を代行しているのです。この仕組みは作品を学習データとして利用する開発者を管理し、その収益の一部を還元してもらうことにも応用可能ではないかと考えられます。

ライセンス市場で「データの利用権」を販売することが重要

著作権セミナーでも話されていたように、ライセンス市場でデータを販売すると、そのデータは著作権法第30条の4で認められている、いわゆる無許諾学習が可能な範囲から外れることになります。

これは著作権法第30条の4の但し書きにて「著作権者の利益を不当に害することとなる場合」には適用されないことになっているからです。この「著作権者の利益を不当に害することとなる場合」の意味を「販売しているものを学習してはいけない」というように拡大解釈している人が散見されますが、文化庁の見解としては下記のようになっています。

具体的な判断は最終的に司法の場でなされるものであるが,例えば,大量の情報を容易 に情報解析に活用できる形で整理したデータベースの著作物が販売されている場合に,当 該データベースを情報解析目的で複製等する行為は,当該データベースの販売に関する市 場と衝突するものとして「著作権者の利益を不当に害することとなる場合」に該当するも のと考えられる。

デジタル化・ネットワーク化の進展に対応した 柔軟な権利制限規定に関する基本的な考え方(著作権法第30条の4,第47条の4及び第47条の5関係) 令和元年10月24日 文化庁著作権課 P9 (https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf
)

https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf

このように「販売されているものを学習データに用いる行為」ではなく、「情報解析用に販売されているものを学習データに用いる行為」が該当すると書かれています。つまり「ライセンス市場で学習データとしての利用権が販売されていること」が重要であると考えられます。単に「販売されているものを学習データに用いる行為」が但し書きに該当するかは司法の判断が必要であり、個人がSNS等で断定できるものではありません。

契約の重要性

データの利用権を販売することの意味は、他にもあります。販売時に契約書を取り交わすことで法的拘束力が発生し、そのデータの利用方法を指定することができるのです。

さきほど新聞社がデータを販売している事例を紹介しましたが、それらの多くは研究用として販売されています。これは販売時の契約によって利用方法を指定していると思われます。一部では商用利用も可能な形で販売されていますが、要相談と書かれているので容易ではなさそうです。

また「契約による制限規定のオーバーライド問題」が知られています。これは、著作権法の権利制限規定によって可能とされている利用方法を契約時のライセンスで禁止できるか、という問題です。下の記事「第三者のデータやデータセットを利用して適法にAIを生成するための基礎知識」の「4.0.10 ▼ どのように考えるべきか」の項にて解説されています。

機械学習の話でいえば、第30条の4にて無許諾学習は可能とされていますが、データの著作権者が「AI学習禁止」などと提示している場合に、どちらが優先されるかということになります。

しかしライセンス市場でデータの学習利用権を販売していれば、第30条の4は適用されません。したがって、販売時に交わした契約によって利用方法を縛ることができます。もちろんそれ以外の制限規定を禁止する場合はオーバーライド問題が発生するので、適宜対応が必要です。

ちなみに、上の記事内で書かれている「著作権法47条の7」は、現在「著作権法第30条の4」へと改正されているものなので注意してください。詳細は下の記事を参照。

ライセンス市場を作る

このライセンス市場は、現時点でも作ることは難しくないと考えています。

筆者の上記ツイートのように、Boothで学習データ用の権利を販売することは比較的容易ではないかと思います。また販売したデータがどのように利用されているか追跡するのは個人では難しいですが、「ライセンス市場とは」の項で紹介したようなライセンス管理業者に委託すれば負担は軽くなるのではないかと思います。ライセンス販売仲介サイトを運営する企業が出てきてもよいのではないかと思います。ビジネスチャンスかどうかは保証しかねますが、社会の役に立つ取り組みにはなるでしょう。

しかしながら、ライセンス販売時に利用者と取り交わす契約内容については慎重に考える必要があります。この点については特に筆者は保証できませんが、例えば下記のような論文が参考になるのではないかと思われます。

J-STAGE Articles - データセットおよび学習済み統計モデルの利用についての法的検討

この論文で引用されている、経済産業省の「AI・データの利用に関する契約ガイドライン 1.1 版」によれば、契約で明示したもの以外の権利はデータの受け取り手に渡さない、独占的な利用を許すかどうか、といった点に留意する必要があるようです。

https://www.meti.go.jp/policy/mono_info_service/connected_industries/sharing_and_utilization/20180615001-1.pdf

その他にも細かい注意点があると思われるため、本気でライセンスを販売するのであれば、弁護士にライセンスの記載内容の検討を依頼する必要があるでしょう。もしそうした気概のある方や、既に知見のある弁護士の方がいれば、ライセンス作成のノウハウをクリエイター向けに公開していただけるとライセンス市場の確立に向けて加速するのではないかと思います。あるいはそこも含めてライセンス管理業者がカバーしても良さそうです。

データをいくらで売るか

学習データを販売するにあたって、販売価格をどの程度にするべきかは悩ましい問題です。

既にデータセット用に販売されている新聞各社のコーパスを調べてみると、研究用で0.001~0.002円/文字くらいの相場になっています。仮にこれがプロの作家のラインと同等だと考えると、文庫一冊12万文字のライセンス許諾料は120円程度になるでしょう。仲介手数料を考慮しても、作家の印税よりちょっと多いくらいになりそうです。学習ライセンス込みにして販売した時に作家に入る収入が倍になるのは魅力的です。商用利用も認めるなら、より多くの収益が見込めます。

しかしそう簡単に考えられるものでもありません。例えば画像生成AIでは、基盤モデルの学習に数十億のデータが必要です。基盤モデルとは、大量のデータを事前学習しており、様々な利用方法に向けてファインチューニングできるモデルのことです。一方で、ファインチューニングは10枚程度の画像でも可能です。画像一枚を参照して生成するreference onlyのような技術もあります。

現在のイラスト販売市場の相場は1枚あたり数千円~数万円ですから、画像の許諾料を一枚1円と仮定しても、基盤モデル作成のために必要な金額は数十兆円程度になり、現実的ではありません。一方、ファインチューニング用途なら十万円程度で可能になります。基盤モデルの段階では学習された一つ一つのデータの寄与は比較的低く、ファインチューニングした場合は元画像の作風が強く反映されるので、それを考慮する必要があるのではないかと思います。例えば基盤モデルの学習用には安く提供し、ファインチューニング用には逆に高く提供するような工夫をしないと、需要が生まれず市場は成り立たないでしょう。

個人的には、基盤モデルの場合はファインチューニングしたモデルが多く派生すると予想されるため、その派生モデルも含めて、モデルや生成物の販売利益から一定の割合をサブスクのように還元するのが良いと思います。YouTubeが再生回数に応じて収益を分配するのと似たようなものでしょうか。

生成物の貢献度に応じて還元する利益を調整するという考えもありますが、指定した内容を出力させないようにするネガティブプロンプトや、人間のフィードバックを含む強化学習が取り入れられていることを考えると、一般的に出力されることが望まれない学習データにも、隠れた貢献度があるのではないかと思います。(これらも考慮するなら、高品質なアノテーション済みデータ、あるいは腕のいいアノテーターの価値も考慮されるべきでしょう)

またファインチューニング用ならば、一般的なイラスト売買の相場に多めの学習許諾料を追加した程度の価格帯、例えば十枚数十万円の買い切りにしても市場は成り立つかもしれません。

こうした許諾料の目安について開発者側からも具体的な要望・案を出してクリエイター側とすり合わせることで、健全な市場が作れるのではないかと思います。特にクリエイターは技術的な知見がないことも多く、適切な価格設定をするための前提知識がありません。また技術の発展が速いために、販売していたデータの価値が暴落してしまう可能性も考えられます。そうしたクリエイター側の不安を取り除けるような仕組みが望ましいでしょう。ライセンス管理業者を介した利益還元の仕組み作りも含めて、開発者はクリエイターをだますことなく、妥当で現実的な価格帯と仕組みを誠実に提案するべきだと思います。

何にせよ、多様な販売形態を模索し市場原理に基づいたライセンス市場が生まれることが望ましいと筆者は考えています。データを既に持っているストックフォト系などの大企業だけが基盤モデルを独占してしまう可能性が指摘されているので、開発のしやすさとクリエイターへの還元を両立するようなライセンス市場を早期に確立することが必要だと思います。

おわりに

筆者はライセンス市場を介して著作物を学習してよい権利がやりとりされる未来が望ましいのではないかと感じています。少なくとも、今のところは。

当然、この「ライセンス市場」というアイデアには筆者の気付いていない欠陥があるかもしれません。筆者よりも知見のある専門家の意見に、よく耳を傾けてください。

私は私が信じる道を行きます。あなたはあなたが信じる道を進んでください。未来はそうやって創るものです。


この記事が気に入ったらサポートをしてみませんか?