見出し画像

[機械学習] 商用利用禁止のデータセットで学習したモデルを商用利用することは可能か?

自分で作った深層学習モデルをImageNetで学習してみようと思ったのですが、ImageNetはライセンスを確認すると商用利用が禁止されているようです。

TensorFlowやPyTorchなどで利用できるResNetなどのモデルは、ImageNetなどで事前学習されたパラメータが利用でき、普通に利用しています。

しかし、ImageNetからダウンロードした画像は商用利用禁止です。画像データを直接商用利用するのはもちろんアウトだと思いますが、これらの画像をもとに作られたパラメータは商用利用可能なのでしょうか?

商用利用するにあたって法的に問題ないか気になったため、調べてみました。

注意
以下の内容で、私は法律の専門家ではないので、誤りがあるかもしれないです。以下を内容を元にトラブルが発生しても一切の責任は持てませんのでご了承ください。(もし間違いがありましたらご指摘いただけたらありがたいです)

ImageNetとは

ImageNetとは、1400万件以上の画像データベースで、画像認識分野のデータセットとして利用されています。ImageNetでは、画像のURLと画像ラベルのセットが公開されています。(参考: https://aizine.ai/imagenet-0320/)

ImageNetでは商用利用は不可となっており、公開されている画像は、ImageNetが著作権を保有しておらず、利用者は画像のURLから各自でダウンロードして利用するという方式になっています。

ダウンロードの条件として、非営利の研究目的、教育目的であること、利用することによる全責任を負うことなどが挙げられています。(アクセス条件

この記事では、このImageNetを利用して作成したモデルを商用利用することはできるのかについて考えていきます。

商用利用ケースの整理

機械学習モデル用にデータセットを商用利用するにあたって、以下の二つのケースが考えられます。

A. ImageNetのデータセットを使って自分でモデルの学習を行う場合
B. 第三者が公開したImageNetで学習済みのパラメータを利用して、直接利用する、あるいは自分で2次モデルを作る場合

いずれも商用で利用する場合を想定します。それぞれ順番に考えていきたいと思います。

A. ImageNetのデータセットを使って学習を行う場合

ImageNetデータセットにアクセスする条件として商用利用でないことが挙げられています。そのためダウンロードページにアクセスするためには、まず商用利用しないことに同意する必要があります。

この時点で商用利用目的ではImageNetが利用できないので、データをダウンロードすることはできず、学習を行うことはできないという結論になります。

これで終わりという話になると思うのですが、仮にデータにアクセスできたとしても、そもそもImageNetは著作権を保有しているわけではなく、利用規約では、利用者が自分でダウンロードを行い、全責任を負う必要があります。

ImageNetが利用できたとして、コンテンツをダウンロードして学習データとすることは法的に問題はないのでしょうか?

平成30年の改正著作権法

平成30年に著作権法が改正され(著作権法30条の4の改正)、日本においてはAI開発のために著作物を利用することは許諾なく行えることになりました。(著作権法の一部を改正する法律(平成30年法律第30号)について

以下の記事がまとまっていてわかりやすかったです。

この改正著作権法によって、インターネットを通じてデータをダウンロードし、AIモデルを開発を行うことは、原則問題がないと記載されています。

ただし、日本の著作権法であるため、サーバーのリージョンが国外の場合、海外の法律が適用されてしまう恐れがあること、また契約や利用規約で商用利用を禁止している場合は、著作権的に問題なしでも利用規約で問題となる可能性が指摘されています。

ImageNetの例では、ImageNetで公開されているWeb画像をダウンロードし、日本国内で学習データとして利用する行為は、著作権法30条の4の改正より問題ないと言えそうです。

ただし上記で述べたように、著作権的に問題はなくても、ImageNetの利用規約には反するためImageNetのWebサイトを通してデータセットをダウンロードすることはできないと考えられます。

B. 事前学習済みのパラメータを商用利用する場合

では、他の人がImageNetのデータセットを使って学習を行ったパラメータを商用利用するのは問題ないのでしょうか?

一般に事前学習済みモデルのパラメータそのものは著作権は保護されないと考えられるようです。以下のTOP COURT事務所の記事では、パラメータの数値自体は、著作権法で保護されるのに必要な、思想や感情、創作性などの条件に欠けるため、著作物として保護されないと考えられると、述べられています。

また、以下のSTORIA法律事務所の記事では、ライセンス違反のデータセットで学習したパラメータを元に商用利用モデルを作成し販売するケースで問題ないかを解説しています。

1. 利用規約違反のデータで学習が行われたモデルが公開される
2. 第三者が公開されたモデルをダウンロードし、2次モデルを生成して販売する

「1」を行なった者は、著作権上は問題ないですが、データ提供元とのライセンス違反が発生しています。ただし、利用規約などの契約は当事者間のものなので第三者に契約は波及しません。そのため「2」で第三者がダウンロードとパラメータの利用を行なった場合では、「1」で利用規約違反があったとしても法的な問題はないと考えられます。

したがって、TensorFlowなどで、ImageNetで事前学習したモデルを公開することが、仮にImageNet利用の利用規約違反だったとしても、そのパラメータを第三者が商用利用することは問題ないと言えそうです。

また、TensorFlowの場合、事前学習済みのパラメータの商用利用を制限する利用規約は確認できませんでした。パラメータの利用が著作権法上問題なかったとしても、TensorFlowの利用規約として禁止されている場合は、そもそもTensorFlow自体を利用できなくなると思いますが、その観点でも問題なさそうです。

ところで、TensorFlowがImageNetを利用した重みを公開することは商用利用と言えないこともない気はしますが、どうなんでしょうか・・・?公開しているということは、問題ないと考えていそうではありますが。

まとめ

ImageNetなどの商用利用不可のデータセットで事前学習済みのモデルを商用利用することは問題ないと言えそうです。また、著作権法30条の4の改正により、日本においては利用規約に違反しない限りは、著作物だとしても学習データに利用しても問題ありません。

***

最後に、再度の注意となりますが、私は法律の専門家ではありません。内容に誤りがある可能性があります。もし誤りなどがございましたら、ご指摘いただけたらありがたいです。

最後まで読んでいただきありがとうございます。 他の記事はこちらからどうぞ → https://note.com/sat0b3ee/