学習データは誰のものか？

稲田友

2021年11月28日 14:59

Society5.0とか言われて久しく、「データは21世紀の石油」とのことですが、価値の源泉たるデータって誰のものなのか？

教育分野では教育再生実行会議の「ポストコロナ期における新たな学びの在り方について(第十二次提言)」でも「データ駆動型の教育への転換」が最初に掲げられています。

この手の話が出てくるたびに「では学習データは誰のものか？」という話が出てくるのですが、いつも「それは学習者のものだろう」「いやいや、なかなか整理が難しい」ぐらいの議論がなされ、なんとなく有耶無耶になってしまいます。

今回は「学習データは誰のものか？」について、より建設的な議論や行動が進むよう、自分が分かっている限りでの事実や現在地について整理してみたいと思います。

長々とした補足はいらないので、まとめだけ読みたい人はこちらをご覧ください。長文なので皆さんの貴重な時間をもらうのも忍びないので。

また、多くの人が辿り着けていない「真の答え」も最後に記載しておきます。こちらは生温かい目を持つ心豊かな方のみご覧いただき、くだらない話が嫌いな人は読み飛ばすことをおススメします。

それではいってみますー。

学習データは誰の所有物でもない。

いきなり話の腰を折るようなこと書いていますが、、、
「誰のもの」という言葉は、社会では所有権を指し示すことが一般的です。パソコンを家電量販店で買った＝そのパソコンは自分のもの、という感じ。

一方で「ものとは何か」というと「有体物」か「無体物」に区分けがされ、民法上の「もの」は「有体物」に限られます。

物
広義には、権利の客体となり得る外界の一部をいい、有体物と無体物がある。民法上の物は、有体物に限られる（八五）。有体物とは、空間の一部を占めて有形的存在を有するものであり、電気、熱、光等のエネルギーを含まない。人の生きた身体は物ではない。また、人が支配することのできない天体、空気、大洋等は物ではない。
[有斐閣法律用語辞典第4版より]

また、有体物でありながら「もの」でない例外は人間です。人間が「もの」として所有権が発生したら、それこそドレイになってしまいますので。

この区分けにおいて、「データ」は有体物ではないので所有権が発生せず、学習データは誰の所有物でもない、となります。
この辺りは経済産業省がまとめている「AI・データの利用に関する契約ガイドライン」の整理を読むと良いかも。

１データの法的性質および分類等
総論
データは無体物であり、民法上、所有権や占有権、用益物権、担保物権
の対象とはならないため、所有権や占有権の概念に基づいてデータに係
る権利の有無を定めることはできない（民法 206 条、同法 85 条参照）。
[AI・データの利用に関する契約ガイドライン 1.1 版より]

上記では所有権に加え、占有権、用益物権、担保物権の対象でもないことも説明されています。

1つ目の結論。学習データには所有権がない。

所有権は無いが、他の権利が無いわけではない。

所有権や占有権の対象にならないからと言って、学習データが保護の対象外かと言うとそうでもありません。
先ほどの「AI・データの利用に関する契約ガイドライン」では、データの保護に関する知的財産権等として、以下の4種類をあげています。

①著作権
②特許権
③営業秘密に係る権利
④限定提供データに係る権利

詳細はガイドラインのp15部分をお読みいただけたらと。
要は、①創作的に表現されたもの＝著作物や、②特許を認められたもの、③商売上有用で秘密なもの＝営業秘密、④その他保護が必要なもの(説明長くなるので解説してくれているリンクにぶん投げる)の観点では、保護が必要ということです。

本記事も、文字や画像ですがデータになっていますが、思想や感情を創作的に表現されたもの＝①著作物なので、勝手にコピーして自分が書いたって言うのはNGだということです。

上記の4つに加え、個人を特定しうる情報＝個人情報については、個人情報保護法や個人情報保護条例によって規定された保護＝「⑤個人情報の保護」が必要になってきます。

2つ目の結論。学習データには所有権がないが、①著作権、②特許権、③営業秘密に係る権利、④限定提供データに係る権利、⑤個人情報の保護によって保護される。

学習データは①～⑤に該当しないものも多い

ではこの話を「学習データ」に当てはめるとどうなるか？

例えば学校の美術の時間に、タブレットで描いた絵のデータは①の著作物。作文とかもそうなります。
一方で、「●●さんが2時間目にXXの領域の応用問題を5問挑戦し、4問正解した」は①～④には当てはまらなそうです。
「●●さん」ということが特定できる情報であれば、「⑤個人情報の保護」が該当しますが、そこもランダムなIDなどで個人情報が含まれない(紐づけて個人が特定できたら個人情報ですが)となると、対象の学習データは①～④や「⑤個人情報の保護」の観点では、保護されるものではなさそうです。

例えば、前回記事でも話題にしている「学習eポータル」においては、「学習eポータル標準モデル」においてxAPIという国際規格で学習データ＝スタディ・ログを保存することとなっています。
この規格では以下のような方法でスタディ・ログを記録します。

「Actor：活動主体（誰が）」「Object：活動対象（何を）」「Verb：活動自体（どうした）」を基本に、「Context：活動の文脈」「Result：活動の結果」「Timestamp：活動の日時」等の要素にて履歴を記述する

Actor部分はUUIDという12桁のランダムな文字列を識別子とします。このUUID単体では個人を特定できる情報でないため、学習データ単体では個人情報とはならないと解釈できます。

となると、上記のような①～⑤に該当しない学習データはどうなるのか？
これらは全くの無管理状態になる、という訳ではなく、別で権利が発生するはずです。

データの利用権限＝データ・オーナーシップ

そもそも①～⑤は主に知的財産権や個人情報による保護が目的なため、どちらかというと制約条件に近く、①～⑤が発生したとしても、利用権限をどうするかは別で議論する必要がありそうです。

利用権限とは「対象の学習データにアクセスし、その利用をコントロールできる権利」となるでしょうか。
「●●が2時間目にXXの領域の応用問題を5問挑戦し、4問正解した」という学習データを見ることができ、それをコピーしたり、内容を分析したり、他の人に渡したりする権利です。

上記あたりを総じて「データ・オーナーシップ」という言葉が用いられたりします。先に紹介した「AI・データの利用に関する契約ガイドライン」では以下のように記載されています。

データに適法にアクセスし、その利用をコントロールできる事実上の地位、または契約によってデータの利用権限を取り決めた場合にはそのような債権的な地位を指して、「データ・オーナーシップ」と呼称することが多いものと考えられる。

一般的に「学習データは誰のものか？」という問いの「誰のもの？」の部分は、①著作権、②特許権、③営業秘密に係る権利、④限定提供データに係る権利、⑤個人情報の保護、を除く場合、このデータ・オーナーシップ＝利用権限を持つのが誰か、という話になってきそうです。

データ駆動型教育、という言葉で用いられているデータについての「誰のもの」議論の多くは、データ・オーナーシップ＝利用権限の議論になってくる、というのが前提の整理です。（前提整理が長かった...。）

4つ目の結論。①～⑤がない場合もあるし、あったとしても利用権限＝データ・オーナーシップが重要。

データ・オーナーシップは契約で決まる。

ではそのデータ・オーナーシップはどうやって決まるのか？
データ・オーナーシップは各種法令で発生する権利・保護である①～⑤ではない利用権限なので、そこは民法＝当事者間の契約によって決定されます。

ここまでダラダラと前提を説明しながら、この論点まで至りましたが、先に紹介した「AI・データの利用に関する契約ガイドライン」では、これまでの議論をわずか237文字で説明しています。やるな、経済産業省。

１データの法的性質および分類等
総論
データは無体物であり、民法上、所有権や占有権、用益物権、担保物権
の対象とはならないため、所有権や占有権の概念に基づいてデータに係
る権利の有無を定めることはできない（民法 206 条、同法 85 条参照）。
そして、知的財産権として保護される場合や、不正競争防止法上の営業秘
密として法的に保護される場合は、後記第 3-2-⑵で述べるように限定的
であることから、データの保護は原則として利害関係者間の契約を通じ
て図られることになる。

この237文字を、10倍の2500字ぐらいかけて説明していた訳で、、でもこれだけだと分かり辛いですよね？（そうでないと補足している意味がない…。）

3つ目の結論。学習データのデータ・オーナーシップ＝利用権限は当事者間の契約によって決まる。

どのような契約になるのか？

ではそれはどのような契約になってくるのか？

「AI・データの利用に関する契約ガイドライン」では、データの利用権限の取り決めに関し、
a. データ提供型契約
b. データ創出型契約
c. データ共有型(プラットフォーム型)契約
の3つに分類されるとしています。

それぞれにおいて様々なパターンがあり、全部の想定を書いていくと膨大な長さになって誰も読んでくれなそうなので、、、
この記事での焦点は、学習データ創出に関わる最初の当事者たる学習者の権利にしておきます。まずはそこが大事かな、と思っており。
そうなると、論点としては「b. データ創出型契約」の解説になりそうです。

学校教育等での学習データについて説明するのであれば、ガイドラインのp53にある、バス会社と従業員＝バス運転手、ヘルスケアサービス事業者におけるバイタルデータ取得の例が一番近そうです。

長距離バス路線の運航をしているバス会社Aは、バス運転手の過重労働が社
会問題化したことをきっかけに、労働環境改善のための対策として、従業員に対して、勤務中にウェアラブル端末を装着させ、勤務中のバイタルデータ（体温、心拍数、発汗等）を取得して、これらのデータに基づいて従業員の健康管理を行うことにした。具体的には、Aはヘルスケアサービスを展開するBと共同してウェアラブル端末を開発し、端末から取得した従業員（C1、C2・・）のバイタルデータをリアルタイムで監視し、体調が悪化したり疲労が蓄積したりしている従業員について、警告を出すというシステムを予定している。また、このシステムから取得された各従業員のバイタルデータは、Bの管理するシステムに蓄積され、Bが分析をすることで、全社的な健康管理施策の立案および助言を行うことも予定している。さらに、Bは、このサービスを通じて得たバイタルデータを加工して、自社の展開している別の健康管理サービスに利用することができないかと考えている。

これが学校教育における学習データと想定すると

・バス会社A＝教育委員会／学校
・Aの従業員＝学習者
・ヘルスケアサービス業者B＝学校向け(学習／校務等)サービス事業者
・Bの顧客＝学校向けサービス事業者の顧客である別の教育委員会／学校

という構造です。
例示したバス会社の例では、バス会社Aとヘルスケアサービス業者Bとの契約により「学習データの利用権限」が決まってきます。
これを学習データのケースに置き換えると、教育委員会／学校と学校向け(学習／校務等)サービス事業者との契約によって決まる、となります。

契約で取り決めるべき観点としては「対象データの範囲」「利用目的」「加工等の可否と派生データに対する利用権限」「データ内容および継続的創出の保証／非保証」「第三者提供の制限」「収益および費用の分配」「管理方法・セキュリティ」「利用期間」「利用地域」「契約終了時のデータの取扱い」「準拠法・裁判管轄」の確認が必要、とされています。

どのデータまで取得するのか、どう利用するか、分析等をやって良いか、分析によって創出されたものはどう利用するか、データはちゃんと保証されるか、誰に渡されるのか、お金どうするか、どうやって管理するか、いつまで、どこの国・地域で、契約終わったらどうする、どの法律前提で、などなどです。
項目が多いよぉ…。

4つ目の結論。学習データの利用権限はサービス提供事者との契約によって決まる。

まとめ

「学習データは誰のものか？」に対するまとめは以下です。

・所有権等がない
・①著作権、②特許権、③営業秘密に係る権利、④限定提供データに係る権利、⑤個人情報の保護によって保護される
・①～⑤がない場合もあるし、あったとしてもデータ・オーナシップ＝利用権限が重要
・利用権限は当事者間の契約によって決まる
・利用権限はサービス提供事者との契約によって決まる

つまりは、個人または教育機関とサービス提供事業者との契約によって、主な争点である利用権限＝「学習データは誰のものか？」が決まります。

あるべき論として「学習データは学習者のものだ！」と言う意見があるのは分かります。私もその考えの立ち位置にいます。
ただ、当然ながら日本は法治国家で、法令により権利が決まるのが正しく、現時点で自分が分かっている限りでの事実や現在地は上記になります。

個人的な考え

私自身は「学習データは学習者のもの」という考えが腑に落ちますし、多くの人たちにとってもそうなのでは、と思っています。

そうであれば、当事者間の契約で学習データの利用権限が決まるのだとしても、市場全体として一定のルールや取り決めはあっても良いのではないでしょうか。
「学習データは学習者のもの」というのを前提でのルールや取り決めを行い、関係者相互で合意していくようなやり方が望ましいのでは、と考えています。

ただ、そのやり方は、もしかしたらデータの流通や価値を高める点では効率的ではないかもしれません。
データが流通し価値を高めていくという点では、GAFAを筆頭とした商業活動における自由度を高めていくケースで奏功しています。
また、中国を代表とする国家がデータを一元的に管理し、効率的に価値を見出すケースでも奏功しています。

私は「誰もが自分らしく学べる社会」という自分で設定したビジョンに縛られて行動しているつもりです。最近はビジョンのドレイ状態だと自覚しています...。

「誰もが」の観点では、前者の商業活動に力点が置かれすぎると経済力による機会での格差が生じやすくなります。それは自分のビジョンとは相違します。
「自分らしく」の観点では、後者の国家や組織が一元的に管理をする在り方は「自己実現＜国家や組織のため」となりかねないリスクがあります。それも嫌だな、と。

なので、自分なりのビジョンを実現していくには、少し遠回りかもしれませんが、学習者が自身に関わる学習データについて、ポータビリティや一定のコントローラビリティを持つ方法が適していると考えています。

「そういうのはお上＝国が決めてよ」という声も出そうですが、できることなら、当事者である私たち自身が関与し、開かれた議論を行い、相互で(渋々もあったうえで)納得した形で決めていきたいと考えています。
その一助になればと思い、この記事を書いた次第です。

自分語りをすると、デジタル庁に兼業していることも、「誰もが自分らしく学べる社会」というビジョンの実現＝私の自己実現のための手段で、この手のことはお上側が呼び出されることも多いので、その整理役(決める役割ではない)をやっていくことが、そのミッションの1つだと捉えています。
まなびポケットをやっているのも、結局は事業者との契約依存なので、影響力のある事業者の意思決定が、この手の話を決めるときにとても重要になってくるから、です。
なんせビジョンのドレイなので。

おおよその自分の考えについては以上です。
こんな長い文章なので最後まで読む奇特な方(失礼)は、是非「学習データは誰のものか？」について、この叩かれ台の文章も踏み台にしていただき、誰かと議論を深めていただけたらと。
よろしくお願いしますー。

蛇足：「学習データは誰のもの」議論の真の答え

冒頭書いた通り、ここからはネタ枠の蛇足です。
生温かい目を持つ人だけが読む部分です。読んでくだらないからと言って怒らないでください。
あと、有名な本ですが、その一編のネタバレもあるのでそこもご容赦を。

ここまであーだこーだ書いていますが、真の答え＝真理は別にあります。
最初の所有権の部分の以下が真理への伏線でした。

また、有体物でありながらものではない例外として、人間があります。人がもので所有権が発生したら、それこそドレイになってしまいます。

人間は有体物でありながら、所有権が発生しない＝ものではない＝ドレイにはならない。
一見正しいようですが、そもそも、この民法の考え方が間違っています。

確かに人間が人間を所有することはあってはならないことです。
一方で、私は前述の通りビジョンのドレイですし、ビジョンよりさらに大いなる存在のドレイでもあります。
その存在は何か。
※なんかQアノンとかの陰謀説を話す人みたいになってきました(苦笑)

答えは偉大なる作家、星新一の「きまぐれロボット」という書籍の「ネコ」という一編で示されています。

「いちいち驚くようでは、支配者の地位はたもてないわよ」
「これはこれは。あなたが、この星を支配なさっている種族でしたか。わたしはてっきり、そこに倒れている二本足の生物のほうが、支配者だろうと思い込んでいました。失礼いたしました。で、この二本足は……」
カード星人は、うす茶色の腕のさきを、気を失ったままでいるエス氏に向けた。ネコはあっさり答えた。
「自分たちのことを、人間とよんでいるわ。あたしたちの、ドレイの役をする生物よ。まじめによく働いてくれるわ」

そうです。民法やその他法令は、人間を万物の首長たる霊長類だと誤認し作られたものです。
そもそも人間はネコのドレイであり、私が文科省のICT活用教育アドバイザーをやっているのもネコのためですし、学習データが学習者のものだとしても、その学習者はそもそもネコのドレイなので、有体物だろうと無体物だろうと、万物はネコのものです。
前々回や前回に岩合さんのことを尊敬している書いたのも、主たるネコに最も近しい日本人ではないか、ということからです。

最後の結論＝真理。学習データはネコのもの。

おわりに...

最後は全てぶち壊しにするような、くだらない蛇足にしちゃいましたが、、まあ、これが書きたくて書き始めたので、仕方ありません。
GIGAスクールにおけるローカルブレイクアウトの記事の「ダイの大冒険」のくだりと同じアナロジーです。

「学習データが重要」という声がどんどん大きくなっているなかで、そのデータの権利について書いているものがほとんど見当たらなかったので、長文ですができるだけ分かりやすくなるよう書いてみました。

同じこと書いちゃいますが、この叩かれ台の文章も活用し、身近な誰か、必要な誰かと「学習データは誰のものか？」の議論を深めていただけたらと。

ではまた！