見出し画像

GitHub Copilotの集団訴訟について

 今月(2022年11月)3日、GitHubが提供するAIプログラミング支援ツールのGitHub Copilotがプログラム開発者の権利を侵害しているとして、集団訴訟が提起されました。
 訴えられたのは、GitHubとその親会社のMicrosoftと開発に協力したOpenAIの3社で、機械学習による公開データ利用について争う米国初の訴訟となります。
 今回は、GitHub Copilotのデータ利用やサービス提供について、どこが問題とされているのか今後の裁判での議論はどうなっていくのか、画像生成AIとの比較などについて解説します。


1.GitHub Copilotの概要

 GitHub Copilotは、ユーザーが途中まで入力したコードの続きを自動で補完してくれるAIを利用したプログラミング支援ツールです。
 ソフトウェア開発プラットフォームのGitHubがOpenAIと協力して開発し、今年(2022年)6月に一般公開されました。

 OpenAIは、巨大言語モデルのGPT-3や画像生成AIのDALL-E2の開発で有名な非営利のAI研究組織ですが、最近は、Microsoftの出資を受け入れて同社との結びつきを強めています。
 また、GitHubも2018年10月にMicrosoftに買収されており、GitHub Copilotが想定以上に大きな批判を受けるのは、次々と非営利のIT関連組織を支配下に置こうとする巨大企業のMicrosoftに対するハッカーたちの反発が根底にあるのではないかと思っています。

 GitHub Copilotは、昨年(2021年)6月の発表当初はテクニカルプレビュー版として無料提供されていましたが、現在は、月額10ドル又は年額100ドルの有料(学生などは無料)で提供されています。また、MicrosoftのコードエディターのVSCodeVisual StudioJetBrainsの製品などに対応しています。

 ユーザーが開発ツール上でコードを途中まで入力すると、そのコードの文脈やコーディング規約に沿ったコード候補をGitHub Copilotが提案します。
 また、ユーザーがコメントを入力した場合も同様に、コメントに合わせたコード候補を提案します。そして、提案を受け入れるかどうかは、ユーザーが選択できます。
 「Copilot」は副操縦士という意味であり、機長が副操縦士の操縦をチェックして指導するように、ユーザーはAIが書いたコード候補を受け入れるかどうかを判断し、必要があれば手直しするだけでプログラムを完成できます。

青色でマークされた部分がGitHub Copilotが提案したコード候補

 対応しているプログラミング言語は数十種類に及び、特にPython、JavaScriptなどでは、高い精度の推測結果が得られるようです。
 GitHubによると、コードファイルの内容のうち平均27%以上がGitHub Copilotによって生成されており、Pythonなどでは約40%に達していたそうです。

 GitHub Copilotは、OpenAIが開発した自動コード生成システムのOpenAI Codexを利用しています。
 OpenAI Codexは、実行したい命令を普通の文章で入力すれば、対応するコードを自動生成してくれる120億のパラメーターを持ったAIシステムで、事前学習済みのGPT-3をベースとして、GitHubの公開リポジトリー(ファイル等の保存場所)から集めた数十億行の公開コードなどで学習しています。
 以下のサイトで、GitHub Copilotの実際の動作の例を見ることができます。


2.集団訴訟の概要と原告の主張

 今年11月3日、GitHub Copilotがプログラム開発者の権利を侵害しているとして、GitHub、Microsoft、OpenAIの3社を訴える集団訴訟が提起されました。
 訴えたのは、ニューヨーク在住のソフトウェア開発者で弁護士のマシュー・バタリック氏とジョセフ・サヴェリ法律事務所で、訴状によると、3社はGitHubの公開リポジトリーのプログラムコードでGitHub CopilotのAIシステムを学習させ、プログラムを掲載した開発者の権利を侵害したと主張しています。

 GitHubの公開リポジトリーに掲載されたプログラムの多くは、MIT License、GPL、LGPL、Apache Licenseなどのオープンソースライセンスで提供されており、誰でも利用可能ですが、これらのプログラムを利用するには、それぞれのライセンスに従って作者名やライセンス表示を明示する義務があります。
 ところが、GitHub Copilotの出力するコードには、これらの情報が表示されていないことから、ライセンス違反だというのです。

 原告のバタリック氏らは、「被告であるGitHubらは、帰属表示(作者名)や著作権表示、ライセンス条項をコードから削除した。これにより、被告は元となったコードを匿名化して、あたかもCopilotによって作成されたかのようにしてユーザーに配布している。」と非難しています。

 バタリック氏らは、これらの行為がGitHubの利用規約とプライバシーポリシー、著作権管理情報の削除を禁じているデジタルミレニアム著作権法第1202条カリフォルニア州消費者プライバシー法などを始めとするさまざまな規約や法律に違反していると主張して、GitHub Copilot提供の差し止めと損害賠償を請求しました。
 また、損害額は90億ドルを超えると試算しています。


3.GitHub Copilotのデータ利用やサービス提供に関する論点

 今回の問題については、大きな論点が2つあります。
 一つは、著作権とフェアユースに関する問題、もう一つは、オープンソースライセンスの表示に関する問題です。

(1) 著作権とフェアユース

 GitHub Copilotについては、昨年6月にテクニカルプレビュー版が発表された当時から、コード候補として、AIが学習で利用したコードがそのまま複製のような形で表示されることがあると報じられ、著作権違反ではないかという議論が起きました。
 これに対し、GitHubの当時のCEOは、GitHub Copilotのデータ利用にはフェアユースの法理が適用されるという見解を示しました。

 フェアユースとは、米国の著作権法などが認めている著作権侵害の主張に対する抗弁事由の一つで、フェアユースが認められれば、著作権者の許可なく著作物を利用しても、その利用行為は著作権侵害に当たらないことになっています。

 著作権で保護されたコンテンツを批評、解説、ニュース報道、教育、研究、調査などの目的で利用する場合のフェアユースが認められており、具体的には、以下の4つの基準を基にフェアユースに該当するかどうかが判断されます。
① 利用の目的と性格
 非営利の教育目的などの場合は、フェアユースが成立しやすくなります。
② 著作権のある著作物の性質
 著作物が事実を伝えるものである場合は、フェアユースが成立しやすくなります。
③ 著作物全体との関係における利用された部分の量及び重要性
 著作物の一部しか利用せず、利用部分が重要でない場合は、フェアユースが成立しやすくなります。
④ 著作物の潜在的利用又は価値に対する利用の及ぼす影響
 複製物の使用が著作権者に経済的な不利益を与える場合は、フェアユースが成立しないことが多くなります。実際の裁判では、この市場への影響が最も重視されると言われています。

 裁判でフェアユースが認められた例としては、図書館の蔵書をスキャン・電子化して登録するGoogle Booksプロジェクトの例があります。
 2005年に、このプロジェクトが著作権侵害に当たるとして、作家たちが集団訴訟を起こしましたが、2015年10月に連邦控訴裁がフェアユースを認め、Google側勝訴で確定しています。

 GitHub Copilotが学習で利用したGitHub公開リポジトリ-のプログラムコードは、そのほとんどが商用利用も可能なオープンソースライセンスを採用していますが、著作権自体を放棄したものではないため、著作権侵害に当たるかどうか、フェアユースが認められるかどうかが問題となります。

 現在、AIによる機械学習では、学習用データの多くがWebの公開情報から必要なデータをスクレイピング(自動的に抽出)することによって収集されています。
 AI業界では一般的に、こうした機械学習のための公開データの利用はフェアユースに該当すると考えられていますが、確定した判例などはなく、もし、これが裁判で否定されると、今後のAIの利用に大きな影響を与えることになります。

 一方、ソフトウェアの知的財産権を専門にするケイト・ダウニング弁護士は、GitHubのユーザーが利用規約でサービス改善などのためにコンテンツを使用する権利をGitHubに与えていること、GitHub Copilotが元のコードをそのまま同じ形で生成する確率は1%程度と極めて少ないこと、数行程度のコードでは著作権保護の対象にならないことなどから、今回の事例が著作権侵害に当たる可能性は少ないと見ています。

 また、GitHub Copilotが利用した公開プログラムが著作権保護の対象だとしても、フェアユースかどうかの判断において市場への影響が最も重視されるのであれば、元から他人に無料で提供することを想定していたオープンソースライセンスのプログラムを利用しても、開発者に経済的な不利益を与える可能性は小さく、フェアユースが認められる可能性が高いように見えます。

 ダウニング弁護士によれば、今回の集団訴訟で、原告側は著作権侵害を直接主張していないそうです。
 これは、GitHubにプログラムを公開している開発者のほとんどが正式に著作権登録をしておらず、著作権侵害の申し立てをすると、集団訴訟の参加者が大幅に減ってしまうのと、機械学習での利用はフェアユースに当たるという判例が確定してしまうのを恐れたからだろうと同弁護士は考えています。

(2) オープンソースライセンスの表示

 GitHubの公開リポジトリーに掲載されたプログラムの多くは、MIT License、GPL、LGPL、Apache Licenseなどのオープンソースライセンスで提供されており、これらのプログラムを利用するには、それぞれのライセンスに従って作者名やライセンス表示を明示する義務があります。

 バタリック氏らは、GitHub Copilotの出力するコード提案がこれらの情報を明示していないことを問題視しています。
 プログラムの開発者は、オープンソースライセンスの義務に従うことを条件にライセンス使用を認めているものであり、これらの情報を表示せずに使用することは、ライセンス違反になるというのです。

 さらに、バタリック氏は、「開発者はライセンスを信じてコードを公開しているのに、企業が尊重しないのならライセンスの意味が無くなる。ライセンス表記なしでコードを利用させると、オープンソース運動そのものを殺してしまう。」と非難しています。

 そもそもオープンソースライセンスは、プログラムの開発者が自分が書いたプログラムを無料で利用させる代わりに、作者名表示という名誉が与えられ、多くの人が利用すれば、その名前が広く知れ渡るということで開発者を納得させて成立している部分があります。
 また、GPLのようなコピーレフト型のオープンソースライセンスの場合は、オープンソースのプログラムを利用したソフトウェアにオープンソースで配布することを義務付けることによって、オープンソース運動を広げています。
 バタリック氏らは、作者名やライセンス表示なしでコードが利用されると、誰が開発したプログラムでどういう義務があるのかをユーザーが認識せずにプログラムを利用することになり、こうしたオープンソースライセンスの趣旨が無視されてしまうとして、オープンソース運動自体の破壊につながると批判しています。

 一方、前述のダウニング弁護士は、利用しているのがプログラムの一部でしかないなど著作権による保護対象とならない場合は、ライセンス表示などの義務も適用されないと考えています。
 また、オープンソースライセンスとして利用が認められなくても、フェアユースが認められるのであれば、著作権侵害には当たらないと考えることもできるでしょう。

 さらに、ダウニング弁護士は、GitHub Copilotが元のコードをそのまま出力する確率は1%程度で、大半がライセンス表示などが必要な場合に当たらないため、今回の集団訴訟の主張はあまり重要なものではなく、権利を濫用して大企業に巨額の賠償金や和解金を要求するパテント・トロールのようだと厳しく批判しています。

 なお、著作権の問題を別にしても、AIによるオープンソースプログラムの利用がこれほど問題になるのは、将来的に仕事を奪われてしまうのではないかというプログラマーの恐怖が背景にあるのではないかと思っています。
 GitHub Copilot自体は、まだまだプログラマーの仕事に取って代わるような能力はありませんが、AIの成長スピードは想像を超えて速く、やがて人間の能力に追い付くのではないかと恐れる人も多いのでしょう。


4.まとめ

(1) 今後の裁判での議論について

 原告は、著作権侵害について直接争うのを避けようとしているようですが、著作権侵害の有無はオープンソースライセンスの利用とも関係しており、裁判での議論を完全に避けることは難しいでしょう。

 GitHub Copilotが個別のコード提案にプログラムの一部しか使っておらず、元のコードと全く同じコードが出力される確率が低いというのが事実であれば、著作権侵害が成立する場合は少ないと考えられます。
 その上で、機械学習のための公開データの利用については、フェアユースが認められる可能性が高く、最終的に著作権侵害が成立する可能性は低いと考えられます。

 また、作者名やライセンス表示が明示されないと、オープンライセンスの趣旨が損なわれるという主張は理解できます。
 しかし、そもそも著作権侵害が成立しないのであれば、オープンソースライセンスの義務も適用されないだろうというダウニング弁護士の主張は正当だと思います。
 米国での裁判が今後どのように進んでいくのか分からないところはありますが、GitHub Copilot提供の差し止めや多額の損害賠償に繋がる可能性は低いのではないでしょうか。

(2) 日本の場合

 日本の著作権法は、米国の著作権法とは異なり、フェアユースのような包括的な例外指定はありません。
 その代わりに、著作権法第30条の4第2号で、著作物を情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うこと)に利用する場合を明示的に著作権侵害の例外事項として規定しています。

(著作物に表現された思想又は感情の享受を目的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 (略)
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 (略)

著作権法(昭和四十五年法律第四十八号)

 この規定は、平成30年に、それまで著作権法上の扱いが不透明であったWeb上の公開データを機械学習で利用できるようにするために導入されたものです。
 また、日本の規定は、英国の著作権法などが非商業的利用のみを認めているのに対し、商業的利用の場合も含めて利用を認めており、世界的に見ても、非常にAI側に有利な規定となっています。
 したがって、日本で同じような訴訟が提起されても、著作権侵害に当たらないとされる可能性が高いと言えます。

(3) 画像生成AIでの公開データ利用との比較

 最近、日本でも、画像生成AIによるWeb上で公開されたイラストなどの画像データの利用について議論になっています。
 GitHub Copilotの場合と比較すると、画像生成AIの利用する画像は、オープンソースライセンスのように他人の利用を一般的に認めたものではないというところが違います。
 しかし、日本においては、著作権法第30条の4第2号の規定があるため、画像生成AIによるWeb上の公開画像データの利用が著作権侵害に当たる可能性は少ないです。
 また、AIと著作権の問題について詳しいSTORIA法律事務所の柿沼太一弁護士によると、自作イラストのAI学習での利用禁止を制作者が一方的に表明しても、契約が成立したことにはならず、禁止することはできないということです。

 ただし、あらゆる場合に著作権侵害が発生しないというものではなく、画像生成AIで特定の著作権のある画像を意図的に作成して商売を行い、著作権者に経済的な不利益を与えるような場合は著作権侵害が認められる場合もあるでしょう。
 例えば、ディズニーのミッキーマウスやジブリのナウシカのような有名なキャラクターの画像を集めてAIに学習させ、本物と見分けのつかないような画像を沢山生成して、キャラクターグッズとして売り出すような場合です。

 また、現状では、クリエーターの画像生成AIに対する拒否感は非常に強いものがあります。
 しかし、レンタルビデオや音楽配信なども、最初は著作権侵害が疑われるようなものから始まって、最終的に大きなビジネスに成長するとともに権利者への収益配分の合意ができたと記憶しています。
 それを考えると、最初の段階からAIサービスを攻撃して潰そうとするのではなく、大きく成長させて収益が出るようになってから、権利者への収益配分の仕組みを作るようなことはできないのだろうかと思っています。

(参考)柿沼太一弁護士の解説

〇Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権
〇Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権(その2)

この記事が気に入ったらサポートをしてみませんか?