生成AIのAPI利用で再学習はされないのか?

前提

今回APIを対象として整理をしました。そのためGUIで使うサービスは含みません。
たとえばChatGPTのブラウザ版は有料版でも学習させないためにはオプトアウト設定が必要ですし、無料版のcopilotなども学習される場合がありそうです。

はじめに

先日、オープンチャットで興味深い質問がありました。「生成AIのAPIを使へば、本当にLLMの再学習に利用されないのか?」というものです。この疑問は、多くの人が抱いているものの、明確な答えを見つけるのが難しい話題です。そこで、この機会に少し整理してみようと思いました。

詳しく整理されているこちらのサイトも参考にさせていだだきました。


はじめに結論

  • 生成AIのAPIを利用する場合、通常は入力データが再学習に利用されないことが多い。

  • OpenAI、Google GeminiのAPIでは、入力されたデータは学習に利用されないと明言されている。

  • APIを通じて入力されたデータは、監視目的で一時的に保存されることがあるが、学習には使用されない。

  • MicrosoftのAzure OpenAI Serviceも、顧客データは再トレーニングに使用されないと明記。申請により不正使用監視機能をオフにし、データを保存しない設定にすることも可能。

  • AWSもユーザーの同意なしにデータを使用しないことがうたわれ、オプトアウト機能によりデータの再学習を防げるとしている。

  • 一部、モデルの開発を目的としたリリース前サービスなど、学習することが明記されている場合もあるので、理解して使う必要がある(前述の記事参照)

  • 総じて生成AIサービスごとに異なる利用規約を確認することが重要で、特にデータの取り扱いに関する条項を確認する必要がある。

生成AIプロバイダーごとのポリシー

生成AIをAPIで使用する際に、データが再学習に利用されるかどうかは、提供者のポリシーによって異なります。以下に主要な生成AI APIプロバイダーのポリシーをまとめます。

OpenAI

OpenAIのAPIでは、ユーザーがオプトインしない限り、送信されたデータはモデルのトレーニングや改善に使用されません。ただし、「不正使用や誤用の監視を目的として、データは最大30日間保持されることがあります。」

https://openai.com/enterprise-privacy/

要約:
OpenAIの企業向けプライバシーポリシーにおいて、再学習に関する重要な点は以下のとおりです:

## データの所有権と制御

OpenAIは、企業顧客のビジネスデータを用いて再学習を行わないことを明確に表明しています[1]。具体的には:

- ChatGPT TeamやChatGPT Enterprise、APIプラットフォームから得られたデータは、モデルの再学習に使用されません[1]。

- 入力データと出力データの所有権は、法律で認められる範囲内で顧客に帰属します[1]。

- ChatGPT Enterpriseの場合、データの保持期間を顧客が管理できます[1]。

これらの方針は、企業顧客のデータプライバシーとセキュリティを重視するOpenAIの姿勢を示しています。顧客のビジネスデータを保護し、不適切な利用を防ぐことで、信頼性の高いサービス提供を目指していることがわかります[1]。

Citations:
[1] https://openai.com/enterprise-privacy/

https://openai.com/enterprise-privacy/

Google

Googleのサービス(例:Gemini, VertexAI)では、「Geminiモデルへの入力と出力が最長24時間キャッシュに保存されるが再学習には使用されない」といった記述などから総じて再学習に利用されない様子。

要約:
指定されたドキュメントの「プライバシーに関する質問」セクションを確認したところ、APIの再学習に関して以下の重要な点が要約できます:

## データの使用と保護

- Googleは、Gemini APIを通じて送信されたプロンプトやその他のデータを、AIモデルの改善や再トレーニングに使用しません[1]。

- お客様のデータは、サービスの提供、保守、改善のためにのみ使用されます[1]。

## データの所有権

- APIを通じて送信されたプロンプトやその他のデータの所有権は、お客様に帰属します[1]。

## プライバシー保護の取り組み

- Googleは、お客様のデータを保護し、プライバシーを尊重することを明確に表明しています[1]。

- データの使用は、Googleの利用規約とプライバシー ポリシーに従って行われます[1]。

このポリシーは、Gemini APIを使用する開発者やユーザーのデータプライバシーを保護し、APIを通じて送信されたデータが再学習に使用されないことを保証しています。これにより、ユーザーは自身のデータの取り扱いについて安心してサービスを利用できるようになっています。

Citations:
[1] https://support.google.com/gemini/answer/13594961?sjid=9493507391341543235-AP

https://www.perplexity.ai

要約:
このドキュメントにおけるAPIの再学習に関する重要な点は以下のとおりです。

## 基盤モデルのトレーニング

- Google Cloudは、デフォルトで顧客データを基盤モデルのトレーニングに使用しません[1]。
- お客様のプロンプト、レスポンス、およびアダプタモデルのトレーニングデータは、基盤モデルのトレーニングに使用されません[1]。

## アダプタモデルのトレーニング

- アダプタモデルのトレーニングデータは顧客データとして扱われ、保存されません[1]。
- Google Cloudの基盤モデルの改善に顧客データは使用されません[1]。
- アダプタモデルは、それをトレーニングしたお客様のみが使用できます[1]。

## 予測(推論)

- 予測中に処理される入力と出力は顧客データとして扱われます[1]。
- お客様が明示的に許可していない限り、顧客データは保存されません[1]。
- 顧客データは基盤モデルのトレーニングのためにログに記録されることはありません[1]。

## キャッシュ

- デフォルトでは、Geminiモデルへの入力と出力が最長24時間キャッシュに保存されますが、これは迅速なレスポンスのためであり、再学習には使用されません[1]。
- キャッシュは無効にすることが可能です[1]。

これらの方針は、Google CloudのVertex AIにおいて、APIを通じて送信されたデータが再学習に使用されないことを明確に示しています。

Citations:
[1] https://cloud.google.com/vertex-ai/generative-ai/docs/data-governance?hl=ja

https://www.perplexity.ai

Microsoft Azure OpenAI Service

MicrosoftのAzure OpenAI Serviceでは、顧客データはモデルの再トレーニングには使用されません。ユーザーが申請した場合、不正使用監視機能をオフにし、データを保存しない設定にすることも可能です。

要約:
Microsoft Azure OpenAI Serviceのデータ再学習に関するポリシーについて、以下の重要な情報が見つかりました:

1. Microsoft公式ドキュメント「Data, privacy, and security for Azure OpenAI Service」[2]によると、以下のことが明確に述べられています:

- お客様のプロンプト(入力)、生成された内容(出力)、埋め込み、トレーニングデータは:
- 他の顧客に利用可能ではありません。
- OpenAIに利用可能ではありません。
- OpenAIモデルの改善に使用されません。
- Microsoftや第三者の製品やサービスの改善に使用されません。
- Azure OpenAIモデルの自動改善に使用されません(明示的にファインチューニングしない限り)。

2. Azure OpenAI ServiceのFAQ[1]でも、同様の内容が確認できます:

"Azure OpenAIは顧客データをモデルの再トレーニングに使用しません。"

3. さらに、Microsoft は Azure OpenAI Service を完全に管理しており、OpenAI(ChatGPTやOpenAI APIなど)が運営するサービスとは一切相互作用しないことが明記されています[2]。

4. データの保持期間については、不正使用の検出と軽減のために、すべてのプロンプトと生成されたコンテンツを最大30日間安全に保存することが記載されています[3]。

5. ただし、追加の「Limited Access」資格基準を満たし、特定の使用事例を証明できる顧客は、コンテンツ管理機能を変更して、ゼロデータ保持を適用できる可能性があります[3]。

これらの情報から、Microsoft Azure OpenAI Serviceは顧客データのプライバシーを非常に重視しており、データの再学習や他の目的での使用を行わないことを明確に示していることがわかります。

Citations:
[1] https://learn.microsoft.com/ja-jp/azure/ai-services/openai/faq
[2] https://learn.microsoft.com/en-us/legal/cognitive-services/openai/data-privacy
[3] https://brightinventions.pl/blog/azure-openai-service-privacy-policies-explained/

https://www.perplexity.ai

AWS

ユーザーの同意なしにデータを使用しないことがうたわれ、オプトアウト機能によりデータの再学習を防げるとしている。

要約:
AWSの生成AIサービスにおけるユーザーデータの再学習に関するポリシーの主要ポイントは以下の通りです:

1. データの所有権と使用:
- AWSは顧客データの所有権を尊重し、顧客の同意なしにデータを使用しません。
- Amazon BedrockやSageMaker JumpStartなどのサービスでは、顧客のプロンプト、レスポンス、およびアダプタモデルのトレーニングデータを基盤モデルのトレーニングに使用しません。

2. データの保護:
- 顧客データはAWSアカウント内でプライベートに保たれ、サードパーティのモデルプロバイダと共有されることはありません。

3. オプトアウトオプション:
- AWSは、顧客がデータを他の目的(再学習など)に使用されることをオプトアウトできるオプションを提供しています。

4. 透明性:
- AWSは、データの使用方法や保護方法について透明性を保ち、顧客に明確な情報を提供することを重視しています。

5. コンプライアンスとガバナンス:
- 顧客データは既存のデータガバナンスとデータ処理ポリシーの範囲内で扱われるべきであると強調しています。

6. 人間による監視:
- 高リスクのAIワークロードでは、人間による監視や介入の重要性を強調しています。

7. セキュリティとプライバシー:
- AWSは顧客データのセキュリティとプライバシーを最優先事項としており、適切な保護措置を講じています。

これらのポイントから、AWSは顧客データの再学習を行わないことを明確に示し、顧客のデータプライバシーとセキュリティを重視していることがわかります。

Citations:
[1] https://aws.amazon.com/jp/blogs/news/securing-generative-ai-data-compliance-and-privacy-considerations/

https://www.perplexity.ai

AWSの AI サービスのオプトアウトポリシーに関して、ユーザーデータの再学習の観点から重要なポイントは以下の通りです:

1. オプトアウト機能:
- AWSは、AIサービスによるコンテンツの使用や保存をオプトアウトできる機能を提供しています。これにより、ユーザーデータの再学習を防ぐことができます。

2. 組織全体への適用:
- 組織ルートにAIサービスのオプトアウトポリシーをアタッチすることで、組織内のすべてのアカウントに対してオプトアウトを適用できます。

3. 柔軟な設定:
- 組織単位(OU)や個別のアカウントレベルでもポリシーを設定できるため、特定のサービスや特定のアカウントに対して異なる再学習ポリシーを適用することが可能です。

4. ポリシーの集約:
- 複数のレベル(組織ルート、OU、個別アカウント)で設定されたポリシーは集約され、最終的な有効なポリシーとなります。

5. 透明性:
- 有効なAIサービスのオプトアウトポリシーを表示する機能があり、どのサービスがオプトアウトされているかを確認できます。

6. アクセス制御:
- ポリシーの表示には特定の権限(`organizations:DescribeEffectivePolicy`)が必要であり、データ使用の管理が適切に制御されています。

このポリシー機能により、AWSユーザーは自身のデータがAIサービスによって再学習に使用されることを防ぐための詳細な制御が可能となっています。組織全体から個別アカウントまで、様々なレベルでのカスタマイズが可能であり、ユーザーのプライバシーとデータ保護のニーズに対応しています。

Citations:
[1] https://docs.aws.amazon.com/ja_jp/organizations/latest/userguide/orgs_manage_policies_ai-opt-out_effective.html

https://www.perplexity.ai

まとめ

これらの情報から、APIを通じて生成AIを利用する場合でも、再学習にデータが利用されないケースがほとんどのようです。ただし、具体的な設定やポリシーはサービス提供者によって異なるため、詳細な確認が必要です。

おまけ

法律家の視点から、リスクをガイドラインとしてまとめてくれているこちらのサイトも参考になると思います。


いいなと思ったら応援しよう!