「ChatGPTは入力データから学んでいる？」のかどうか、調べてみました！

2023年2月12日 13:28

先日のnoteの下記イベントの最後の辺りで、

「ChatGPTは入力データから学んでいる？」

のかどうかというような内容の質問があったんですが、それに対する回答は、

「ユーザー規約をしっかり読むのがいいと思います」

ということだったので、確認してみました。

質問された方は、「ユーザー規約読みます」とコメントされていたようですが、ChatGPTを試してみたいという他の方々も、気になるところだと思うので。

というか、ChatGPTの使い方や使いこなし術を解説するイベントで、まっ、まさかの、、、「ちゃんと契約書を読んでない」発言。。。
そういうのが気になる昭和世代のプログラマー＆開発者＆ライターのいっぴき羊、びっ、びっくりしました！

気になる方は、下記、その質問の部分をご覧下さいませ。

実は、このnoteイベントの動画を視聴した後に、最初にしたことが、「ChatGPTは入力データから学んでいる？」のかどうかの確認でした。

そのことについて、すぐに記事を書こうかと思ったんですが、、、ユーザー規約等は確認することなく、noteさんの社内では、どんどん「仕事や創作に活用した事例」で盛り上がっていらっしゃるのかなぁ～ってことに恐れをなして、、、ChatGPTに関する海外ニュースのまとめその１、その２とか書いて、道草してました。。。
※ちなみに、ChatGPTを使用する為にSign Upする際、規約へのリンク等はなかったので、新しいツールが登場した時に、使う前に、規約やツール提供者、そしてツールそのものに関して、確認したり調べたりはしないというのが、当たり前になりつつあるのかも知れません。それって、当たり前になっちゃいけないような気がするけど。。。

では、本題に戻って、、、。

答えは、OpenAIの、下記、FAQのページで見つけることが出来ました。
(3月18日追記：FAQのページがアップデートされていますが、6番に関してはそのままのようです。)

直接の答えは、6番目にあります。

ChatGPT General FAQ

6. Will you use my conversations for training?
Yes. Your conversations may be reviewed by our AI trainers to improve our systems.

https://help.openai.com/en/articles/6783457-chatgpt-general-faq

ChatGPTとの会話は、AIトレーナによってレビューされ、システム改善に使われるとあります。

イベントでの質問者さんは、入力したデータが、即、そのままChatGPTが学ぶ為のデータとして使われているのかどうかを聞きたかったのかも知れませんが、ChatGPT(Generative Pre-trained Transformer)は、Pre-trainedなので、入力データがその都度policyに影響を与えることはないのではないかと思います。

後でご紹介するOpenAIのChatGPTに関するブログ記事のMethods(メソッド)のところに、分かりやすい図がありますが、三つのステップの最後の「Step3」を見ると、出力内容に対するRewardsを使ったReinforcement Learning(強化学習)によって、policyが改善を繰り返していくことが分かります。動画内で徳力さんがおっしゃっていたように、出力内容に対して、ユーザー行うThumbs Up Button(いいねボタン)とThumbs Down Button(悪いねボタン)の評価が、適用されているのではないかと思います。
FAQの4番でも、間違った内容の出力があった場合には、"Thumbs Down" Buttonによるフィードバックを返して欲しいという記述がありました。

FAQには、これ以外にも、誰がChatGPTとの会話を閲覧することが出来るのか(5番)や、入力データを削除する方法(7番…アカウント自体を削除する必要あり)等など、ChatGPTを利用する前に知っておくと良さそうな14の質問とそれに対する答えが記載されています。

14番の商用利用に関する質問では、「you own the output」ということで、ChatGPTを使用して出力された内容に対する「the right to reprint, sell, and merchandise」は、使用したユーザーにあるとしていることも、興味深かったです。（※Content PolicyやTermsに従う必要あり。詳細はリンク先で確認要。）

3月18日追記：2023年3月14日に更新されているTerms of useのページにリンクが含まれている、ChatGPTの利用に関するUsage policiesやソーシャルメディア等での共有に関するSharing & publication policyで、より詳しい規定が定められています。一読されることをおすすめします！

でも、この出力された内容のベースは、元々、インターネット上から集めてきたデータなんですよね。。。
ということは、世界中の情報発信者が書いた文章を、勝手に使ってるっていう気も…。いっぴき羊が、むか～し昔、メールマガジンで書いていた内容の一部も、ChatGPTが出力する内容のどこかに使われていたりして…。

University of SydneyのUri Gal教授が書いた下記の記事にも、そういった懸念が書かれています。
ChatGPTだけでなく、GoogleのBardや、今後も続々と登場するであろうAIの基盤となっているのは、いっぴき羊やこの記事を読んで下さっている読者の皆さんも含めた世界中のインターネットユーザーのパーソナルデータだと。

ChatGPTに使われている3000億語(※文字じゃなくて単語数)のデータの内、ブログを書いていたこともあるいっぴき羊のことばは、いったい、どのくらい含まれているのか、、、。
各自から使用許可を取らないまま集めたデータをベースにした出力を、著作権フリーで提供する。。。確かに、なにか腑に落ちない気が…。
多くのユーザーが便利に使い始めてしまうと、こういった問題は、うやむやになってしまうのかも知れませんが…。

記事の中にリンクがあったOpenAIのPrivacy Policyも読んでみました。
収集しているというパーソナルインフォメーション(1. PERSONAL INFORMATION WE COLLECT)の種類の多さにびっくり。
ChatGPTに入力するデータのみに気を付けても、あまり意味がないと思えるほど、いろいろ集められているんですね。。。
そして、そうやって集めたデータをどう使って(2. HOW WE USE PERSONAL INFORMATION)、どう共有するのか(3. SHARING AND DISCLOSURE OF PERSONAL INFORMATION)も、知っておいた方がいいのか、知らないままの方が幸せなのか、、、。
AIが普及すればするほど、プライバシーなんて概念は、私たちの中から消えて無くなってしまうのかもとさえ思えてきます。

ChatGPTが出力する内容のリスクに関しては、OpenAIでも、いろいろな対策が取られていたり、改善が進んでいるようです。
下記の、ChatGPTに関するブログ記事が、とても興味深かったです。
メソッドに関する図や、会話を改善させていったサンプル等、ChatGPTをより深く理解するために、参考になる記事だと思います。

「ChatGPTは入力データから学んでいる？」のかどうかを確認してみたという記事を書くつもりが、話があちらこちらへ広がって、すっかり長くなってしまいました。

いっぴき羊がデータサイエンスを学んだ2017年頃は、ちょっとしたトレーニングモデルを試す時でさえ、クラウド上のAzureを使っても、そこそこ時間が掛かったものです。
当時から比べると、サーバーのスペックその他、格段と進化していると思うので、何十倍、何百倍、何千倍、何万倍、、、とデータ処理能力が進化していくにつれ、今後、AIがどのような形で使われていくのかが、とっても気になる今日この頃です。

時代の流れとは言え、、、信頼できる会社が企画したイベントで、ChatGPTの使い方を説明する側でさえ、ChatGPTのユーザー規約や注意事項等を読んでいない場合、、、そのイベントに参加したり、活用事例に応募してみませんか？という呼びかけに、ちょっと使ってみようとする人たちが、ユーザー規約や注意事項等を読んでいる確率は、かなり低いと思います。
大人でさえこういう状態の時、それを見ている子供たちが、ユーザー規約や注意事項等を読む確率は、限りなくゼロに近くなるかも知れません。

簡単だから、便利だから、問題なく使えているから、、、と、ソーシャルメディアが普及して、バックエンドの問題に目を瞑らざるをえなくなってしまっている状況と同じことが、ChatGPT等のAIには起きないことを、祈るばかりです。。。

最後まで読んで頂きありがとうございます！もし、缶ジュースやお茶やお酒の1杯くらい、奢ってやってもいいかなぁと思える内容でしたら、投げ銭的にサポートして頂けたら嬉しいです。あなたからいただいた貴重なサポートは、次の記事を書く為の原動力として、大切に活用させていただきます。いっぴき羊