AIが学習するデータがもう足りない？そのスピードは予想をはるかに上回っていた。

2024年7月24日 22:24

今朝のポッドキャストを聞いていて耳を疑いました。AIの学習スピードって恐ろしい…

聞いていたのはこちら。読むと長いけど、31分で割と聞きやすい英語なので通勤途中におすすめです。

なんとなんと、インターネット上の信頼できる英語テキストの供給源を使い果たしたというのです。世界中の英語のコンテンツというと、膨大な量になります。OpenAIの研究者チームは「Whisper」という音声認識ツールを作成し、YouTubeビデオの音声を文字起こしすることで、新しい会話テキストを得ることに成功しています。なんと100万時間以上のYouTubeビデオを文字起こししました。これにより得られたテキストは、世界で最も強力なAIモデルの一つとされるGPT-4に使用されたとのこと。確かにGPT-4になってからのやり取りの自然さを感じますよね。

Facebookやインスタを抱えるMetaも同じく膨大なデータを吸い上げていますが、なんと去年、その限界に達しています。

Ahmad Al-Dahle, Meta’s vice president of generative A.I., told executives that his team had used almost every available English-language book, essay, poem and news article on the internet to develop a model, according to recordings of internal meetings, which were shared by an employee.

その学習データは３兆語。1600年代からの著書があるイギリス屈指の図書館Oxford University’s Bodleian Libraryのデータ量をすでに超えているのです。

最近では合成データのようなものも開発しています。人間が作成したものではなく、AIモデルが生成するテキストや画像です。もはや人智を超えていると感じます。

一方で、AIの学習データの収集を規制する動きも出始めています。多くの出版者は、データがAIトレーニングに使用されることに懸念を抱いており、使用料を求めるケースも増えています。N YタイムズもOpenAIとMicrosoftを著作権侵害で訴えました。

反発が増す中、いくつかの出版者はペイウォールを設置したり、サービス規約を変更してデータの使用を制限したり、企業の自動ウェブクローラーをブロックしています。RedditやStackOverflowなどのサイトは、AI企業にデータへのアクセスを有料で提供し始め他とのこと。

これで困るのは大企業ではなく、小規模なAI企業です。また、学術研究者にとっては、公共のデータセットに依存するため、データのライセンス取得が困難になる恐れがあります。記事によると、Common Crawlのようなデータセットは何千もの学術研究で引用されていますが、その使用が制限される可能性があります。

最後の１行が刺さりますね。食べ放題で金を払わない客をどうするか。

But there’s also a lesson here for big A.I. companies, who have treated the internet as an all-you-can-eat data buffet for years, without giving the owners of that data much of value in return.　Eventually, if you take advantage of the web, the web will start shutting its doors.

そりゃそうだ。でももう、データ自体が枯渇している昨今、次はAIがAIから学ぶようになって行くのかな。

いただいたサポートで参加者がハッピーになる仕掛けを増やします^^