見出し画像

おいおい、AGIがもう直ぐできますって言ってるけど、闇雲にスパゲッティコード投げつけてるだけじゃないの?

というご意見が、AGI HouseでのSora技術者の講演のポストに対してリポストされていたのでちょっと解説しようと思います。問題のポストはこちら。

これは、Sora開発者による今後のAGIの開発についての講演内容に物申した形です。詳しい動画の解説は下記のNoteをご覧ください。

当初、OpenAIは「テキストは普遍的なインターフェースであり、それがスーパーインテリジェンスにつながる」という考えを持っていたことから「おっと、待って、そうではないかもしれないけど、ビデオだ!」と変わったことについて、少し疑念を抱いています。彼は、「AGI開発とはただスケーリングの壁に対してスパゲッティを投げているだけかもしれない」という懐疑的な見方を示しています。

これが何を意味しているかというと、闇雲にやぶれかぶれでパッチを当ててる状態を言っていると思います。

モデルにはありとあらゆるデータを学習させてきたOpenAI

ところが、実はOpenAIのジェネレイティブAIは文字データだけでなく映像データまで学習してきた事がわかります。以下の記事に詳しく述べられていますので解説していきます。

2021年にネット上の文字データは学習し尽くしていた

2021年、OpenAIは壁にぶつかりました。AIを訓練するためのインターネットからの有用な英語テキストをほとんど使い尽くしてしまい、彼らにはもっとデータが必要でした。そこで、WhisperというYouTubeビデオオーディオをテキストに変換するツールを考案しました。

なんとWhisperはChatGPTの学習のために作られたAIだった

YouTubeのコンテンツをこのように使用することは規則違反になる懸念点がありましたが、それにも関わらず、OpenAIはWhisperを使用してYouTubeビデオを100万時間以上書き起こしました。

Youtube動画のダウンロードに関しては下記のNoteで詳しく解説しているように禁止されています。文字起こしをする事に対しては明確に禁止事項は述べられていません。しかしながら、SoraだけでなくGPTの機械学習にまでYoutubeのデータが使われていた事になります。

GoogleやMetaなどのテック巨人も、自社のAIを改善するためにデータを求めています。その積極的な戦略は、企業がAIシステムに給餌するためにどこまで行くかを示しており、時には規則を伸ばしたり無視したりしています。

実際に使えるデータが見つかりにくくなるにつれて、AIが生み出したデータでさえ新しいモデルの学習データに使っている状態です。それくらいモデルをスケールするには学習データが必要です。

データハンガーゲーム(注01)

例えば、Googleはサービス規約を拡大し、Google Docsや他のサービスからのデータを使用することを示唆し、プライバシーに関する懸念を引き起こしました。その件は上記のNoteでも解説しています。GoogleのGEMINIに限ってはYoutubeを学習データに使うという見解をYoutube CEOは語っています。

※注01:「ハンガーゲーム」は、ディストピアを舞台にしたサバイバルアクション映画。毎年、首都は各地区から男女1人ずつ、計24人の若者を選んで「ハンガーゲーム」と呼ばれる過酷なサバイバルゲームに参加させ、このゲームは、最後の1人が生き残るまで戦わせるというもの。

AIがより多くのデータを持っていれば、それだけ賢くなわけですが、AIによって生成されたデータに移行しつつある今、これは一部の法的問題を回避できはしますが、AIの生成データがAIの進歩に役立つかどうかを確認する上で新たな課題を引き起こしています。過去にはAIの生成データで学習したモデルは劣化するという論文もありましたが、それを解消したという論文も発表されています。まだまだ、試行錯誤中です。

この記事が気に入ったらサポートをしてみませんか?