見出し画像

メモ : 「少ないデータで作られた精緻なモデルは、大量のデータで構築した簡易なモデルに駆逐される」の出典を調べておいた

書籍「ChatGPTエフェクト 破壊と創造のすべて」の作中に登場する「少ないデータで作られた精緻なモデルは、大量のデータで構築した簡易なモデルに駆逐される」というフレーズ。ヒーローが大技を繰り出した後に呟きそうなキメ台詞だが、出典論文が書いてなかったから調べておいた。

原文では

But invariably, simple models and a lot of data trump more elaborate models based on less data. 

The Unreasonable Effectiveness of Data / Alon Halevy, Peter Norvig, and Fernando Pereira, Google

「しかし常に、大量のデータで構築した簡易なモデルは少ないデータで作られた精緻なモデルに勝る」と記載されている。

2009年3月に Google の Alon Halevy, Peter Norvig, Fernando Pereira による論文で  IEEE Intelligent Systems に掲載された。自然言語処理におけるラベルなしの大量データから高品質の言語モデルを構築できる、としている。

Problems that involve interacting with humans, such as natural language understanding, have not proven to be solvable by concise, neat formulas like F = ma. Instead, the best approach appears to be to embrace the complexity of the domain and address it by harnessing the power of data: if other humans engage in the tasks and generate large amounts of unlabeled, noisy data, new algorithms can be used to build high-quality models from the data.
https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35179.pdf

これで論文筆者の  Alon Halevy、 Peter Norvig、 Fernando Pereira の経歴や研究内容を追うのも簡単になるだろう。

この記事が気に入ったらサポートをしてみませんか?