![見出し画像](https://assets.st-note.com/production/uploads/images/110928992/rectangle_large_type_2_f211dd9dc1d644091928b8670cc992f8.png?width=1200)
メモ : 「少ないデータで作られた精緻なモデルは、大量のデータで構築した簡易なモデルに駆逐される」の出典を調べておいた
書籍「ChatGPTエフェクト 破壊と創造のすべて」の作中に登場する「少ないデータで作られた精緻なモデルは、大量のデータで構築した簡易なモデルに駆逐される」というフレーズ。ヒーローが大技を繰り出した後に呟きそうなキメ台詞だが、出典論文が書いてなかったから調べておいた。
原文では
But invariably, simple models and a lot of data trump more elaborate models based on less data.
「しかし常に、大量のデータで構築した簡易なモデルは少ないデータで作られた精緻なモデルに勝る」と記載されている。
2009年3月に Google の Alon Halevy, Peter Norvig, Fernando Pereira による論文で IEEE Intelligent Systems に掲載された。自然言語処理におけるラベルなしの大量データから高品質の言語モデルを構築できる、としている。
Problems that involve interacting with humans, such as natural language understanding, have not proven to be solvable by concise, neat formulas like F = ma. Instead, the best approach appears to be to embrace the complexity of the domain and address it by harnessing the power of data: if other humans engage in the tasks and generate large amounts of unlabeled, noisy data, new algorithms can be used to build high-quality models from the data.
https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35179.pdf
これで論文筆者の Alon Halevy、 Peter Norvig、 Fernando Pereira の経歴や研究内容を追うのも簡単になるだろう。
この記事が気に入ったらサポートをしてみませんか?