訓練データと検証(開発,テスト)データの乖離

常識的なことだが,訓練用のデータと検証(開発とも呼ばれる)ならびにテストデータは似たものを選ばなければならない.

日本語の手書き文字データセットを高精度で読み取ることができるというニュースがたまに流れるが,これは「お手本を元に書いてもらった」データセットを用いているためである.ほとんどが産総研が集めたデータセットを使用しているが,これだと高精度が出るのがあたりまえで,本当の人が適当に書いた癖のある字でテストすると壊滅的になると思われる.

とある会社が,大手メーカーに商品に傷があるかどうかを画像でとってから深層学習で判別するという仕事を頼んだが,写真1枚につき相当高額の見積もりをもらったそうだ.高画質の写真をとるからというのが理由らしいが,これも訓練とテストの乖離の例で,実際に傷を判別する簡単な装置で使う低画質のものを,作業場と同じような暗い環境で撮影したものを集める必要がある.



この記事が気に入ったらサポートをしてみませんか?