Akira's ML news #Week 44, 2020

akiraTOSEI

2020年10月30日 19:30

今週の注目記事/論文

- Paddingによる精度の位置依存性(1.論文)
- 間違ったラベルと正しいラベルの学習速度の差を利用した正則化 (1.論文)
- 因果グラフを利用した自己教師あり学習(1.論文)

2020年第44週(10/25~)に私が読んだ論文や記事で特に面白かったものを紹介します。※なるべく新しいものを紹介していますが、論文投稿日はこの週のものとは限りません。

※有料設定してますが、投げ銭用なので全部無料でみれます

過去の記事
Week 43の記事 ⇦ Week 44の記事(コレ)⇨ Week 45の記事
 2020年9月のまとめ
 2020年10月のまとめ

内容 :
1. 論文, 2.技術的な記事等, 3. 実社会における機械学習適用例, 4. その他話題

---------------------------------------------------------------------

1. 論文

----------

巨大なtext2text多言語モデル

mT5: A massively multilingual pre-trained text-to-text transformer
https://arxiv.org/abs/2010.11934

あらゆるタスクをtext2textの形式に統一し、事前学習→Fine-tuneの戦略をとるT5を多言語で実施したmT5と大規模で101言語を含む多言語データセットmC4を提案。最大で130億のパラメータを持ち、色々なタスクで最高性能。

間違ったラベルと正しいラベルの学習速度の差を利用した正則化

Early-Learning Regularization Prevents Memorization of Noisy Labels
https://arxiv.org/abs/2007.00151

ラベルノイズがある状況において、正しいラベルのものは正常に学習する一方間違ったラベルのデータは最初は正しいラベルを予測するが、その後に間違ったラベルに引っ張られてデータをまる覚えする現象があることを発見。その現象を利用し、モデルの出力の移動平均を使った正則化手法ESRを提案。ラベルノイズがある場合に非常に有効な結果。

因果グラフを利用した自己教師あり学習

REPRESENTATION LEARNING VIA INVARIANT CAUSAL MECHANISMS
https://arxiv.org/abs/2010.07922

画像がコンテンツ(動物種)とスタイル(背景など)の因果グラフで画像が構築されると考え、スタイルに対して不変にするように学習させる自己教師あり学習RELICを提案。具体的にはデータ拡張によるスタイル変換に不変になるように、個々の画像の分類と分布の一致を行わせる。先行研究を匹敵するだけでなく強化学習でも効果があった。

データは量だけでなく質も大切

Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics
https://arxiv.org/abs/2009.10795

NLPのデータの質を調査した研究。データは学習の収束に寄与する領域、ミスラベルなどよる学習が困難な領域、汎化性能に貢献する確信度が変動しやすい曖昧な領域に分かれることを示した。最近NLPでは質より量が重視される傾向にあるが、質を見直すのも良いという提言。

Paddingによる精度の位置依存性

MIND THE PAD – CNNS CAN DEVELOP BLIND SPOTS
https://arxiv.org/abs/2010.02178

paddingの適用の不均一性が位置依存性を生み、精度の低下を招いているという研究。ResNetのようにstride=2でダウンサンプルするネットワークは画像サイズによってはpadding画素が均等に使用されず、特徴量マップに不均一性を産む。(左端のpaddingは畳み込まれるが右端のpaddingは畳み込まれない)。これを均等になるように画像サイズを変えるだけで、精度が向上した。

高次元空間に表現を埋め込む

Can Increasing Input Dimensionality Improve Deep Reinforcement Learning?
https://arxiv.org/abs/2003.01629
通常表現学習は低次元にすることを目的とするが、強化学習における状態表現は中間層と同じような扱いであることから、大規模ネットワークが成果をあげる流れに着想を得て高次元空間にした研究。多くの環境で効力を発揮した。

アクティブラーニングでセグメンテーション学習して可視化

Deep Active Learning for Joint Classification & Segmentation with Weak Annotator
https://arxiv.org/abs/2010.04889

一部しかマスクが存在しないラベル有りデータにおいて、分類とセグメンテーションを同時に行いながらActive Learningでマスクありデータを徐々に増やしていく手法を提案。CAMより可視化性能が良くなる

様々なデータドメインにおけるスケール則

Scaling Laws for Autoregressive Generative Modeling
https://arxiv.org/abs/2010.14701
様々なドメインにおいて計算資源、データ量、モデルサイズのスケール則を調査した研究。調査したドメイン全てで3つの量に対するべき乗の関係が存在し、ドメインに最適なモデルサイズはドメインによらず普遍的な傾向を示した。

---------------------------------------------------------------------

2. 技術的な記事等

----------

合成データをどのように活用するか

合成データを現場どのように活用したか、を議論している対談記事。合成データはデータに多様性を与えることができることや、実際のデータを集めながら、満足できる品質にまで合成データを改善していくループを回したこと、などが議論されている。

ViTの解説動画

TransformerでCNN系を打ち破ったViTの解説動画。TransformerがCNNと同様に、層が深くなるにつれて局所的な特徴量から大域的なな特徴量を取得していること、TransformerはCNNやLSTMより帰納バイアスは小さいため、大規模データセットがあればCNN等を超えられること、などを説明している。