G検定 自己教師あり学習と対照学習

株式会社リュディアです。今回は自己教師あり学習対照学習について概要のみになりますがまとめてみます。

昨年あたりから自己教師あり学習というキーワードをよく見るようになりました。Self-Supervised Learning = SSL というキーワードで見かけた方も多いかと思います。G検定の勉強をされている方は、機械学習を大きく教師あり学習教師なし学習強化学習に分類できると理解されていると思います。では、この自己教師あり学習とはどのように分類されるものなのでしょうか?概要のみ簡単にまとめてみます。

もともと自己教師あり学習はどのような経緯で出てきたのでしょうか?ご存じの通り教師あり学習の機械学習のシステムを学習させるためのデータセットにはラベル付け作業が必要です。例えば画像データであれば猫を含む画像には猫のいる場所と猫というラベルを付け、犬の画像には犬のいる場所と犬というラベルを付ける必要があります。これが教師あり学習の学習用データになるわけです。このようなラベル付け処理画像アノテーション、または単にアノテーションと言います。画像内の対象物のいる領域を指定し、テキストベースのタグやラベルを付ける作業のことです。学習用データが膨大になれば、アノテーション作業が大変であることは容易に想像できると思います。

一方の自己教師あり学習ではこのラベル付けを機械的に行います。データ自身からラベルを機械的に生成するので自分で教師役を行うイメージです。そのため教師あり学習ではなく自分自身が教師役を務めるということで自己教師あり学習と呼びます。このことから大きな分類としては教師無し学習の1種になります。Self-Supvervised Learning = SSL という言葉はこの動きからきています。特に最近は自己教師あり学習では Contrastive Learning、日本語で対照学習と呼ばれる手法を用いることが多いようです。その結果、教師あり学習モデルと同等、あるいはそれ以上の性能を示しています。

自己教師あり学習、特に対照学習に関する優れたサーベイ論文は以下にあります。詳しく勉強したい方は以下を参考にしてください。

概要のみのまとめとなりましが、2020年付近からよく見かけるようになりましたので雰囲気だけでもつかんでおくことをお勧めします。

では、ごきげんよう。


この記事が気に入ったらサポートをしてみませんか?