言語横断型の画像-言語マルチモーダルモデルがゼロショットでSOTAを更新

2021年8月15日 23:28

世界中には約7,000の言語が存在していると言われており，これらすべての言語に対応した画像-言語（Vision-Language）モデルを構築するのはほぼ不可能である．自然言語処理（NLP）では，言語横断の問題を解決するための手段として，少量のアノテーション付きの学習データを用意し，転移学習により，多言語対応を試みる手法が提案されているが，たとえ少量のデータであってもアノテーションにはコストがかかるため，学習データを必要としないゼロショット（Zero-shot）学習を実現させたい．

そこで本研究では，Zero-shot設定で文脈に基づいた多言語マルチモーダル（Multimodal）埋め込みを学習可能なTransformerベースのモデル，``Multilingual Multimodal Pretraining (MMP)''を提案．

NLPでは，英語のみで学習されたモデルを，英語以外の言語に適用することができることが示されている．この成功は，多くの言語に共通する語彙や構造に起因している．例えば，英語とドイツ語の多くの単語は同じ語源を持っており，文構造も似ている．AprilやCharakter，warmは英語とドイツ語で同じ意味をもつ単語．

また，画像処理においても，共通の視覚的概念が多く存在する．例えば，「イリオモテヤマネコ」を初めて見た人は，その動物名を知らなくても「ネコ」であることはわかる．

このことを考えると，言語と画像の共通概念を利用し，異なる言語の文と，視覚的な概念を関連付けて，``Zero-shot''の設定で``Multimodal''モデルを学習することもできるのではないだろうか？

著者らは主な貢献点を次のようにまとめている．

・文脈に基づいた多言語マルチモーダル表現を学習する``Transformer''ベースのビデオテキストモデルを提案
・視覚言語モデルは，NLPモデルとは異なり，ゼロショットでの言語間移行性に限界があることを実証的に示した
・視覚言語モデルのゼロショット多言語転移能力を向上させるために，多言語マルチモーダル事前学習を導入し，事前学習用の新しい``Multi-HowTo100M''データセットを構築
・ゼロショットおよび完全教師付きの両方の設定で，多言語テキスト・ビデオ検索性能を比較することで，提案手法の有効性を実証

２点目で画像言語モデルは単体のNLPモデルとは違い，言語間移行性に限界があるというのは気になる文言である．実験の章などを読むとさらに面白いことが書かれているかもしれない．

提案手法のアーキテクチャは以下である．

筆者がざっと見た感じだと，モデル自体に大きな特徴は無さそうだ．事前学習のための新しい``Multi-HowTo100M''データセットというのが性能向上のキモになっているのかな．

本研究は，カーネギーメロン大学，オックスフォード大学，Facebook AIの研究チームによる研究成果である．

``Multimodal''についての補足：異種データ混合モデルのこと．画像やテキストの組み合わせなど，異種データから抽出された特徴を混合するようなモデルを``Moltimodal''と呼ぶ．画像と音声，テキストとロボット制御の``Moltimodal''モデルも存在し，広くざっくりとした意味で用いられることが多い用語である．

``Multi-HowTo100M''データセットについての補足：Youtubeから取得されたナレーション付きインストラクション動画の大規模データセット．料理のレシピやフィットネス動画など，23,6111のタスク，136.6Mのクリップで構成されている．著者らの所属は，Ecole Normale Sup ´ erieure，Inria，CIIRC，CTUであり，GAFAではない．

``Zero-shot''についての補足：Zero-shotは機械学習における研究課題の一つであり，学習データに一度も出現しなかったラベルを推定する問題設定である．例えば，画像のデータセットとして有名な``ImageNet''には，「ネコ」などのラベルは含まれているが，絶滅危惧種の「タスマニアデビル」など固有の動物名は含まれていないことが多い．このため，通常の機械学習で絶滅危惧種かどうかを推定するモデルを学習するためには，追加データを用意する必要がある．しかし，人間は初めて「タスマニアデビル」を見た時，その動物名を知らなくても何となく「ネコ」や「ネズミ」っぽさを感じることもあるだろう．なぜ人間は見たことが無い動物名を推定することができるのであろうか？それは過去に見た「ネコ」や「ネズミ」など，その他多数の動物の特徴を比較し，最も関係がありそうなラベルを選択したり，複数のラベルを混合して推定する行為を無意識に行っているからではないだろうか（ちなみに私は「タスマニアデビル」が，「ネズミ」を60%，「ネコ」を30%，「タヌキ」を10%混合した動物に見えた）．このように``Zero-shot''学習では人間の思考プロセスを，学習データにある各種ラベル間の対応関係を表現することにより模倣し，見たことがあるラベル同士がもつ関係を学習することにより，見たことが無いラベルが何なのかを推定する手法である．多くの人はこの説明を聞いたとき本当に``Zero-shot''学習が成功するのだろうかと疑問に思う方も多いと思うが，画像単体や言語単体では成功例がいくつも報告されているのだ．もし他気になるのであれば検索してみるといい．ちなみに，（ごく）少量の学習データを与えて学習を成立させる方法を``Few-shot''学習と呼ぶこともある．

この記事が気に入ったらサポートをしてみませんか？