見出し画像

AIのさらなる進化

最近、様々なAI系の論文(特にDeep Learningに関する論文)を読んでいると論文に変化が起きてきています。
それは、「複数タスクをこなす万能なAIが現れてきている」ということです。
内容を具体的に説明していこうと思います。
この投稿内でAIという言葉は全てDeep Learningを指しています。

AIの大まかな仕組み

一般的なAIのモデルには入力と出力があります。
例えば、「入力された画像が犬か猫か判定する」というタスクがあるとします。
その場合、そのタスクをこなすAIモデルへの入力データは画像、出力データは入力された画像が犬か猫かを確率で出力します。

AIは学習フェーズと推論フェーズに別れています
学習フェーズでは、AIモデルを学習させ、求める答えを出力するようにさせます。
推論フェーズでは、学習させたAIモデルを実際の問題に適応します。
上記のタスクを例にすると、学習フェーズでは犬や猫の画像とその答えをセットで用意し、AIモデルに学習させます。
推論フェーズでは、答えのわからない犬や猫の画像をAIモデルに入力し、犬か猫かの判定をしてもらいます。

起きている変化

従来までのAIは、1モデル1タスクが基本でした。
つまり、AIモデルの出力は一つであり一つのタスクのみを行うことが基本でした。
例えば、「画像内にいる動物が犬と猫を見分け」るというタスクと、「その画像内の動物がどのような行動しているのか判定する」というタスクがあるとします。
この場合、上記の二つのタスクに対して、従来では「犬と猫を見分けるモデル」と「動物の行動を判定するモデル」の二つのAIモデルが必要でありました。
しかし、同じ画像に対して二つの答えを出力する場合、わざわざ二つのモデルを用意するのは非常に効率が悪いです。
そのため、一つのAIモデルを使って複数のタスクをこなす、マルチタスク学習が出現し始めました。
AIモデルが複数個の出力をもち複数タスクを実現したのです。
これにより、より高速でより少ない容量を使用して、複数のタスクをこなすことができるようになったのです。

マルチタスク学習の応用例

具体的な使用例としてはカメラによる防犯などでしょうか。
防犯は「誰が写っているのか」「写った人物がどのような行動をしたのか」という二つのタスクが必要になります。
また、防犯を目的としているので出来る限りリアルタイムにそれらを検知出来ることが望ましいです。
そのために、マルチタスク学習を使用して、上記二つのタスクを一つのAIモデルで行い、より高速に検知することが可能になると考えます。

まとめ

AI系の論文は発展が非常に目覚しく、どんどん新しいAIモデルが出始めています。
マルチタスク学習自体はかなり昔からあるのですが、最近どんどんそれに関する論文が出てきているように感じます。
調べてみると、二つ以上のタスクをこなしているAIモデルも出現しています。
これからさらに多くのタスクをこなすことができるAIモデルが出現することが予想でき、非常に楽しみです。
また、タスクの増加につれ必要なデータの数がさらに増加するため、データの多様度の重要性が非常に高まると考えます。

この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!
スキして頂き嬉しいです!
研究を行う理系の人。 思ったことや考えたことをnoteに書きます。 よろしくお願いします!