見出し画像

AIリテラシーを向上しよう!④

こんにちは。
都内でAIエンジニアとして働いておりますpanyasanです。

今回は、

・"過学習"ってどういう意味?
・なぜAIは大量のデータを必要とする?

といった点についてお話していきます。

"過学習"ってどういう意味?

画像認識、音声認識、言語処理など、
人間が日々無意識に行う情報処理は機械にとってはとても難しいものです。

その大量の情報から、そのデータの持つ
意味を認識することは、
近年のAI技術でも容易ではありません。

そこで、AIの学習は何段階にも分けて繰り返し行わせます。
この繰り返し回数は"エポック"と呼ばれ、
通常では40〜200回程度まで回します。

"もっと学習を回せばより高精度になるんじゃないの?"
と思われるかもしれません。

しかし、AIモデルは限られたデータで学習し過ぎると、不必要な情報まで抽出してしまい、
他のデータに適応出来なくなります。

これはモデルの"過学習"と呼ばれる現象で、
AI開発者の悩みの種でもあります。

例えば、犬が写っているかどうか判定する
"犬認識モデル"を作るとします。

データを使ってAIモデルを学習していきます。

まず2、3回学習します。この程度ではまだ何も特徴を捉えていないかもしれません。

さらに数10回学習をしていくと、"犬"の一般的な特徴を徐々に捉えていくようになるでしょう。

さらに数100回学習すると、AIのパターン認識はさらに進み、ついには
"そのデータ内の犬画像"に反応するようになってしまうでしょう。

こうなると他の犬画像を与えても、うまく認識してくれなくなります。

このように、
"同じデータで学習し過ぎて、モデルがそのデータ仕様になってしまう現象"
を過学習と呼びます。

データから抽出する情報が多いほどよい、
という訳でもないのです。

このような状況に陥らないように、
AIモデルの学習では適切なタイミングで
学習を打ち切るようにします。

この"過学習"を受験勉強で例えると、
"同じ問題ばかり解き過ぎてしまって
少し捻りのある問題に対応出来ない状況"
のようになると思います。

"繰り返し学ぶことは大事だけど、やり過ぎは逆効果"
この教訓は人間だけでなく、AIにも当てはまるようです。

なぜAIは大量のデータを必要とする?

AIは与えられたデータからしか学習しません。

したがって、与えられたデータの偏りに影響を受けることは、
ある程度避けられない現象でもあります。

仮に学習回数を制限しても、
"過学習"のリスクは完全には解消できません。

しかし、限られたデータにだけ正解するAIには
あまり実用性は期待できません。

この問題を解決する一番の方法は
"学習データを増量すること"です。

データが十分あり、その内容にも明らかな偏りがなければ、
AIは"過学習"をしにくくなります。

仮に"過学習"したとしても、そもそものデータが多ければ、
その量の分だけ類似データに対応出来ます。

このため、AIモデルの質は一般的にデータ量に依存します。

利用できないAIを開発しても意味がないので、
AIの学習ではまずデータ量を確保しておきたいところです。

しかしながら、AI開発ではしばしば
"データ不足"が問題になります。

これは、AIのパターン認識では数1000〜数100万のデータを必要とし、
非常にデータ作成に労力と時間がかかるからです。

"人間が少ない学習で対応できるタスクでも、
AIに覚えさせるのには大量のデータが必要になってしまう。"

このことはAIの実利用の大きなハードルとなってしまっており、
このためAI開発ではタスクごとに、
"限られたデータでどうやって優れたAIを作るか"
を考える必要が生じます。

最後まで読んでいただきありがとうございます。
興味があれば次回も読んでいただけると幸いです。

前回記事では
"AIはどうやって学習するの?"に関して解説しています。
もしご興味がありましたら読んでいただけると幸いです。

この記事は「世界一カンタンで実践的な文系のための人工知能の教科書」
参考にしています。

この記事が気に入ったらサポートをしてみませんか?