見出し画像

正解率が高すぎる?AIを間違って導入しないために最低限知っておきたい知識

最近、AI技術を売りの機能として取り入れているプロダクトが増えてきています。むしろ、AI関連の技術を利用していないと、顧客が予算を割いてくれないという話すら聞くようになってきていることもあり、どのプロダクトもなんとかAIを入れようと躍起になっています。
そのため、自社が保有しているAIの優位性を語れることもセールスとしての能力の一つとなってきているのではないでしょうか。
ただ実際の現場では、AIの話を聞いても、そのAIがどのくらいすごいのか実はよく分かっていないという人が多いと思います。そして、AI技術について話しているセールスの人自体もよく分かっていないことすらあります。
AIのことがよく分からないため、なんとなくすごそうという理由だけでプロダクトの導入が決まったりします。そして、期待していたものと違ったとか、使い方自体が分からなかったとなり、そのままプロダクトを使うのをやめてしまうのをよく見かけます。

よく分からないうちにAI系のプロダクトを導入しまう前に知っておいてほしいことについて、「高すぎる正解率のAIを見たときに確認するべきこと」という切り口でお話しします。
この話は、他社のプロダクトを導入するときはもちろんですが、自社で解析して出た結果に対しても確認していただきたいものです。
相手がプロフェッショナルという理由だけで結果を信じ込んでしまわずに、その結果がどのように出てきたかを考えるようにしましょう。

ベースライン

まず最初に、基礎中の基礎である予測のベースラインについてお話しします。
ベースラインは、多くの場合一番単純なモデルで予測した場合の正解率を使用します。
例えば、メールがスパムであるかどうかを判定する問題を考えてみます。
AIが99%の正解率でスパムかどうかを判定できると分かった時、この正解率は高いと言えるでしょうか。
99%だと一見高そうな性能に見えますが、実はこの数値だけでは何も判断できません。
もし、スパムが全体のメールの1%しか来ないとした場合、全てのメールをスパムでないと判断した場合の正解率は99%となります。つまり99%が一番単純なモデルで予測したベースラインとなるということです。
このように予測の対象となるデータが偏っている場合、どちらかに偏った極端な予測をした場合だけで正解率が高くなることがあります。
AIで高い正解率が出た場合、ベースラインがどの程度の値で、AIによってそれがどの程度高くなったものかを確認するようにしましょう。

オーバーフィッティング

オーバーフィッティングは聞いたことがある人が多いかもしれません。日本語では過学習とか過剰適合と呼ばれたりもします。
学習したモデルが学習に使ったデータに対しては性能がよいが、新しいデータに対してまともに予測ができないときなどに言います。
あまりにも高い正解率を見たときは、オーバーフィッティングを疑って、交差検証をしているかどうかを確認しましょう。たまに、交差検証はおろかトレーニングとテストのデータを分けずに正解率を出してしまっている場合もあったりします。
ちなみに少し難しい話になってくるのですが、交差検証を実施していても、交差検証におけるデータの分け方が不適切な場合もあったりします。
例えば、時系列データなどデータに方向性があるデータなどは交差検証でのデータの分け方に制約があります。
交差検証を実施していたとしても、データを分けるときに何かしら制約が必要なデータだったかどうかについて確認してみましょう。

リーケージ

データのリークとも呼んだりします。リーケージは、学習をするときに知っておくべきじゃない情報をモデルに与え、予測性能が非現実的に高くなる状態を引き起こします
例えば、ウェブページ上で会員登録する人をページビューから予測する問題を考えてみましょう。このとき、訪問したページを全て予測モデルに入れてしまうとリーケージが発生することがあります
会員登録完了ページや会員専用ページなど、会員しか見れないページを学習モデルに入れてしまう可能性があるということです。
これらを入れてしまうと、会員しか見れないページが会員になりやすい人とモデルが学習し、現実的には全く使えないモデルとなってしまいます。
この例はかなり単純なものですが、実際は気付かないうちにリーケージを発生させて、無意味なモデルを作ってしまっていることは少なくありません。
過去にも、AIの世界で有名な研究者ですらリーケージを発生させて、後から論文を修正せざるを得ないことになった事例があります。
このように、最先端を走っている研究者でも見逃してしまいがちなのがリーケージです。
正解率が高いときは、モデルに予測したい答えを教えてしまっていないかを確認するようにしましょう。

まとめ

今回は、正解率が高すぎるAIを見たときに確認してほしい3点を紹介しました。
機械学習のライブラリやソフトウェアの進化により、データをある程度整形すれば簡単に予測モデルができる時代です。そのため、意図せず意味のない予測モデルを作成してしまいがちです。
高い正解率が出たときは、予測結果をそのまま鵜呑みにせず、出てきた正解率が本当に使えるものなのかを、今回紹介した3点で確認して見てください。

この記事が気に入ったらサポートをしてみませんか?