見出し画像

機械学習のモデルを解釈する

まず、機械学習とは、コンピュータがデータから自動的に学習し、
予測や分類などのタスクを実行することができる技術です。

機械学習モデルを解釈する必要性


例えば、あるショッピングサイトがあるとします。
このサイトでは、ユーザーが何を買うかを予測するために、機械学習モデルを使用することができます。

機械学習モデルは、入力されたデータから特徴を抽出し、
それらの特徴を基にして予測を行います。

例えば、ユーザーが過去にどのような商品を購入したかを分析することで
そのユーザーが将来的にどのような商品を購入するかを
予測することができます

しかし、このような機械学習モデルを作成する際には
多くのデータを用意する必要があります

また、モデルの構築やパラメータの調整など
専門的な知識が必要な場合もあります

そこで、機械学習モデルを解釈することは
そのような複雑なモデルを理解し、説明することができるために重要です

モデルを解釈することで、なぜそのような予測がされたのか
どのような特徴が重要だったのかなどを理解することができます

例えば、ショッピングサイトのモデルを解釈する場合
モデルがどのような特徴を重視しているかを調べることができます


その結果、例えば、年齢や性別などの特徴よりも
過去の購入履歴や検索履歴などが予測に
大きく影響していることが分かるかもしれません

また、機械学習モデルを解釈するためには
可視化技術を使用することもあります


可視化とは、データをグラフやチャートなどで視覚することで
そのデータに含まれる特徴や傾向をよりわかりやすく
伝えることができます

例えば、ショッピングサイトのモデルの場合、可視化をすることで

どのような商品が顧客にとって魅力的であるか

また、その商品がどのような特徴を持っているかを

視覚的に理解することができます

モデルを解釈することで
予測の信頼性やモデルの改善点を見つけることもできます

例えば、あるショッピングサイトのモデルが

特定の商品をすべてのユーザーに推薦している場合
それは適切な予測ではありません

この場合、モデルを解釈することで
その商品がなぜすべてのユーザーに推薦されたのかを調べ
モデルを改善することができます

最近では、機械学習モデルを解釈するための手法が研究されており
より正確で信頼性の高い解釈を得ることができるようになってきています

例えば、SHAP(SHapley Additive exPlanations)という手法は
機械学習モデルの特徴の寄与度を計算し、解釈することができます

以上が、機械学習モデルを解釈するということの基本的な説明です

もちろん、機械学習には様々な応用があり
それぞれ異なるモデルや手法が存在します

しかし、機械学習モデルを解釈することは
そのモデルの信頼性や改善点を見つけるために非常に
重要なステップとなります

Explainable AI(説明可能なAI)


機械学習によって獲得したモデルのパラメータを調べることによって

どのような特徴量が目的変数に対してどのように
寄与していたのかを調べます

ビジネスの現場では、予測結果の解を上司やクライアント
利用者に説明することがよくあります

なぜこのような予測になったのか、
その予測にはどのような特徴量が
寄与していたのか、
どの特徴量とどの特徴量を組み合わせると
良く予測できるのかといった具合です

このような説明を踏まえて
予測の根拠と人間の直感と合致しているかが判断され
予測モデルの妥当性が評価されます

こういった考え方はExplainable AI(説明可能なAI) として
研究が盛んな分野のひとつです

この分野の有名な論文のひとつに
Grad-CAMというものあります

この論文では画像の分類モデルに対して
画像のどの部分が分類に寄与したかを可視化することで
分類モデルが正しく機能しているかを示すことができると
提案しています

論文中の事例では、偏ったデータセットを用いると
女性の医師を看護師であると誤認識してしまう
という実験結果が紹介されています


この実験ではインターネット上から医師と看護師の画像を収集し
それらを分類するモデルを作成しました

その結果82%の精度で正しく分類できるようになりました

そして、どこが分類に寄与していたのかを可視化すると
人の顔と髪に着目していたということがわかりました

これはどういうことでしょうか?

インターネット上から収集してきた医師と看護師の画像は
その職業における男女比をある程度反映しており
医師では男性が7.8%、看護師では女性が93%という
非常に偏ったものだったのです

日本における医師の男女比は78.1%21.9%
看護師の男女比は7.8%92.8%です(2018年時点)

そのため、日本語で「医師」や「看談師」といったキーワードで画像を収集しても、同じ問題が発生しえます

機械学習のモデルを開くことで説明可能

別の記事で説明しようと思いますが

機械学習のモデルを開いて「なぜその様な判断をしたのか」
を説明することは

機械学習をビジネス導入する際に必要になることにひとつです!

そのためには SHAP などを活用すると

正の相関 や 負の相関から

様々なデータが 見えてくるかもしれません!!

この記事が気に入ったらサポートをしてみませんか?