MLSE プロセス・事例収集WG 第１回勉強会に参加しました

2019年12月18日 00:35

MLSE プロセス・事例収集WG 第１回勉強会に参加してきたので、報告エントリーです。

MLSEプロセス・事例収集WGとは

機械学習工学研究会に新しく作ったワーキンググループです。機械学習技術を利用したシステム開発プロジェクトに関する事例を通して、プロセス、マネジメント等について議論し、理解を深めることを目的とした活動をします。事例の発表では、開発したシステムの詳細ではなく、開発を進めるプロジェクト運営に関する知見を中心にご発表いただき、それを元に参加者それぞれの視点で議論することを想定しています。今回は1回目ということもあり、このWGでどのような議論をするのが良いかなども話題となりました。

勉強会は、発表セッションと議論セッションの順で実施されました。

発表セッション

発表1
　教師なし不正検知 maboさん
企業における不正検知においてどのように解いていくかという議論。クレームがあるタイプは教師あり学習できるが、そうじゃないものは教師あり学習できない。このような教師あり学習できないタイプの不正をどのように検知するのか、についての事例発表。
　不正の教師データがない場合は、基本的に既存データからの外れ値を探す必要があるが、それをマハラノビス距離やOneClass分類系の色んな手法を試してみたという話題提供でした。
異常検知は教師ありタイプ、教師なしタイプなどだけではなく色んなやり方があるので俯瞰するのが難しいよなと思いました。なお発表でも引用されてましたが、下記の本が理論よりの教科書的です。

ちょっと印象的だったのは、分布からの乖離による教師なし不正検知をする場合、小さい方と大きい方のどちらが見つけたいものなのかがわからないことがあるというものです。たとえば入金金額なら異常に大きい方が問題そうですが、ログイン回数とかは異常に大きいものも異常に少ないものも問題として取り上げるべきかもしれませんよね。実際はケースバイケースをルール的に設定しているのかもしれませんが、この変のところは実用的なノウハウだなと思いました。

発表２
　機械学習応用事例の整理と機械学習システムの開発プロセス　本橋洋介
私の発表です。前半は、機械学習の応用事例を、業界や業務に分けて整理しているやり方を、後半は分析プロセスの標準作りやそこにおける評価方法の調査結果を話題提供しました。

前半の整理に関しては、業務を整理して応用事例をマップする、長年やっているやり方の紹介をしました。以下の本に概要があります。

後半に、分析プロセス標準化の取り組みや、その中でも評価方法の調査を行った事例を紹介し、どのような整理をみなさんがしているかの議論のきっかけになる話をしました。
かなり前ですが、分析プロセスの標準化に対して取り組んだ内容の一部は下記のプラクティス論文で紹介したことがあります。

また、評価方法については以下の発表などで整理を紹介したことがあります。

久々にこの手を整理して発表したことで、再度本格的な実事例調査をしたくなりました。

発表３　
　機械学習システムの品質ガイドライン向山輝さん
同僚であるNECの向山さんから会社内での機械学習のプロジェクトの検査・チェックを行うためのガイドラインの整備事例や考え方の共有がありました。ガイドラインの整備においては、QA4AIのガイドラインをさらに詳細化して作成しています。QA4AIのガイドラインは機械学習システム開発の標準的な考えを会社内に導入したい人にとっては指針となる良い整理となっています。以下のリンクに詳細があります。

発表４　
　機械学習システムのためのビジネスITアライメントモデル竹内広宜さん
武蔵大学の竹内先生より、機械学習を使ったプロジェクトに関するビジネスITアライメントモデルについての検討状況の説明です。浅学ながらビジネスITアライメントモデルについてちゃんと話を聞いたのが初めてなのですが、広い意味で要求工学の一部というか、ビジネス部門とIT部門の認識齟齬を減らすために、何のために何を作るかを合意するためのモデルであると理解しました。プレゼン内容は以下のQiita記事に、全て書いてあります。素晴らしい記事ですので是非ご一読ください。

議論セッション

議論セッションにおいては、卓に分かれて、現在の仕事・なぜ参加したか・このワーキンググループで議論したいことなどを議論しました。私も1つの卓で議論させていただいたのですが、改めて思ったのは機械学習の実問題適用・システム化などについてのマネジメント上の悩みどころの幅が広すぎるということです。

・ビジネス上の目的や投資対効果の設定が難しい
・データチェック・データ加工処理のノウハウが人によって異なる（スキル差がある）
・ツールやアルゴリズムの選定理由についての、ステークホルダーへの説明が難しい
・機械学習が100%正解できるわけではなく、不安定であることをユーザなどに理解してもらうことが難しい
・機械学習の運用のときのモニタリングや更新を問題なく行うための共通ノウハウの不足
・機械学習を用いたシステムの運用にかかる人手のコストをステークホルダーが理解してくれない

などです。このような悩み事を列挙するだけでも価値がありますが、せっかく学会のワーキングでやっている以上は、これらの1つ1つを題材として議論する会を設けていったらよいのかなと思いました。

おわりに

本WGは、第二回の勉強会や、MLSE夏合宿内での企画セッションを行うことを計画しています。気軽に発表いただけるLT形式などとして、さらに事例・知見が集まる場にしていきたいと考えています。今後さらに盛り上げていきたいので、今回参加された方も、そうでない方も是非次回などにお越しください。なお、MLSE夏合宿のCFPは以下となっています（プロセス・事例収集WGの企画セッションの内容はまだ検討中につき未記載です。）。

なお本記事はMLSE Advent Calendar 2019の記事の一つです。