見出し画像

銀行員がデータサイエンスに触れてみて

こんにちは、JDDの瀬尾です。今回は「銀行員が●●してみて」シリーズの第2弾として、「銀行員がデータサイエンスに触れてみて」と題して記事を書いてみたいと思います。

私は昨年10月に三菱UFJ銀行からJDDへ出向し、現在はデータサイエンスチームに所属しながらデータ分析・AIモデル開発(以降はまとめて「データ分析」と書きます)のプロジェクトに携わっています。文系出身でデータ分析は全くの素人な私ですが、約半年のあいだデータ分析プロジェクトに参加して気づいたことをお伝えできればと思います。


1. JDDにおけるデータサイエンス

まず初めにJDDにおけるデータサイエンス(データ分析・AIモデル開発)についてご紹介します。

(1) M-AIS ~ JDDのデータサイエンスチーム

JDDにはデータサイエンスを専門とするM-AIS(MUFG AI Studio)という部署があり、データサイエンスのプロフェッショナルであるデータサイエンティスト(DS)が多数在籍しています。またDSのほかにも、プロジェクトの管理・推進を担うプロジェクトマネージャー(PM・PMO)の役割を担当するメンバーも多く在籍しています。メンバーのキャリアは多種多様で、メーカーや金融機関出身の人、ITエンジニアとしての経歴を持つ人から、物理学や量子力学などのアカデミックなバックグラウンドを持つ人までおり、バラエティに富んだスキル・専門性が集うチームになっています。

(2) データサイエンスによってMUFGのDXを推進

M-AISでは、三菱UFJ銀行をはじめとするMUFG各社が持つ膨大なデータを活用しデータ分析を行うことで、お客様へのサービス向上や自社の業務高度化に貢献しています。
実際に分析・開発プロジェクトを進める際には、プロジェクト単位でDSとPM・PMOでチームを組成して、時には社内のデザインチームやTechチームとも連携をしながら、プロジェクトのゴールを目指します。私もこの半年間で複数のプロジェクトにPM・PMOとして携わり、データサイエンスに対する理解を深めてきました。

2. データサイエンスに触れて感じたこと

(1) Before ~ 元々のデータ分析に対するイメージ

少し時間はもどりますが、半年前、私がまだ銀行に在籍していた時に「データ分析に大切なものは何か?」ともし聞かれていたら、きっとこのように答えていたと思います。

データ分析には「業務理解」と「分析・開発スキル」の2つが重要だ!

データ分析の対象となる業務の内容や課題を理解したうえで、高度なデータ分析・AIモデル開発スキルを駆使して分析・開発を行うことができれば、おのずと課題解決に役立つプロダクトを生み出すことが出来るはず!と考えていました。
私自身、銀行在籍時代は法人営業や産業調査等の業務に従事しており、その分野における業務や課題はそれなりに理解していましたし、また会社が推奨していたe-learningやデジタル資格の取得を通してデータ分析・AIについても初歩的な知識は持ち合わせていましたので、これらをうまく活用してプロジェクトに貢献したい、と意気込んでいました。

元々のデータ分析に対するイメージ

(2) After ~ 実は「データそのものを理解すること」が最も大切

しかし、実際にプロジェクトに参加し、分析・開発を進めていく中で、最も大切なことは別のものであることに徐々に気がついていきました。それは「データそのものに対する理解」です。


データ分析で大切なコト

「データの理解」と言うと少し漠然としていますが、具体的には…


  1. どの期間の/どれくらいの(データの期間・量)

  2. どのような情報が(データの内容)

  3. どのような形で(データの形式)

  4. どこに(データの所在)
    存在しているか


ということです。
まずはこれら確りと理解することで、その先にある(統計的な)データ把握や本格的なデータ分析・AI開発作業へと繋がっていく、と感じています。

データに対する理解

例えば銀行の口座情報のデータを例にすると、以下の通りです。


(例)

  1. どの期間の/どれくらいの(データの期間・量)
    20xx年xx月~xx月の/合計xx件の

  2. どのような情報が(データの内容)
    毎日xx時 時点の口座残高情報が

  3. どのような形で(データの形式)
    ⇒15桁の(固定長の)数値型データとして

  4. どこに(データの所在)
    ⇒xxシステムという勘定系システムのデータベース内に
    存在している



(3) データに対する理解が分析・開発の成果に大きく影響

なぜデータそのものに対する理解が重要なのかー
それはデータに対する理解がその後の分析・開発の成果に非常に大きく影響する、から。これが私がプロジェクトの経験を通して感じていることです。

例えばデータの期間や量は、AIモデル(の精度)に大きく影響します。
AI(機械学習)モデルの開発では、過去データ等を使ってモデルを学習させますが、学習にあたってはデータ期間やデータ量が重要な要素となります。モデルの予測精度を向上させるために一定数以上のデータ量を確保する必要がありますので、その観点からはデータ期間は長ければ長いほど良いことになります。一方で、特定の期間に偏ったデータ(例えばコロナ後のデータだけを使用する)などでは特定の状況に偏ったモデル(汎用的でないモデル)となってしまいますので、長ければそれだけでよい、というものでもありません。

データの形式/型を理解し、分析・開発を効率的かつ円滑に行う
素人の私にとって、データ分析といわれるとExcel上の表を集計・計算し、グラフで可視化して分析する、といったようなイメージでした。しかしJDDで行っているようなビッグデータ分析は、Excelでは扱うことのできない膨大な量のデータを分析に用います。そのためクラウド上にデータベースを構築し、専用のソフトウェア・SaaS等を使用しながら、プログラミング言語を駆使してデータ分析やモデル開発を行います。したがって対象のデータが数値なのか文字なのか、桁数はいくつなのか、どのような制約をもつか、などのデータ型や桁数に関するルールを知ったうえで分析・開発をすることが、効率的かつ円滑なデータ分析には必須となります。

データの所在を理解し、安全に情報を扱う。
データ分析ではお客様に関する大切な情報を扱うことも多いため、データの保管や受け渡しには高いセキュリティ水準が要求されます。分析対象のデータがどの情報システム内に保管されており、それをどのように受け渡しすれば情報を安全に扱うことができるか。また、ただ単にデータの機密性を確保するだけに留まらず、一定のセキュリティ基準をクリアしたうえで、分析者がより便利かつ柔軟にデータを扱える環境を整えるためはどのようにすればいいか。このような観点を踏まえて、データの所在とそれに伴うシステム制約等をよく理解しながら、情報セキュリティのマネジメントを行うことが重要になります。

そのほかにも、データの偏り(特定のセグメントに集中したデータかどうか)や、鮮度(どれくらい最新の状況を反映しているデータか)など、個々のデータに関する特性やクセみたいなものを理解することも、もちろんとても大事なのですが、このあたりはやや「分析スキル」の領域にも入ってきますので今回は割愛させてもらいます。

3. JDDのデータマネジメント体制

データサイエンスでは、データを理解することがとても大切。
これが私の半年間での学びでした。(文字にするととても当たり前に見えますが…)

そしてJDDでは、「データの理解」も含めた大きな意味での「データマネジメント」を実現するため、M-AISとは別に、専門のデータマネージメントチームを組織しています。最後にデータマネージメントチームの業務をいくつか簡単にご紹介したいと思います。

(1) データに関するデータ(メタデータ)の整理

JDDが保有するデータの期間・内容・形式などの情報を整理し、一覧化してまとめています。この整理された情報を活用することで、分析者はデータをよく理解し、効率的かつ便利にデータ分析を行うことができます。

(2) 最新データの取得・加工

MUFGで日々生み出される最新のデータを安全かつタイムリーに受入・加工し、常に直近データを利用したデータ分析が行える環境を整えています。またデータの受入や加工はシステムを構築して対応しており、その日常的な保守・運用・改良もデータマネージメントチームの仕事です。

(3) 利用できるデータ種類の拡張

新しいサービスの誕生や古いサービスの終了により、MUFGで生み出されるデータも日々刻々と変化しています。そのような変化の激しい環境の中で、お客様へのサービス向上や自社の業務高度化にとって有用なデータを常に探し続け、分析に利用できる状態にしておくことでJDD、MUFGとしてのデータ利活用に貢献することを目指しています。

4. さいごに

銀行在籍時には、既に分析・整理されたデータを「使う」場面が多かったですが、JDDに出向し生のデータを0から「分析」「整理」する経験を通して「データに対する理解」の重要性を学びました。

MUFGには膨大な量と種類のデータが蓄積されており、私が触れることができているデータも全体のまだほんの数%のはずです。そう考えると、MUFGのデータホルダーとしてのポテンシャルはすさまじいものがあります。今後はより多くのデータに触れ、理解し、活用することで、お客様へのサービス向上や自社業務の高度化に貢献していきたいと思います。

そしてゆくゆくは、今「ある」データの活用に留まらず、サービス向上・業務高度化のために必要なデータを「集める」「作る」という大きなミッションにも挑戦していけたら嬉しいと思っています。

最後までお読みいただきありがとうございました!