見出し画像

入社たった3カ月で、長年の重要課題を解決!データ基盤の構築で「大幅なコスト削減」と「業務改善」に成功した話を推進した本人と上長に聞いてみた!

データドリブン組織を支えるデータエンジニア吉田さんと上長の翠川さんに伺いました。
#サイキンソーなヒト 01

こんにちは。サイキンソー広報の山藤(ざんとう)です。
サイキンソーで働く「中のヒト」は、いったいどんな人たちなのか?社員の人柄や日々の奮闘を多くの人に知ってもらいたいーー。そんな想いから「サイキンソーなヒト」をスタートしました。

初回のインタビューに協力いただいたのが、サイエンス&オペレーションDiv、研究&データ技術開発ユニットでエンジニアリングを担当している吉田さんと、上長の翠川さんのお二人です!

現在入社2年目の吉田さんですが、入社1年目のたった3カ月でサイキンソーが抱えるエンジニアリング面での重要課題を解決されたとのこと、今回は昨年吉田さんが着手されたプロジェクトストーリーについて詳しく伺ってきました!


プロフィール

吉田さん
2022年にサイキンソーへ入社。データエンジニアとして、データ基盤の構築や、BIダッシュボード構築業務に従事。ビジネスデータから研究用データまで多様なデータの整備・管理を行い、社内のデータ利活用の促進を目指す。

翠川さん
2020年にサイキンソーへ入社。マイキンソーのデータ解析やその他の研究に必要なデータ整備や開発を行うサイエンス&オペレーションDiv、研究&データ技術開発ユニットのユニットリーダーとして4名のメンバーをまとめる。

入社時に起こっていた課題

ーまず吉田さんが入社された当時の状況とプロジェクトがスタートしたきっかけについて伺ってもよろしいでしょうか。
(吉田さん)
私が入社した当時は、サイキンソーにはまだデータエンジニアのようにデータの整備・管理を専門で行うような人間はおらず、各部署が独自の方法でデータを利用している状況でした。データの種類や量が少ないうちはあまり問題ないのですが、ちょうど会社の規模が大きくなりかけの時期だったともあり、データ関連の課題がいくつも生じ始めていました。例えば、「データが各所に散財しており、集計に使用するデータを集めてくるだけでかなりの時間がかかってしまう」「データ量が増えすぎて既存のデータベースでは処理できない」といったものです。課題はいくつもあったのですが、その中でも最優先課題として入社直後にまず取り組んだのが、本日お話しする「FASTQファイル整備」のプロジェクトになります。

(翠川さん)
課題の詳細については私から説明をしますね。FASTQファイルとは、DNA配列データを格納しているファイルのことで、腸内フローラ検査における一次データにあたります。その管理方法について、当時大きく2つの課題がありました。

1つ目は「検索性の課題」です。サイキンソーでは、検査レポートを作成してお客様に届けた後も、研究目的などでデータを再利用することがあります。その際、使用済みのFASTQファイルがきちんと整備されておらず、研究メンバーが後から目的のファイルを探すのに時間がかかってしまうという問題がありました。また、シーケンス工程(検体中のDNAの配列を読み取り、FASTQファイルに出力する工程)がうまく行えていない場合には1つの検体に対して複数のFASTQファイルが生成されるケースもあり、その場合は正しいファイルを探すのが更に困難になります。研究メンバーにはできるだけ研究業務だけに集中できる環境を作りたかったので、この問題を解決することは急務でした。

2つ目は「コストの課題」です。これまでは、解析環境からのアクセスのしやすさを重視し、高価なストレージにFASTQファイルを蓄積していたため、コストがかさんでいました。マイキンソーは今後もさらに検体数を増やしていくサービスであり、検体数そのものが事業の価値にもなっていきます。そのため今後もコスト増加が確実にみえており、こちらも早急な解決が必要だったのです。

実施したこととその結果

ーどちらも事業存続のために非常に重要な課題であったということですね。これまで、当たり前に使われていたシステムの課題を解決するというのは、かなり大がかりな作業だと思うのですがどうやって進めていかれたのでしょうか。

(翠川さん)
そうですね。実はこの問題は吉田さんが入社されるずっと前から解決しなくては!と思っていたのですが、社内にデータエンジニアがいなかったためなかなか着手ができていませんでした。具体的に何をしたかは吉田さんから説明いただきます。

(吉田さん)
1つ目の「検索性の課題」については、「データ基盤の導入」によって解決できないかをまず考えました。データ基盤とは、多様なデータを一元管理して整備し、利活用しやすくするためのシステムのことをいいます。当時サイキンソーにはデータ基盤はまだなかったので1から構築することにはなりますが、他にもデータ基盤構築により解決できそうな課題がいくつも見えていたため、導入する価値は十分にあると確信していました。具体的な方法としては、ラボからFASTQファイルがアップロードされると、自動で保管用のストレージにファイルを転送しつつ、各ファイルのメタデータ(ファイルの保存場所、解析日時、利用可能なファイルかどうかのフラグ、など)をデータ基盤上のテーブルに登録するような仕組みを実装しました。このテーブルを参照することで、どこに正しいファイルがあるか、すぐに検索することができます。また、現在では被験者データや問診票データなどもデータ基盤に連携されているため、例えば「乾燥肌に悩んでいる女性被験者のFASTQファイルを検索し、一括ダウンロードする」といったこともできるようになりました。このように、多様なデータを組み合わせて活用できることが、データ基盤の最大のメリットとも言えます。

2つ目の「コストの課題」については、シンプルに「保管場所を安価なストレージに変更する」ことで解決しました。「それができるなら初めからそうすれば良かったのでは?」と思われるかもしれませんが、安価な分もちろんデメリットもあります。例えば、このストレージのデータを解析サーバーで利用するには、その都度ファイルをダウンロードする必要があるため、整備されていない状態で使用するとさらに検索性が悪くなってしまいます。言い換えると、1つ目の「検索性の課題」を解決できたからこそ、安価なストレージに保管場所を移行できたということになります。

(翠川さん)
これは見事でしたよね。データ基盤を導入することでファイルの整備もコスト削減もまるっと解決してくれました。コストについてはこれまでから月数十万円単位で削減に成功しています。

大変だったこと

ー詳細にありがとうございます!分かりやすく簡単にまとめていただきましたが、実際の作業はかなり複雑で苦労もされたのではないでしょうか。
(吉田さん)
そうですね。かなり複雑でした。一般的な企業ではあまり利用しないデータでしたし、入社したばかりで上流と下流の工程の知識が乏しかったので、まずはそこのキャッチアップから始めました。FASTQファイルを菌の名前の付いたデータに変換する工程をQIIME解析というのですが、実際にQIIME解析を経験するなどして勉強しました。

(翠川さん)
ここら辺はサイキンソーならではの苦労ポイントですよね。私も入社当時は苦戦しました(笑)。

(吉田さん)
そうですよね(笑)。ドメイン知識については自分だけで情報を取るのも限界があるので、翠川さんや他のチームメンバーのお力を借りて、Google Meetを繋いでペア作業をしてもらったり、Slack(社内のチャットツール)上でアドバイスを随時いただいたり、かなり助けていただきました。ありがとうございました。

(翠川さん)
いえいえ。ドメイン知識の習得も苦労していたけど、FASTQのような「非構造化データの整備」という面でも最初は苦労していた姿を思い出しました。

(吉田さん)
そこも苦労しました。前職では、Excelのような表形式の「構造化データ」の整備をメインで担当していました。そのため、FASTQのような「非構造化データ」を整備するとなったときにイメージが沸かなかったんですよね。ここも翠川さんとエンジニアリングチームのみなさんと議論を重ねる中でだんだんと形が見えてきたなと思います。

(翠川さん)
そうでしたよね。あの時は何度もチームで議論を重ねましたね。吉田さんご自身でも他社事例などを調査して、ミーティングで展開してくれたりそれに対してメンバー全員で意見を出してブラッシュアップしたり。周りの力を借りつつ、プロジェクトを前に進めてくれたなと感じます。

なぜPJを成功できたか

ー吉田さんの自己研鑽の能力と他者を巻き込む力が、今回のプロジェクト成功の要因ですね。翠川さんから改めて吉田さんの良いところを伺ってもよろしいでしょうか。
(吉田さん)

(翠川さん)
はい(笑)。沢山ありますが、これだけの複雑なプロジェクトを進めるときに「吉田さんなら間違いない」という安心感があるところが彼の一番の魅力ですね。吉田さんの良いところは、少し話しただけで、物事の本質を深く理解してくれるところ、私が考えていることと同じ方向を向いて話をしてくれるところではないでしょうか。そんな所にいつもすごく感謝しています。ありがとうございます(照)。今回のプロジェクトも、データ整備に優先順位を付けるとして、どこから着手をすると一番効果が高いのか?という会話をしていたところからスタートしたんですよ。

(吉田さん)
ありがとうございます(照)。
そうですね。実装にかかる工数や影響の大きさについて、一つずつ議論したのを覚えています。いつも壁打ちいただき、ありがとうございます。

(翠川さん)
入社後3カ月でとてもインパクトの大きいプロジェクトを推進してくれたので、今後も引き続きデータ管理・活用を通して、サイキンソーの事業をデータドリブンに引っ張っていく存在になってほしいです。

(吉田さん)
ありがとうございます。頑張ります(笑)!

今後のデータ組織の課題

ー最後に今後のデータ組織で取り組んでいきたいことや、新しく入社いただく方に向けたメッセージはありますでしょうか。
(吉田さん)
まずは、引き続きデータ基盤で利用できるデータを増やしながら、データの二次利用がしやすい環境を整えていきたいです。関わるユニットもデータの利用方法も多種多様ですが、それぞれ大なり小なり課題を抱えているので、一つ一つ解決していきたいです。

また、サイキンソーにはまだビジネス系のデータアナリストやデータサイエンティストがいないので、ビジネス系データ(広告・Webアクセス・売上データなど)の分析業務にも挑戦していければと思っています。業績に関わりそうな指標をエンジニアの視点から提案するなど、一歩先の視座で事業に関われるようになるのが目標です。未経験分野のためまだまだドメイン知識のインプットが必要ですし、不安もあるのですが、サイキンソーには職種の枠に捉われず新しい分野への挑戦を楽しんでいるような人が多いので、刺激になっています(たまに「この人の職種なんだっけ?」って思うこともあります)。データ基盤も構築し始めたばかりですし、試行錯誤の毎日ですが、そういった環境を楽しめる方と一緒に働けると嬉しいです!

(翠川さん)
大事ですよね。まだまだ重い作業も残っているので引き続きがんばりましょう!吉田さんが話していたデータの二次利用という観点では、研究データ活用でも大きな課題が残っていますね。サイキンソーではマイキンソーの結果を個人向けのデータ開示だけでなく、企業やアカデミアへの研究支援としても活用しています。今回、データ基盤を利用してFASTQファイルの整備とコスト削減を実現できましたが、QIIME解析結果についてはうまく整備できていません。この整備については、既存メンバーやこれから入社される方も含めて一緒に解決していけたらなと思っています。

サイキンソーの成長には、データ組織の成長が欠かせません。テックドリブンに会社を動かせる存在となれるよう、これからも精進していきたいです。

インタビュアー後記

今回は、入社後1年で社内の重要システム改善を推し進めた吉田さんと、上長の翠川さんのクロストークでお届けしました。
文系出身のインタビュアーにも分かるよう、シンプルに分かりやすく話を進めてくださったお二人の優しさが印象的でした。マイキンソーは今後も検体数をどんどん伸ばしていくことが求められているサイキンソーの主力サービスです。営業チームやマーケチームが自信を持ってお客様に商品をレコメンドできるのも、システムやデータ基盤を整えてくださるエンジニアリングチームがいるからこそだなと改めて感じました。
翠川さん、吉田さん、エンジニアチームのみなさんいつも本当にありがとうございます。

これからもサイキンソーの「中のヒト」たちにどんどんインタビューしていきます。
次はどんな社員が登場するか、次回の記事もお楽しみに。
最後までご覧いただき、ありがとうございました。