AI開発ストーリー（後編）

2021年11月7日 19:54

こんにちは。Logbii代表の松田です。

LogbiiがAIについて取り組み始めた頃の話をご紹介します。

Kaggleコンペに参戦

タイタニックのコンペで概要をつかんだ後、当時開催されていた以下の2つのコンペに参戦しました。結果としては、2回目のコンペで銀メダルを取ることができました。
1回目「Mercari Price Suggestion Challenge」: Top 94% (2215th of 2380)
2回目「Toxic Comment Classification Challenge」: Top 5% (silver, 185th of 4539)

それ以降は、サービス開発などに集中しているため参加していないのですが、またLogbiiチームでの参加も検討したいです。

1回目のコンペは、メルカリの出品時の価格を、カテゴリーや出品コメントなどから予測するのがテーマでした。国内企業のコンペですし、初の参戦ということで結構熱中して進めたのですが、結果としては、大敗を喫しました。

Submissionについて質問などをしたりしましたが、Submission関連で何かミスがあったか、処理の時間制限に引っかかり結果が出なかったなどがあったのではないかと思っています。

このコンペは、「Kaggleのクラウドサーバーを使って1時間以内に処理が終わること」という縛りもあり、学習などの並列化も重要なポイントでした。ご参考までに、当時優勝したスクリプトはこちらです。とてもシンプルなところが話題になりました。今見ても無駄が少なくきれいなコードです。

2回目のコンペは、ウィキペディアのコメントから、有害なコメント（放送禁止用語、差別用語など）を見つけて分類するのがテーマでした。このコンペでは、佐藤くんのハイスペックなiiyamaのゲーミングPC（GPU搭載）を借りて臨みました。もともとWindowsマシンですが、Ubuntuをインストールしデュアルブートできるようにしたものです。

この時の戦略は力技で、とにかくスコアが高いCodeを色々参考にし、それらの個々のモデルをさらにチューニングして、最後にアンサンブルする手法をとりました。スコアが高いCodeが締め切りギリギリに出てくることがあったので、締め切り（標準時間で0時だったので、朝の9時）まで粘りました。メルカリのコンペではMac bookのCPUを使っていたのに対し、このときはGPUを使うことで、学習速度が全然違うことを体感しました。モデルの1つとして、Kerasで実装したLSTMを使っていたと記憶しています。

Logbii Analytics の開発に着手

今ではAWSなどで手軽に使える認知が広まっていますが、当時、AutoMLをSaaSとしてブラウザ上で簡単に実現できるサービスは、少ない印象でした。特に日本製のサービスはほぼなかった印象です。そこで、AIをビジネスにつなげるため、AutoMLをブラウザ上で簡単に実現できるLogbii Analyticsの開発を始めました。

α版の開発ができた頃、たまたま2019年のヘルスケアIT、ファーマITへの登壇の打診があり、登壇と同時に出展を行いました。その時のLogbii Analyticsのデモとしては、薬局の売上予測、保険申込者のリスク分類、薬の元となる化合物の生理活性の予測、薬の副作用の転帰予測、薬の有害事象テキストからの薬品名等のデータ抽出などを行いました。

ヘルスケアIT、ファーマITで出会ったユーザーと色々ディスカッションをする中で、より業界や業務の課題に特化したプロダクトにする必要性を感じ、製薬企業などのメーカーの研究を支援するLogbii Researchの開発を始めました。結果として、今ではAutoMLはAWSなどのクラウドが主流になっているため、同じ土俵で戦うのは難しかったと思います。

現在は、Logbii Researchのリニューアルを進めていて、一緒に開発するエンジニアやデータサイエンティストの仲間を募集しています！少しでも興味をもっていただけたら、まずはざっくばらんに、お話しましょう。

読んでいただき、ありがとうございました。