Fully Connected Tokyo 速報レポート Part2

2023年10月16日 15:37

2023年10月11日に日本で初めてのWeights & Biases ユーザーカンファレンスである、Fully Connected Tokyo 2023が開催されました。本イベントは、日本をリードするW&Bユーザーの皆様からその最新のML開発・運用のノウハウをご共有いただくことを目的にして東京スクエアガーデンのコンベンションホールで開催され、約300人の参加者が集まり、大盛況となりました。

3つのパートからなる本イベントのパート2では、W&B ML Engineerの鎌田啓輔の挨拶・アナウンスメント(※)に始まり、3人のスピーカーから講演をしていただきました。お一人ずつ講演内容をレビューしていきたいと思います。

「W&Bからのアナウンス① W&B Report Challenge」 - W&B Japan 鎌田啓輔

パート2の冒頭では、"W&B Report Challenge"をWandBの鎌田からアナウンスしました。"W&B Report Challenge"では、WandBのレポートを書いて公開していただくチャレンジで、最優秀レポートの著者には豪華景品（Apple Watch Ultra2です！）が進呈されます。Report Challengeの内容や詳しい参加方法は、こちらをご覧ください。みなさまからのご参加お待ちしております！

「世界の先端AI企業におけるML開発手法と、Weights & Biasesプロダクトロードマップ」 - Weights & Biases Carey Phelps

自己紹介・会社紹介
Carey Phelpsは、W&Bの従業員が数名だった時期からW&Bに参画しているW&Bのプロダクトマネージャーです。Fully ConnectedのためにUSより来日してくれました。

Careyからは、W&Bが現在提供しているプラットフォーム、そして今後のW&Bのプロダクトロードマップについて話をしてもらいました。

W&Bが提供している製品
W&BはW&B Modelsと呼ばれるモデル開発やCI/CDを実現する機能、そして今ではW&B Promptsと呼ばれるLLMに特化した機能、さらにW&B Platformと呼ばれる可視化機能などのプラットフォームのベースを支える機能を提供しています。

W&Bの製品Roadmap
製品紹介の後は、気になる今後の製品ロードマップについて説明をしてくれました。
W&B Modelsのロードマップの中では、CI/CDを可能にする自動実行機能を主に紹介してくれました。データが追加されたタイミングでのファインチューニングの自動実行やモデルが学習された後にWebhookを用いて自動でデプロイすることも可能になり、またモデルの評価に特化した便利な機能も登場してきます。
W&B Promptsのロードマップの中では、LLMの評価に特化した機能・LLMのチェーンの管理機能・Production Monitoring機能を紹介してくれました。学習だけではなく、Production Monitoringまでできるようになるという発表に会場は特に釘付けでした。
W&B Platformのロードマップの中では、組織での安定したAI開発を支える高可用性に向けた開発・データの保存やアップロードのパフォーマンス向上などの紹介がありました。

Q&A
このセッションでは、会場からの質問に答えるQA会も実施しました。プロダクトのロードマップに関する質問を想定していましたが、会場からは「W&Bはスタートアップでの活用が多いのか」という質問が、1番最初の質問でした。W&Bのことを広く理解されようとしていた質問で、W&Bの運営としては嬉しい質問でした。その質問に対する答えになりますが、W&Bはスタートアップとエンタープライズの両方でご活用いただいております。スタートアップの企業様に手軽にはじめていただきやすいような仕組みを提供しつつ、エンタープライズの企業様に大規模に安心して活用いただけるように、オンプレやDedicated Cloudの提供、そしてその中でのよりセキュアな認証機能の提供もしており、性能面では高可用性に向けた開発を日々続けております。スタートアップ・エンタープライズ問わず、多くの企業様にW&Bを活用していただければと思います。

まとめ
CareyからはW&Bの今後のロードマップについて紹介をしてもらいました。CICDを実現する自動実行機能やLLMの評価に特化した機能、プロダクションモニタリングなど、注目度の高い様々な機能が今後W&Bより提供されていきます。

「Run:Ai リソースを最適化してAIを加速せよ」 - マクニカ諸橋大地様

自己紹介・会社紹介
このセッションはRun:Aiによるスポンサーセッションになります。Run:Aiはイスラエルに本社を置くAIスタートアップ企業であり、NVIDIA GPUサーバーを利用したAIワークロード環境において、ユーザーに適切な量の計算リソースを自動的に割り当てるオーケストレーションツールを提供している会社です。

Run:AiのSales And BD APACであるNir氏に講演をいただく予定ではありましたが、昨今のイスラエルの状況により登壇ができなくなったため、急遽Run:Aiの販売代理店であるマクニカの諸橋さんに登壇いただき、Run:Aiの紹介をしていただきました。

AIを進める中でのチャレンジとRun:Aiのソリューション
昨今のLLMの進展に伴い、GPUが効率的に使えることがより重要となっています。実際、AIの開発をすすめる中で、GPUの確保・GPUの最大限の活用・GPUリソースの管理が非常に大きなチャレンジとなっています。驚きだったのが、Run:Aiの調べによると、企業のGPU稼働率はなんと平均で20％以下という結果が得られています。このような状況の中ではAIをプロダクションに迅速に移すことができません。これらの課題に対応するのが、Run:Aiのソリューションです。
Run:aiはKubernetes上で動き、GPUを利用するジョブのスケジューリング・柔軟なGPUの活用を可能にするソリューションを提供しています。いくつかの機能を見ていきましょう。　

Run:ai GPU orchestration platform
Run:Aiを使うと、組織でひとりあたり必ず割り当てられる最小限のGPUを個別に確保しながら、ジョブスケジューラーを用いることで、空いているGPUを柔軟に組織で使用することが可能になります。さらにジョブスケジューラーは不平等にならないような独自アルゴリズムも搭載されています。空いているGPUが長いほど組織にとって機会損失が大きいですが、これがあるとGPUを最大限に使用できそうですね。　

Our UI for management & visibility
さらに、組織の中でのGPUの使用状況もダッシュボードで可視化されます。GPUの確保は安い買い物ではありません。GPUの利用状況を可視化するダッシュボードは、不必要な予算の削減 or さらなる成長に向けた適切な投資の意思決定を可能にしてくれます。

Inference with Run:Ai
Run:Aiはさらに柔軟な機能を提供します。例えば、推論の用途で1つのGPUで2つのモデルを運用する中、1つのモデルに不具合が起きたとしても同じ基盤のGPUを止めることなく（不具合が起きていない1つのモデル運用を止めることなく）、不具合が起きたモデルの修正ができます。また、推論GPUの割り当ても初期に設定した閾値から柔軟に変更することができます。

まとめ
昨今GPUの確保はAI開発に必須の要素ですが、GPUを追加する以前にRun:Aiを用いることで今あるGPUを最大限使いこなす工夫の余地がまだまだあるのだと感じる講演内容でした。最後に、このような状況の中、スポンサーをしていただきましたRun:Aiさんに改めて御礼を申し上げるとともに、無事にこの状況を乗り切られること、そして今後のRun:Aiさんの発展を祈るばかりです。そして、急遽講演していただきましたマクニカの諸橋さん、ありがとうございました。

「より安全な移動のためのML技術の開発」 - Woven By Toyota Evan Cushing様

自己紹介・会社紹介
Woven by Toyotaは、トヨタグループのソフトウェア変革を推進するトヨタ自動車株式会社のモビリティ技術を担う子会社です。
Evanさんは、UCバークレー大学を卒業し、芸術と科学両方の学位を持っています。2015年から機械学習の分野で活動し、現在Woven by TOYOTAで機械学習エンジニアとして、マルチタスクの知覚ソリューションの開発に注力しています。

Woven by ToyotaはW&B創業当初からのユーザー様ですが、組織全体のMLプロジェクトにW&Bをご活用いただいております。Woven by Toyotaにおける自動運転の開発についてお話をしていただき、講演の最後にはW&BのTipsも紹介していただきました！

Kaizenの適用
自動運転の実現には多くの問題を解決する必要があります。さらに昨今では今までにないモビリティ（電動キックスクーター）が登場していることもあり、継続的なモデルの学習(continual learning)がますます求められていますが、Woven by Toyotaでは、市場データのフライホイールとW&Bを使いながら、この課題にトヨタ生産方式に基づく"Kaizen"を適用しています。講演の中で、まずは従来の自動運転のワークフロー(“Autonomy 1.0” Workflow)を抑え、改善されたワークフロー("Kaizen’d" Workflow)を話してくれました。

“Autonomy 1.0” Workflow
自動運転に向けた開発では、データ収集（評価シナリオの選択も含む）やデータラベリング、モデリングなど様々なステップがあります。データ収集やデータラベリングは従来マニュアルで行われており、特に時間がかかっていました。こうした時間がかかるプロセスがあるため、モデルを再学習するとなった際、新しいモデルが完成するまでに1年以上かかっていました。

"Kaizen’d" Workflow
Kaizen'd Workflowでは、データ収集やデータのラベリングにもMLを適用し、大幅に全体のサイクルを短縮することに成功しています。例えば、今まで評価のシナリオとして、道路に鹿がいるシナリオが必要となれば、人が手動で該当動画を探していましたが、今ではMLで自動探索しているため、大幅に時間短縮を実現できています。また、データのラベリングではAutolabelingを用いておられます。こうしたMLの活用により、従来は1サイクル（再学習）に20ヶ月かかっていたものの、今では2ヶ月で実現ができています。
さらに面白かったポイントは、元データの取得方法です。走行時のデータ収集を、従来は4台のテスト車で1年間かけて行なっていたところを、今では実際のお客様に協力してもらい、たった1日で13万台から膨大なデータ（走行距離にして10倍）を取得することに成功しています。さらに、急な加速度の変化があった時点の状況が安全に関する重要なイベントが発生した状況である可能性が高いということで、加速度計を用いてデータ取得にメリハリをつけている点も面白い点でした。

Kaizen Pro-tip: W&B Tables for a Leaderboard
講演の中で、W&Bの使い方にも触れていただきましたが、W&Bのテーブル機能をリーダーボードのように使った例は、読者のみなさんにとっても学び深いと思います。Woven by Toyotaでは、W&Bのテーブルをリーダーボードのように使うことで、クロスファンクションで、誰が何をしていて、どの方法がうまく機能しているかをみることができ、どのチームがどの成果を出しているかがみれる仕組みを作っています。読者のみなさんも是非参考にされてください。
今後は、さらに発展して、W&Bのモデルレジストレジストリやローンチを使うことでよりスケール化したものを作ることを検討されておられます。またの事例発表が楽しみです。

まとめ
Woven by ToyotaのEvanさんより、Woven by Toyotaの自動運転の開発に"Kaizen"を適用し、大幅にMLのライフサイクルを短縮することに成功した事例をお話をしていただきました。また、その中での具体的なW&Bの活用例についても触れていただきました。

最後に、Woven by Toyotaは一緒に働いてくれる人を探している募集しています。ご関心がある方は是非https://woven.toyota/en/careers/をご確認ください！

パート2は以上です。パート3のブログはこちらです。パート3もお楽しみください。

この記事が気に入ったらサポートをしてみませんか？