強化学習は奥の深い分野。LINEヤフーで技術と向き合い続けたい
LINEヤフーには、さまざまな領域で活躍するエンジニアが数多く在籍しています。シリーズ「Tech Innovators」では、社内だけにとどまらず社外でも活躍しているエンジニアや研究者にフォーカスを当て、社内外での取り組み内容や業界の魅力、LINEヤフーで働くおもしろさについて聞いていきます。
今回は、データグループ DS統括本部 LINEヤフー研究所 R&D3部の和地 瞭良にインタビューを行いました。和地は安全性に関する制約条件を課した強化学習(Safe Reinforcement Learning。以下、Safe RL)を専門領域としていて、トップカンファレンスで複数の論文を発表し、「Yahoo! JAPAN」のトップページで動く機械学習アルゴリズムの改善に取り組んできました。また、共著で強化学習を実際のビジネスに活用するために重要となる学問体系や研究成果をまとめた『強化学習から信頼できる意思決定へ』を執筆しています。
この記事ではキャリアや社外での活躍、業界への影響、LINEヤフーで働く環境が自身の成長にどのように寄与しているのかなどを深掘りしました。
プロフィール
航空宇宙工学の研究をきっかけに、強化学習と出会う
ー 和地さんのこれまでのキャリアについて教えてください。
学部と修士では、東京大学で航空宇宙工学を専攻していました。修士時代はNASAのジェット推進研究所とカリフォルニア工科大学との共同研究の機会があり、研究テーマが火星探査ローバーの自律運転でした。ローバーは未知の環境のなかで安全性を判断しながら自律的に行動する必要があるため、そこからSafe RLに興味を持つようになり、研究を続けてきたんです。
修士を修了した後にIBM東京基礎研究所に入所し、そこでもSafe RLに取り組みました。5年ほど働いた後に社会人で博士号を取得後、旧LINEに転職し、企業合併によりLINEヤフーとなった後、現在は、LINEヤフー研究所に所属しています。研究所では基礎研究を中心に取り扱っており、その最先端の技術を事業に活用するメンバーや研究を突き詰めて論文執筆に取り組むメンバーたちが在籍しています。
ー なぜ強化学習において「安全性に関する制約」を設けることが重要なのでしょうか?
強化学習においては、AI自身が与えられた環境とインタラクションしながら、さまざまな行動を試します。その行動の良し悪しについてフィードバックをもらうことで、試行錯誤的に学習を行うんです。
仮にゲームに強化学習を取り入れるのであれば、どれだけ事故が起きても悪い点を取っても、誰かに危害が及ぶことはありません。しかし、自動運転車や産業用ロボットに強化学習を導入する場合には、機械が壊れたり人間に危害を加えたりするような行動をAIにさせるわけにはいきません。そこで、危険な行動をとらない強化学習のAIを開発することが重要であり、そのための研究をキャリアのなかで続けてきました。
トップカンファレンスで立て続けに論文採択
ー トップカンファレンスで何回も論文が採択されているそうですが、その実績についてもピックアップして教えてください。
NeurIPS 2023で採択された「Safe Exploration in Reinforcement Learning: A Generalized Formulation and Algorithms」とAAAI 2024の「Long-term Safe Reinforcement Learning with Binary Feedback」、NeurIPS 2024の「Flipping-based Policy for Chance-Constrained Markov Decision Processes」は扱っているテーマが近いため、まとめてお話します。
これらはすべて、先ほど述べたSafe RLの研究です。Safe RLの分野において主流となる考え方は、学習する途中においては安全性が担保されないものの、特定の学習が完了したときには報酬が最大化されて、かつ安全性が担保されている状態を目指す、というものです。
しかし、現実世界のユースケースをこれに当てはめて例えると、「自動運転車は学習途中ではたくさんの事故を起こすけれど、学習が完了すれば安全になります」と言っているようなものです。当然ながらこれでは困ってしまうわけで、学習途中の安全性も保証したいというモチベーションがあります。それを理論的・実験的に実現可能にしたものが、NeurIPS 2023とAAAI 2024、NeurIPS 2024の3つの論文になります。
また、IJCAI 2024においてはサーベイ論文「A Survey of Constraint Formulations in Safe Reinforcement Learning」が採択されました。Safe RLでは現在、複数の研究者が異なる指標に基づいて安全性の制約条件の定義をしている状況です。それらの制約条件の種類や関係性について調査し、整理してまとめたのがこの論文です。
ほかには、NeurIPS 2024で「Stepwise Alignment for Constrained Language Model Policy Optimizations」という論文が採択されました。ChatGPTの登場以来、人間のフィードバックによる強化学習(Reinforcement Learning from Human Feedback。以下、RLHF)の技術が非常に流行しました。
RLHFやその派生版のDirect Preference Optimization(DPO)は、ある一次元の報酬関数に関して言語モデルをアラインメントしています。しかし、言語モデルとは、ただ有用な回答をすればいいわけではなく、プライバシーに関する情報やバイアスのかかった発言を出力しないなど、安全性の要件を満たす必要があります。有用性を最大化しつつ安全性を満たす言語モデルを実現するアラインメントの問題を、効率的に解くための方法を理論的かつ実験的に検討したものが、この論文です。
この論文は特に評判が良く、NeurIPSでの最初の査読公開の段階で全員からアクセプトをいただけました。さらに、論文の発表後には招待講演の依頼が複数あったり、論文に関する質問が複数の方々から寄せられたりと、たくさんの反響がありました。
トップカンファレンスにコンスタントに論文が採択されていることもあり、最近ではありがたいことに、学会に行くと私のことを知っている人が増えてきました。みなさんから「良い論文だね」と言っていただけるのは、研究者冥利に尽きますね。
書籍執筆を通じて、研究分野への理解がより深まった
ー 共著で執筆された『強化学習から信頼できる意思決定へ』についてもお伺いできますか。
この本の著者たちは、全員が前職のIBM東京基礎研究所に所属していたメンバーです。私が転職した後に、著者陣の代表者である梶野洸さんから「強化学習についての本を共同執筆するが、Safe RLについて書いてくれないか」と連絡がありました。いつか本を執筆したいと思っていましたし、担当するのは40ページほどだと説明を受けたため、なんとか書けるだろうと依頼を受けました。
ー どのような内容の本なのでしょうか?
現在、強化学習が大活躍している領域は主にゲームです。たとえば、囲碁の世界で強化学習を活用したAlphaGoがプロに勝利したことなどが代表的な事例になります。しかし、強化学習をビジネスに応用するためには、先ほど述べたような理由から多くの課題があります。
この本は、強化学習を実際のビジネスに生かすうえで重要となる学問体系や研究成果をまとめたものです。たとえば分布考慮型強化学習と言われる、報酬の和の期待値ではなく報酬の和の分布を考えて、最悪のケースでもうまくいくような強化学習などを扱っています。
ー 書籍執筆の感想や成果についても教えてください。
まず、予想の数倍は執筆が大変でした…。40ページほどといっても、かなりのエネルギーを要しました。論文を執筆することも当然ながら大変なのですが、書籍は販売して人からお金をいただくものです。だからこそ、読者に「買ってよかった」と思ってもらえるように、情報の信頼性により一層注意を払い、かつ多くの人たちにわかりやすい表現に気を配りました。
また、書籍執筆に取り組んだことでSafe RLに対する私自身の理解も一段と深まりました。文章を書くためには情報を正しく理解することが必要なので、これまで曖昧にしていた知識について学ぶために、たくさんの論文をもう一度読み直しました。余談ですが、この作業によって知識が深まったことが、先ほど述べたサーベイ論文である「A Survey of Constraint Formulations in Safe Reinforcement Learning」の執筆につながっています。
それから何より良かったのは、自分の家族が喜んでくれたことですね。「NeurIPSに論文が採択されたよ」と家族に話しても、ほとんど理解してもらえません。しかし、「本を書いたよ」と伝えると、その領域の専門家になったことを理解してくれたようでした。親も本を買ってくれたのが、本当にうれしかったです。
研究者が力をフルに発揮できる環境
ー 研究者にとって、LINEヤフーの環境はどのような点が魅力でしょうか?
昨今のAI・機械学習の研究は、1人だけでできるものではなく何人もの研究者やエンジニアがそれぞれの得意分野を持ち寄って取り組む、総合格闘技のようになっています。LINEヤフーには優秀なメンバーが数多く所属しているため、そのメンバーたちが力を合わせて素晴らしい成果を出しています。
さらに、7billionほどの言語モデルの実験は全く不自由なくできるくらいに、GPUも豊富に使えます。裁量も大きく、何かタイムリーなテーマに手を出したい場合にもすぐ取り掛かることができます。働く場所や時間も柔軟に調整できるため、研究者にとって非常に働きやすい環境です。また、LINEヤフーは協力的で優しい人たちが多いです。運営しているサービスの種類が多くユーザー数も多いので、有名なサービスに関われるという魅力もあります。
ー 研究の目標についてもお話しください。
私は強化学習に惚れ込んでいます。機械学習のなかでも複雑かつ難しい研究対象ですし、AlphaGoやRLHFに代表されるように大きなポテンシャルを秘めた分野だと考えています。強化学習が社会的に求められている限りは、長くこの分野の研究を続けたいですね。強化学習と一口に言ってもかなり幅広い分野ですし、強化学習以上に有望な手法が登場する可能性もありますので、具体的に何にフォーカスするかは今後も臨機応変に決めていきたいです。
ー LINEヤフー研究所に興味を持っている人へのメッセージをお願いします。
他社の研究所に比べて、LINEヤフー研究所はかなり自由度が高いです。基礎研究に没頭することで得られる知見や技術は、最終的に事業やサービスへの貢献につながります。研究に専念しながらも、その成果を実際のビジネスに生かす道が開かれているため、多様なキャリアを実現することが可能です。その人の考えや人生のライフステージなどに応じて、柔軟な働き方ができる環境です。
自由度が高い分、成果を出すことも求められるため、所属しているメンバーのスキルは相当に高いです。NeurIPS 2024ではLINEヤフー研究所のメンバーの論文が合計4本も採択されました。手前味噌ですが、LINEヤフー研究所の研究員の数からすると、NeurIPS 4本は大健闘と言ってよいと思います。 ぜひ優秀な方に来ていただいて、一緒に研究をしましょう。
LINEヤフーでは現在、2026年4月新卒入社のエントリーを受付中です。記事を読みLINEヤフーに興味を持ってくださった方は、ぜひ採用ページからのエントリーをお待ちしております。