シェイングウ、 AI 研究者としての現在地

2024年6月19日 12:20

*本 note は、Google がシェイングウにインタビューした内容を編集して掲載しています。また、Geminiを含む生成AIの利用に関する説明は例示を目的としています。実際の回答結果については、ご自身で正確性をご確認いただくようお願いいたします。

こんにちは。Google の AI「Gemini（ジェミニ）」の公式 note 編集部です。今回は日本のみなさんに、Google の AI についてより理解を深めていただくために、Google DeepMind で Gemini モデルの日本語対応にも深く関わっている、Google 社員のシェイングウのインタビューを 3 回にわたりお届けします。

シェインは、幼少期を日本で過ごし、カナダ、イギリス、ドイツ、アメリカで研究を重ねてきました。彼の研究テーマはディープラーニング、生成 AI、強化学習など多岐にわたり、手掛けた論文は業界に多大な影響を与えています。

Google が目指すのは、あらゆる場所で、あらゆる人にとって、AI が役に立てる世界です。そのためにも AI 開発の各段階で、潜在的なリスクを検討し、それらのテストと軽減に取り組むことが重要だと考えています。そしてシェインもまた、幼少期にゲームやアニメで出会ったような「人間の友達になれる AI」がいる世界を、AI のリーダーとして責任あるかたちで実現することができるのが Google であると語ります。

第 1 回は、そんな彼の AI 研究者としての側面にフォーカスして、バックグラウンドと生成 AI の活用術、今後取り組みたいことについて聞きます。

Google DeepMind で研究者として働く

－本日はお時間いただき、ありがとうございます。早速ですが、note の読者に自己紹介をお願いします。

シェイングウ（以下シェイン）：こんにちは。シェイングウです。今は、Google DeepMind で Gemini 1.5 Pro と Gemini 1.5 Flash の英語以外の言語の事後学習を担当しています（aistudio.google.com、Google Cloud Vertex AI や NotebookLM の中のモデル）。今まさに、日本で新しいチームを作り始めていて、Google 翻訳の日本チームのチーフエンジニアや、オープンソースの大規模言語モデル（LLM）開発に貢献した研究者などの人材を採用しました。日本のチームから Gemini モデルのコアチームの研究者にフィードバックすることで、開発における日本のプレゼンスを上げていきたいと思っています。

－シェインさんが所属する Google DeepMind ってどんな組織なのでしょうか？

シェイン：もともと、Google には AI を研究している組織として DeepMind と Google Brain、2 つの組織がありました。この 2 つが 2023 年の 4 月に一緒になったのが、Google DeepMind です。

－2 つの組織は、それぞれどんなことを研究していたのですか？

シェイン：DeepMind は 2010 年、複数の学問分野を統合したアプローチで、汎用人工知能（AGI）を牽引する研究機関としてスタートしました。研究所では、深層学習と強化学習を組み合わせた「深層強化学習」の分野を開拓し、初期にはそのシステムをテストするためにゲームを使用しました。2015 年に囲碁の世界チャンピオンと対戦し勝利した、初のコンピュータプログラムである AlphaGo は有名ですね。

その後、その後継モデルはゲームだけでなく複雑な現実世界の問題を解決できるようになりました。今日の生成 AI システムで使用されている多くの技術は、DeepMind の研究から誕生しています。

Google Brain は、最新の AI が Google の製品とサービスをどのように変革できるかを探求し、Google の使命を推進してきました。現在の Google のインフラストラクチャは Brain チームの研究成果に基づいて稼働しています。

2017 年、Brain チームによって発明された Transformer アーキテクチャは、AI 分野に革命をもたらした卓越したニューラルネットワークシステムであり、現在、ほぼすべての主要な LLM の基盤となっています。AI システムがより会話的になる可能性を示した LaMDA のようなモデルも、ここから生まれています。

そんな DeepMind と Google Brain は、2023 年 4 月に合併して Google DeepMind として 1 つになりました。2 つのチームの強みを活かし、弱みを補完しあって、とてもバランスの良い、プロアクティブな組織になったと思います。

この 2 つの組織が統合後に最初に手掛けたプロジェクトが、マルチモーダル AI モデルの Gemini の開発です。「Gemini（ジェミニ）」はラテン語で双子を、天文学ではギリシャ神話に由来するふたご座を指しますが、この言葉が名前に選ばれた理由の 1 つが、まさに過去 10 年にわたり別々に研究開発を歩んできたこの 2 チームを象徴しています。

Google のインターンを経て AI 研究者へ

－シェインさんの研究者としてのバックグラウンドについて教えてください。

シェイン：生まれてから小学校を卒業するまで日本で過ごし、中学時代を中国の上海、高校時代をカナダのバンクーバーで過ごしました。その後、トロント大学に進学して、そこでディープラーニングの生みの親の 1 人といわれるジェフリーヒントン教授に卒業論文を指導していただきました。その後は AI の幅広い領域で研究テーマを探索してきました。

博士課程進学と同時にシリコンバレーの Google Brain でインターンを始めました。当初は夏の 3 か月間の予定だったのですが、1 か月ほどで書いた論文をきっかけに何度か契約が延長され、気がついたら 3 年続いていました。今でこそ長期インターンは珍しくないですが、当時はあまり例がなくて、そのまま修了後も Google Brain で研究を続けました。

－研究領域について、もう少し詳しくお聞かせいただけますか？

シェイン：ディープラーニングから始まって、ケンブリッジ大学では生成 AI の基礎にもなっているベイズ機械学習を、マックス・プランク知能研究所ではカーネル法という、ディープラーニング以前の AI 技術を研究しました。その後は画像生成で使われる Gumbel-Softmax 法に関する論文を書いたり、ロボットと強化学習の研究もしました。LLM の研究を始めたのは 3 年前です。「これは面白いから、他の研究はいったん止めてこれに注力しよう」と決めて、今に至ります。

6 か国で暮らし、4 か国で AI を研究してきたこと、AI の中でも幅広い領域で論文を発表しているので今でも研究者ネットワークと近いこと、この 2 つが私のバックグラウンドだと考えています。

そうなれたのは、インターンシップも含めると 7〜8 年間、Google Brain という最高の環境にいられたことも大きかったと思います。

－ AI 研究者になろうと決めたきっかけはどんなことだったのですか？

シェイン：きっかけは 2 つあると思っています。ひとつは、大学の学部 3 年生のときに、30 年以上、ウェアラブルグラス型の拡張現実デバイスを研究してきた発明者であるスティーブマン教授と一緒に執筆した論文が SIGGRAPH（コンピュータグラフィック分野で有数の国際会議）のデモに採択されたことです。新しいことを試し続けて共有できる研究者コミュニティの楽しさに触れて、自分も研究者になって参加したいと思いました。

もうひとつは 12 歳まで日本にいて、AI が登場する漫画やアニメに触れていたことだと思います。当時ハマってたデジモンやロックマンエグゼなどの世界はもう頑張れば作れますし、日本はインターネットが流行る前から AI を夢見ていた国なので、アニメや漫画でお馴染みのドラえもんのようなロボットも最終的には作りたいですね。大学のときは単純に、AI って最先端という感じがして興味を持ちました。また、ご高齢のヒントン教授が夜遅くまでオフィスで楽しく仕事する様子をみて、研究者はなんて幸せだろうと思い、最終的に研究者になろうと思いました。

節目節目で、ドアを開けて視野を広げてくれる人に出会えたことはとても幸運でした。

Gemini の力を借りれば、できることが広がる

－note 読者に、最新の Gemini モデルの特筆すべき点をぜひ教えてください。

シェイン：2024 年 2月に Google が発表した Gemini 1.5 Pro は、業界トップクラスの 100 万トークンという画期的なコンテキストウィンドウを備えており、最新の技術的進歩が実現されています（2024 年 5 月には、API を使用する開発者および Google Cloud ユーザー向けに 200 万トークンまで拡張）。100 万トークンが、どれぐらいの規模感かというと、1 時間の動画、11 時間の音声、30,000 行以上のコードベース、70 万以上の単語など、膨大な量の情報を一度に処理することが可能なのです。

2024 年 5月には、Gemini 1.5 Pro が「Gemini Advanced」へ搭載されました。今後はより多くの Google サービスと接続していきますし、Google Workspace や Google Cloud などの、企業が日々利用する製品にも導入されていきます。
最近では、lmsys.org による評価で、6 月時点の Gemini 1.5 Pro が日本語で 1 位（同率 1 位を含む）になるなど、わずか数か月で目覚ましい改善をみせています。日本のユーザーでもしまだ使ったことのない方がいたら、ぜひこのモデルの威力を体験いただき、日々活用いただきたいと思っています。

－シェインさんご自身は、いちユーザーとして生成 AI をどのように使われているのですか？

シェイン：ロングコンテキストウィンドウとマルチモーダルという Gemini の強みを活かした使い方としては、長い論文を Gemini にそのまま投げて要約させ、さらに追加で質問したり、会話を通じて理解を深める、ということをしています。

2 月に Google AI Studio に出してからも、ロングインプット & アウトプットに最適なファインチューニングを行っているので、Gemini のロングコンテキストの理解と処理能力はとても高いです。「Gemini は怠けない」という評判もいただいています。日本の学生や研究者の方で英語が読めても時間がかかるということも多いと思うので、大量の論文を読むときにGemini を使うのはおすすめです。面倒な長い文章の処理は Gemini に任せてラクをする方法を知ってほしいと思います。

もうひとつは、いわゆる「壁打ち」ですね。プロンプトを変えて、つまり聞き方を変えて、根気強く自分が欲しいものが何かを AI に教えることで、深く、生成 AI の中に入り込んで潜在能力を引き出せます。

他の使い方としては、私は日本語を「書く」のが苦手なので、自分の日本語が正しいかどうかをチェックする、自分が先に雑に英語で書いたものを翻訳してきれいに整えてもらう、というのに Gemini を使っています。X（旧 Twitter）の投稿をするときは、なるべく自分の言葉で伝えたいのであまり使っていませんが、故にチェックをサボって間違いのある日本語がポストされることもよくあります。

※ Gemini をはじめ、生成 AI が生成する情報は、不正確または不適切な場合があります。

AI 研究者として取り組みたいこと

－非常に広い生成 AI の研究領域の中で、シェインさん自身はどのような領域にフォーカスしたいと考えていますか？

シェイン：私が生成 AI の研究者として学び、たどり着いた結論が、「生成 AI は完全に再現性がある」ということです。シリコンバレーの研究者も、同じことを言います。世界的に専門人材は十分にいて、ちゃんとしたデータと計算資源があり、人材を解像度高く見定めることができるリーダーがいれば再現できます。つまり、生成 AI という技術は、どこか 1 つの会社が作らなくては世に出ないというものではないのです。

今後は、AI モデルの精度やスピードを追求するよりも、もっと多くの一般の方に AI を使ってほしいと思っています。そのためには UX が大事です。UX をどう変えれば人が楽しめるのか、仕事に役立つのか、という UX と AI 研究を合わせた領域をやっていこうと思います。

例えばロングコンテキストウィンドウは、性能面での強みです。その性能がどう新しい UX を可能にするか。論文の PDF を 100 本同時に読み込ませて内容を要約させることができたり、ビデオからアプリケーションを作ることができたりといったことは、AI の技術が可能にした UX です。逆に、人と話すような AI が欲しい、というリクエストがあれば、UX のかたちからどんな AI が必要なのかを探っていく。このように、AI と UX の両方から隙間を埋めていきたいです。

この記事が参加している募集

#仕事について話そう

113,781件