見出し画像

日本の大学からアメリカのbig techでresearch scientistになるまで



はじめに

MetaのFundamental AI Research (FAIR)という研究グループの音声翻訳チームでresearch scientistをしています.今回,京都大学で学士・修士・博士を取得した後,Metaでポジションを獲得した経緯について書きます.日本の大学に在籍しており,私と同じようなキャリアを目指している方や,これから目指そうとされている方の参考に少しでもなれば幸いです.本記事では,どのようにインタビュー対策すれば良いかではなく,どうすれば日本の大学からアメリカのbig techのポジションのインタビューのチャンスに辿り着けるのかに焦点を当てたいと思います.

研究が好きで博士課程に進学したものの,進学当時はいつかアメリカで就職できたらいいな,博士課程の間にアメリカでインターンシップを経験できたら嬉しいな,くらいの感覚でした.どうしてアメリカで働きたいと思ったかというと,議論・話題の中心にいる研究者はアメリカの企業や大学に所属しており,自分も分野の中心人物になりたかったからです.

幸運にも周りの方々から色々なチャンスをいただくことができ,もしかしたらアメリカでいきなり就職できるかもと思うようになりました.というのも,私の観測下では日本の大学から直接アメリカで就職のケースはほとんどなく,アメリカで活躍されている日本人研究者のキャリアパスのほとんどが以下の2パターンでした.

  1. アメリカの大学で学位を取得した後に現地就職

  2. 日本の大学で学位を取得した後に日本で就職しキャリアを積み重ね,アメリカ移住

(1) のキャリアを歩まれている方はしっかりと戦略を立てて早い段階から留学の準備されており,大変尊敬しています.しかし私の場合は,研究者という職業に就きたいと思ったのがM1の秋くらいだったので遅すぎる選択肢でした.(2) について,私の研究分野でもアメリカで活躍されている先輩でロールモデルにしていた方は何人かいたのですが,将来家族ができた後に移住するとなると自分の意思だけではコントロールできないことが発生して大変だろうと思いました.そこで,日本の大学を卒業後,早い段階でアメリカに行けるキャリアパスを模索しました.ちなみに私は日本での生活が大好きで,アメリカの生活スタイルに憧れは全くありません.

私のように日本の大学からアメリカでポジションを得るには,業績を増やすのはもちろん,興味のあるチームから認識してもらう必要があります.受動的になっていては決してチャンスは舞い降りてきません.私は研究テーマの選択やインターンシップに関して戦略を立てて実行しました.

経歴

  • 2012-2016 京都大学 工学部 情報学科

  • 2016-2018 京都大学大学院 情報学研究科 修士課程

  • 2018-2021 京都大学大学院 情報学研究科 博士課程

    • 2018 Johns Hopkins University (JHU) インターンシップ

    • 2019 Microsoft インターンシップ

  • 2022- Fundamental AI research (FAIR), Meta

京都大学では学士から博士まで河原研に所属しており,音声認識・音声翻訳の研究に従事していました.大学ではストリートダンスサークルに所属しており,特に学部生の4年間はダンスの練習ばかりしていました.単位は落とさないものの,それ以上の勉強はしないような学生でした.また学部生の間は非エンジニア就職も視野に入れていました.修士課程に進学してから少しずつ意識が変わり,ダンスも頑張りつつ研究に力を入れるようになりました.その後覚悟を決めて研究者としての道を目指すことにし,博士課程に進学,情報学の博士号を取得したのち,Metaでpostdoctoral research scientistのポジションに就き,1年半後にsenior research scientistのポジションのオファーをいただき現在に至ります.

LinkedIn

https://www.linkedin.com/in/hirofumi-inaguma-171ab6131/

Google scholar

https://scholar.google.com/citations?user=1oanW5sAAAAJ&hl=en

キャリアのターニングポイント

修士課程での研究テーマの選択

学士4年の時に研究室配属された時点で私の研究テーマは音声対話でした.弊研究室は第一志望で,元々学部3回生の時の実験演習でカラオケシステムを作ったことから音声処理に興味がありました.配属当時は音楽処理(楽譜自動採譜など),音声信号処理(音声強調・音源分離・音源定位など),音声対話の3つのテーマが配属生の候補としてありました.特にこだわりはなかったのですが,コミュニケーションに興味があったため音声対話をやることになりました.具体的にはアンドロイドロボットEricaと人間のより自然な対話を目指し,対話中の非言語的な振る舞いに関する研究をすることになりました.当時,どのように対話をモデル化するかというより,自然な対話というのはどのようなものかといった方針で研究が進められていたため,データの分析をすることが主な仕事でした.一方で,信号処理チームが数学を使ってエレガントにモデルを扱っていることに羨望・嫉妬が芽生え,自分もそのようにモデリングに重きを置いた研究したいと思い始めました(ただし,決して対話研究でのモデリングを軽く見ている訳ではありません).

そこで,M1の秋に教授に直談判して新しいテーマの模索・提案を行いました.GoogleやMiscrosoftなどといったbig techが精力的にインパクトのある研究発表をしていたため,レッドオーシャンではありましたが音声認識の道に進みたいと考えるようになりました.しかし学生を卒業されなければならないという教授の立場もあり,いきなり全く新しい研究に切り替えるのではなく,現在の音声対話のテーマに音声認識の技術を取り入れるところからスタートしました.結果としてすぐに良い実験結果を出すことができ,M1の終わりに国際会議に投稿するまでに至りました.これを受け,M2では音声認識の研究をさせてもらえることになりました.ようやく自分の興味のある研究ができた時に,なんて研究は楽しいんだと思い,博士課程への進学を考えるようになりました.

JHUでのインターンシップ

M2での研究成果を発表しにICASSP2018という国際会議に参加した際,当時Johns Hopkins University (JHU) に在籍されていて現 Carnegie Mellon University (CMU) の渡部先生に初めてお会いし,JSALTというJHUで行われる夏季ワークショップを紹介していただきました.学振DCの研究予算があったため,D1の夏に参加させていただく運びとなりました.ただし圧倒的事務処理能力の欠如のため,ビザの手続きが遅れ後半からしか参加できなくなり,代わりにワークショップ後もセメスターが始まるまでvisiting studentとしてインターンを継続させていただけることになりました.JSALTでは多言語音声認識を扱い,言語モデルの統合に関する研究を行いました. ここでは初めて海外の方々との共同研究,およびアメリカ生活を経験をすることができました.JSALT後はIWSLTという音声翻訳の国際ワークショップのコンペに参加することになり,そこで音声翻訳の研究を始めました.これが現在のFAIRでの研究テーマに繋がります.

Microsoft本社でのインターンシップ

せっかく博士課程に進学したのだからアメリカでのインターンシップに参加してみたいということで,D2の夏季インターンシップを目指してD1の冬からポジションを探し始めました.当時,会社を選ぶ基準はフルタイムのオファーをもらえるかというよりも3ヶ月で論文を書けるかでした.Microsoftの音声認識チームは毎年多くのインターンが国際会議で成果を発表していたため生産的だと思い,ここに行けば自分も書けるだろうということでコネを模索しました.D1の冬にSLT2018という国際ワークショップに参加し,そのチームのマネージャーと直接お話しする機会をいただきました.この時も渡部先生に繋いでいただきました.結果としてインタビューを突破しインターンシップに参加でき,その成果を国際会議に投稿することができました.ここでの経験によって,将来アメリカで働くことを想像できるようになり,目標がより具体的になりました.インターンシップが終わってからリターンオファーをいただきましたが,コロナ禍が始まった直後だったので海外の学生を受け入れることができないということで,キャンセルになりました.コロナ禍がなければMicrosoftに入社していたかもしれません.

就職活動

2020年

D3の春に就活を意識しましたが,意識していただけで特に何も動いていない状態で,研究成果を増やすことに必死でした.アメリカでの唯一のコネがあったMicrosoftへの道がコロナ禍で断たれたため,正直アメリカでの就職は先延ばしにしようと思ってましたが,7月にMetaから音声翻訳チームのポスドクのポジションの打診がありました.当時Metaでは音声翻訳チームができたばかりだったのでフルタイムのheadcountがなく,ポスドクのポジションしかありませんでした.業務的には基本的にフルタイムと同じ扱いですが,最長2年という契約期間があり,フルタイムへのコンバージョンも保証されていませんでした(追加のインタビューが必要).しかしそのチームではやりたいことができそうでしたし,豊富な計算リソースを使えば研究成果は自ずと出るためそのままフルタイムになれるだろうという謎の自信でアプライしました.8月に準備をし,9月にインタビューを受け,11月にオファーをいただきました.研究プレゼンテーション x1,coding interview x1,research design interview x5 で合計7ラウンドありました.後日談ですが,私は外部からチームに採用された第一号だったようです.あと半年アプライするのが遅ければフルタイムのポジションがあったと思いますが,今では気にしていません.

この年はアメリカ大統領選挙があって騒がしかったですし,コロナ禍真っ只中だったので本当にアメリカに行けるのかわかりませんでしたが,割と楽観的だったので焦りはありませんでした.インタビューを受けたのはMetaだけで,日系企業には全くアプライしていませんでした.どうしてかあまり覚えていませんが,もしMetaがダメだったら卒業を延長すればいいと考えていたんだと思います.

ビザに関して,私はO-1(アーティストビザ)を取得しました.一番大変だったことは推薦状を集めることで,自分を推薦してくれる知り合いの研究者4人+面識のない研究者2人を探し,推薦状の草稿を「自分で」書いてそれぞれの推薦者に送ってお願いをしたことです.今ではChatGPTがあるのでかなり楽な作業になるかと思いますが,自分がこれまで達成したことを違う観点から文章が被らないように書くのは辛かったです.O-1を取得した場合,グリーンカードを申し込む手続きはほぼ同じなので楽だと聞きました(現時点でまだ申し込みの手続きは何もしていません).

2023年

2022年2月にMetaにポスドクとして入社後,自動的にフルタイムのポジションが与えられる訳ではないので,なるべくすぐに成果を出せるように努力しました.意識していたことは,なるべく早くチームにとって必要不可欠・重要な人物になる,でした.最速で結果を出すため,当初は3つほど研究テーマを並列に回していました.また多くの人と仕事ができるようにと色々なテーマに首を突っ込んでいました.無事に成果が出始めた頃,今のチームからresearch scientistのポジションのheadcountがもうすぐ出ると言われ続けていたのですが,レイオフの波もあり結局1年以上状況は変わりませんでした.一番近くで働いていた同僚がレイオフされる事態もありました.そこで保険のため,また給与交渉の材料確保のため,2023年5月から他の会社のポジションも探し始めました.基本的にチーム・マネージャーが誰かを軸に探しました.これはいつも渡部先生に「誰と働きたい?」と言われていた影響があると思います.

まず興味のあるチームがあったGoogle (New York),Microsoft (HQ), NVIDIA (HQ)のマネージャーにメールで直接連絡を取りました.どのマネージャーとも以前にインターン,VCやメールで面識はありました.GoogleとMicrosoftでは5月時点でheadcountがなかったため断念しました.NVIDIAにはちょうど空いているポジションがあったためアプライしました.そして7月にMetaの今のチームからようやくheadcountが出たため,8月にMetaとNVIDIAのインタビューを受けました.TikTokについては8月にインタビューの打診がありスケジュールをセッティングしていただいたのですが,先にMetaからオファーがあったためキャンセルしました.仕事をしながら準備をしたりインタビューを受けたため,とても忙しく大変な思いをしました.9月は夏休みで日本に帰国していたため,結果によっては10月に転職活動を再開しようと思っていました.

インタビューの内容について,研究プレゼンテーション,coding interview,research design interview,behavioral interviewから構成され,Metaでは6ラウンド(1 / 1 / 4 / 1),NVIDIA(1 / 0 / 4 / 0)では5ラウンドありました.オファーはどちらからも1週間以内にいただきました.インタビュー自体は難しくなく,研究プレゼン・LeetCodeの準備をしっかりすれば問題ないレベルでした.

給与について,当初はシニアレベルになるとは思っておらず,$300kほどを予想していたのですが,インタビューの結果が良かったらしくMetaが最初に提示してきた額にビックリしました.直後にNVIDIAからの提示があり,その差は$200kくらいありました.NVIDIAの方は交渉の結果$40kくらい上がりましたが,Metaとの差は依然として大きく,これ以上他の会社でインタビューを受けても交渉材料を探すのは難しいと判断し転職活動を終了しました.普通は志望度の低い会社からインタビューを受けて練習していくと思いますが,今回は所属する会社とアプライする会社が一緒で,headcountが突然出たということで第一志望が一番最初に来る形となりました.

これは自分で経験しておらず友人から聞いた話なのですが,これより高い金額を提示できるのはおそらくOpenAIのみで,同じジョブレベルだとMetaの方がGoogleより少し高く,Amazonも近い金額を出せるようです.ただし企業によってレベル分けが違いますし,新卒と中途の違い・業績・インタビューの出来もあるので場合によると思います.Metaからオファーが出た時点で就活のやる気がなくなってしまいましたが,Amazonとかも受けてみたら給与交渉の材料になったのかなと少し気になっています.

他にもOpenAIやGoogle Tokyoなどにも興味がありましたが,現在の目標は研究者個人として名を挙げることなので,主著としてコンスタントに論文を書けるか,インパクトのある仕事ができるか,ビザサポート,まだ日本に帰るのは早い,ということを考えてアプライしました.

どうやって効率的に研究成果を出すか

これまで色々な経緯を説明してきましたが,アメリカでインターンシップに参加できたのも,Metaから誘っていただいたのもコンスタントに論文を書いてきたからだと思っています.論文の数は多ければいいということではないですが(これは卒業後特に思っています),学生という短い期間の中では量が質を上回ることもあると思います.実際音声分野では国際会議の採択率も極端に低くないので,コンスタントに論文を投稿することができます.もちろんNLPなどでは1年に1本あれば上出来だとは思いますが,最終的にどこかの会議に昇華できるとしたら数を打っておくのは安全だと思います.また,多くの論文を出すことによって他の研究者から認識され,新しいコラボレーションが生まれて新しい仕事ができるチャンスもあります.以下,効率的に成果を出すのに役に立った習慣です.

2つのテーマを並行して進める

一つのテーマを追い求めて行くと,短期間ではこれ以上手法を改善できない壁にいずれぶち当たります.博士課程中に研究成果が出ないと不安になるため,コンスタントな成果は精神安定剤にもなります.私は音声認識・音声翻訳という2つのテーマを並行に走らせ,どちらかで進捗がない場合はもう一方で進捗を出していました.研究スタイルとしては一つのテーマの実験を回している間に,もう一方のテーマでサーベイ,アイデア出し,新しいモデルの実装を行なっていました.そうすることで常にリソースを有効活用しているような気になれました.また遊びで外出する際は必ず実験を回しておくことで,その間は思う存分遊びに集中できました.ただし,3つのテーマを並列に進めるのはきついです.

論文を読みまくる

研究には独創性が必要ですが,インプットなしに画期的なことは思いつけないと思っています.自分のテーマに直接関わる論文は網羅的に全部読み,少し違う分野はよく引用されている論文,話題になっている論文から読んでエッセンスを勉強させてもらいました.論文は基本的にTwitterから情報を得ていました.毎朝起きて30分くらいベッドでゴロゴロしながらタイムラインを眺め,面白そうなタイトルを見つけるのが日課でした.内容や会議の種類によってボリュームは違うので差はありますが,締め切りが近くない期間は1日5本を目安に論文を読むようにしていました.ただ読むだけでなくEvernoteなどに要点を自分の言葉でまとめていました.そうすることで記憶にも定着しますし,読んだ気になって理解していないのを防げました.途中まで紙で印刷して読む派でしたが,iPad Proを買ってからは電子派になりました.細かく分野ごとにディレクトリを作ってPDFをまとめていました.これらは今でも継続しています.論文読み会については,スライドを作る時間は無駄だと思っています.面白い論文があればURLをシェアして自分で読む方が手取り早いです.

一貫した研究テーマを考える

論文はたくさんあった方が良いと言いましたが,論文間で一貫性がないと博士論文が書きにくいです.また一つのテーマに沿って研究していくと,自分がこれまで提案してきた手法を組みわせたりすることも簡単になりますし,新しいベースラインを構築する手間も省けます.色々な最新の論文を読んでインスピレーションをもらうのは良いことですが,自分がやっていることにハイレベルな一貫性があるのか考えながら研究してみてください.

ロールモデルを持つ

博士課程に進学する際,キャリアのロールモデルにしていた先輩が何人かいました.私はその人たちのレジュメを見てどの学年でどのくらいの論文があればどんな企業のインターンに行けるのか参考にしていました.面識はありませんでしたが,勝手に自分と比べてモチベーションを上げていました.

ゼロから実装する

fairseq,ESPnet,Hugging Faceなどの便利な深層学習のOSSフレームワークが普及している中で,それらを使わない手はありません.しかし,データの前処理・データローダー・学習・モデル・推論・システムデザインを自分でゼロから作ってみた時,エンジニアリング力が向上したと感じました.これを時間のある学生時代にやっておくことでリサーチデザインインタビューの対策に自然になるので,必要になった時に特に対策しなくても大丈夫になります.目まぐるしいスピードで新しい技術が世の中に出て不安になる毎日ですが,自分で手を動かすことで技術力が向上するだけでなく,速度・計算量のボトルネックなどの研究として成立する問題点も発見できる可能性があります.

ぼーっとする時間を作る

面白い研究アイデアを思いつく瞬間は,自転車に乗っている時,食堂でご飯を食べている時,お風呂に入っている時でした.ずっと焦っていると思いつけるものも思いつけないので,1日のうちにぼーっとする時間を設けてみてはいかがでしょうか.

趣味の時間を作る

息抜きは大事だとわかってはいるものの,他の学生が夜遅くまでやっていたりすると自分だけ遊んでていいものか不安になります.色々な人の話を聞いてきましたが,これは世界共通のようです.私の場合,博士課程の間は特に予定がなければ土日は研究室に行っていましたが,誘われたら断らないで遊びに出かけたりダンスをしていました.また,毎週火曜と木曜の夜はダンスのレッスンに行っていたので,土日でその遅れを取り戻すイメージでやっていました.それでも土曜夜は飲みに出かけていたと思います.この仕事が終わったら遊ぼうとすると決して遊べないので,毎週固定の用事を入れておくと自分の意思に依らず研究以外のことに時間を使えると思います.

どうやってコネをつくるか

国際会議に参加し,直接話す

コネを作るのに一番効率が良いのは(自分の研究発表のある)国際会議だと思っています.私自身はコロナ禍で博士課程中に物理的に参加することはほとんどできなかったのですが,対面でアピールできたことによってMicrosoftへのインターンシップのチャンスを引き寄せたと思っています.ただcoffee break,バンケット,企業ブース,企業イベントで話すのではなく,自身の発表がいつ・どこであるので聞きに来るようにお願いする図太さがあった方が良いです.

OSSに貢献する

論文に加えて自分の能力をアピールできるのはopen source software (OSS) です.新たなコラボレーションが生まれる可能性もあります.私はESPnetを通じて色々な研究者・学生と関わることができました.

英語

社内コミュニケーションやインタビューの突破のためにはある程度の英会話力は必要です.私の家庭はグローバルでもなんでもなく,自身が初めて海外に行ったのも23歳の時の台湾旅行でした.元々なぜか英語は受験科目の中では一番得意でしたが,大抵の日本人と同様に話す練習をしたことがありませんでした.アメリカ就職を意識してからは研究室内での自分の資料を(勝手に)全て英語にすることで,生活の一部にしていました.しかし英会話力が向上したと思ったのはやはりアメリカに行った時です.特にMicrosoftに行ったときは毎日色々な人と話さなければならないので上達しました.一方でJHUでは研究室に籠ることも多かったため,企業インターンシップの方が英会話力の向上という観点では効率が良かったと思います.

弊社の気に入っているところ

日本に1年で2ヶ月滞在できる

1年間に20日だけアメリカ国外からリモートで働ける制度があります.これと有給を組み合わせると合計で大体2ヶ月ほど日本に滞在できます.私の場合は9月と年末年始に帰国しています.今年は3月に沖縄にも行きました.

オフィス

会社では至る所にマイクロキッチンがあり,いろんなドリンクが飲み放題です.朝昼晩とご飯が無料です.アイスクリーム屋,カフェもあります.ベイエリアでは会社専用のシャトルで通勤することができます.私はシャトルのバス停の位置・スケジュールを基準にアパートを選びました.

働き方

時間管理については緩いです.ミーティング以外の時間はほとんど自由に使うことができます.午前11時までにミーティングがない日は,基本的に9時20分に起床し9時45分発のシャトルで通勤,10時20分から仕事を始め,18時50分から会社で夕食を食べて19時30分発のシャトルに乗り帰宅します.家に着くのは20時10分です.帰宅後も少し働く場合があります.会社で働くのが好きなのでなるべく毎日通勤するようにしています.毎週金曜日は午後4時くらいに会社を出てサウナに行きます.

Open science

FAIRではOSSとして実装やデータを世の中に出すことが多いです.色々な方がインターネットを通じて新しい技術に自由に触れられるのはとてもいいことだと思っています.チームによって方針は少し異なりますが,基本的にはチームのゴールに沿っている限り自由に研究することができ,論文を書いて発表することができます.

終わりに

色々書きましたが,私は自分のやりたいことを見つける・研究することが一番大事だと思います.振り返るとこれまで頑張れたのはbig techで働きたいからではなく,単純に研究内容に興味があったからだと思います.自分の信じた分野に情熱を注いでください.ただ,音声分野は日本人研究者のプレゼンスも高いですし,国際会議の採択率も低くないので業績を作りやすく,新しく研究を始めるならCVやNLP,ML理論に比べて敷居は低いのでおすすめです(成果を出しやすいから音声の研究を始めたわけではありませんが).

最後に,ここまで来れたのは周りの方々の支えがあったからです.特に指導教員の河原先生,CMUの渡部先生,河原研の同僚の皆様,ESPnetのコミュニティの皆様,インターンシップでお世話になった皆様に感謝いたします.本記事を読んでより良いキャリアパスを見つけられる方がおられますように.

この記事が気に入ったらサポートをしてみませんか?