GSC「情報科学の達人」からCVPRに間に合わなかったまでの話

2023年12月8日 10:23

cvpaper.challenge2023アドカレ8日目を担当させていただきます、東京大学工学部システム創成学科Cコース2年の内山です。

自分からは、産総研の片岡さんがメンターを務める「情報科学の達人」での取り組みと、その後のあれこれや産総研の技術研修生としての活動について書かせていただきます。

元GSC(現STELLAプログラム)「情報科学の達人」について

情報科学の達人(以下、達人)は国立研究開発法人科学技術振興機構が推進する次世代人材育成事業「次世代科学技術チャレンジプログラム(STELLAプログラム)」(元「グローバルサイエンスキャンパス」)のうちの一つです。グラフ理論やプログラム言語、自然言語処理、画像認識、IoTやヒューマンインタラクションなど幅広く情報学を履修し、その後大学や研究所で研究者として働くメンターとの共同研究ができる長期プログラムです。具体的なカリキュラムは以下のサイトに載っていますので、中高生や高専生はカリキュラムを参照の上ぜひ応募してください（5期生の応募締め切りは1月22日です）。 https://www.nii.ac.jp/tatsujin/

どうして申し込もうと思ったのか

中学生の頃に、ティーンエイジャー向けのソフトウェア開発大会であるアプリ甲子園(2017)とあいちゃれグローバル(2017)に出場しました。複数受賞もさせていただきましたが、その後勉強もプログラミングも伸び悩んでしまいました。そして偶然学校で掲示されていた募集ポスターを見て、何か新しいことが始められるかもしれないと思ったのが達人への応募のきっかけでした。

達人で何をしていたのか

大阪大学の荒瀬由紀先生、東京大学の鳴海紘也先生、NIIの河原林健一先生のご指導の下、旧Twitter(現X)における炎上の早期検知に取り組んでいました。非常に豪華なメンバーで、かつ三人もメンターをつけさせてもらったので、毎回のミーティングは結構緊張していました。最初はリプライの言及関係をグラフ構造とみなしその特徴を用いて識別していたのですが、対象の投稿内容をBERTで二値分類するだけでだいぶ高精度で早期検知ができるようになりました。このあたりから大規模言語モデルを用いた自然言語処理に対して強く興味を持ち始めました。またこの時、計算資源としてなんと産総研のABCIを使用させていただけました。これは達人の魅力的なポイントの一つだと思っています。今振り返ってみると、パラメータサイズが数百Mのモデルの訓練にABCIを使用していたのはかなりオーバースペックだったと思いますが、BERTの位置エンコーディングにグラフの特徴量を入れてみたり、二値分類する際の文ベクトルの取り方を変えてみたり、2020年に高校生がV100やA100（それも複数）を自由に使用できる環境を手に入れられたのは非常に貴重で先進的でした。
それと同じくらい大事だと考えているのが、研究の取り組み方を非常に丁寧に学べたことです。達人の最初の方で鳴海先生から、暦本純一先生が研究のコツや意識されていることをまとめた研究法についてのYouTubeを紹介してもらいました。今振り返ると、毎回のミーティングはこれで言うClaimをひたすら意識していたと思います。単純に他の人とアイデアがかぶっていないかだけではなく、その課題や提案する解決策にどう価値を見出して他人に説明できるかについて特に悩み続けました。ここは、他の研究テーマに取り組んでいる今でも難しさを感じているところです。ただ、たくさん既存の研究について学んで自分が何をするべきなのかについて深く考えて、ひたすら実験して失敗をくりかえして、その道の日本有数の専門家と話ができたことは他ではそうそう叶わないことであると考えています。

達人修了後は何をしていたのか

高校卒業まで

海外大受験をするという達人の同期が複数人いたので、彼女ら彼らに感化されて自分も日米英の3カ国で受験を行いました。高校三年生になってからのスタートでしたが、イギリスのエジンバラ大学と東大推薦（with 外部発表できなかったBERTでの実験とその改良結果・メンターに書いていただいた非常に強力な推薦状）において合格をいただきました。海外大学向け奨学金が獲得できなかったこともあり結果的に東大に進学しましたが、機会を与えてくれた東大に感謝するとともに、世界の広さを認知するいいきっかけになりました。

大学入学後

松尾研究室主催の「深層生成モデルサマースクール2022」「世界モデルと知能2022」を修了しました。後者についてはぎりぎり最終課題まで漕ぎ付けた印象でしたが、深層学習を用いたAI研究の各領域について理論的背景も含め具体的な研究内容を知ることができました。また、Corpy&Co.や自動研究プロジェクトであるAutores、松尾研究所の技術インターンに参加してきました。これまで達人で吸収しきれなかったことも含め新しく技術や理論に触れることができたり、そして何よりも、チームのプロジェクトマネージャがどのように研究を立案・計画・管理し、そして改善するかについての様子をマネージャーの下で働く当事者として知ることができたのが一番良かったです。また実際に研究として再現できたり使いやすいコードを書く能力やデバッグスキルについても上がりつつある（気がする）と思います。
大学入学後一番心を折られたのが「セキュリティキャンプ全国大会2023」への参加でした。この合宿は、全国のサイバーセキュリティに興味がある若者を育成するために情報処理推進機構が進めている事業の一つであり、技術と倫理に関する教育を４泊５日で受けられるものです。普段何気なく使用しているコンピュータについてちゃんと詳しくなろう、ということで応募しました。CTF(セキュリティスキルを競うコンテスト)をやったりなどのセキュリティ経験が一切ない状態での参加だったこともあり、非常にコテンパンにされました。作ったシステムが脆弱かどうかの前に、そもそも自分がいかに適当にアルゴリズムを認知していたか、いかに適当にコードを書きそれらを管理して（いなかっ）たかを思い知らされ反省しました。このあたりから個人開発でオレオレコードを書いてばかりいた自分が、システム設計に対して気を使い始めるようになりました。ただ同時に、カリキュラムも参加者も先生も非常に刺激的で楽しめたので、それも含めてこちらも参加できてよかったです。

そして大学入学後もう一つ取り組んできたことが、産総研での技術研修です。

産総研技術研修での取り組み

どのようなことをしているのか（概要）

達人のメンターである片岡さんのご厚意で、cvpaper.challengeのVision & Languageチームに所属させてもらい自分の興味のあるテーマで研究を行っています。今まで画像を扱ったことがありませんでしたし、当時はLLMの定量的推論能力(四則演算など)に興味があったので、チームに入ったときは言語モーダルのみでの研究をしようと考えていました。ただ複雑な計算問題でもCode InterpreterなどのTool-useで解けてしまうようになったり、ChatGPTのような高性能なモデルが広く普及したりなど状況が変化し、またVision & Languageチームのミーティングに参加したりQiuさんに紹介していただいた論文などを読んでいくうちに、マルチモーダル特有の難しさのようなものをだんだん感じるようになりました。データセットの入手難易度や因果推論、記号的・定量的推論などより高度なタスクの性能において、言語モデルでの状況との間にギャップがあるのではないかと考えているうちに、いつの間にかビジョンも取り扱うようになっていました。Qiuさんや片岡さんを始めとするcvpaper.challengeの支援のおかげで知識をインプットし続けることができ、言語だけにこだわらないより幅広い視野を持つことができました。
まだ研究成果を公開できていないので詳細は控えますが、Vision Language Model(以下、VLM)の空間認知能力と記号推論等Tool-useに着目した内容での研究を行っています。深層学習モデルの大規模化が進むにあたって、ファインチューニングなどモデル本体に手を加える実験ができる環境に対するありがたみを感じる機会が増えました。また、SSII(2023)などで研究課題について発表したりすることで時々他の人から意見をもらうことも行ってきました。

どうしてCVPRに出そうと思ったのか

当初はtop-tierの国際会議に出そうとはあまり考えていませんでしたが、メンターのQiuさんや片岡さんにトップ国際会議を見据えて研究することを勧められました。ここにはそれを目指すのに十分な環境があって、難しくも新しい挑戦を始められるということに、最初達人へ応募した時の思いと近い気持ちを抱きました。今回は提出できなかったものの、今年度中までに別の国際会議、あるいは国内外のジャーナルに投稿しようと思います。

どうしてCVPRに間に合わなかったのか

端的に書くと、実験に必要な技術力が足りませんでした。Tool-useの性能をふんだんに発揮できるような大規模なVLMの学習・推論を実現するためには複数ノードでの分散処理や画像モーダルの処理の追加などが今のところ必要とされています。近年はHuggingfaceやdeepspeedなど各種ライブラリのおかげで、マルチモーダルや分散学習に対する敷居は下がっており一部は最低限動く処理ができたのですが、それでもそもそものバックエンドがわかっていないので期日までにうまく要素技術を組み合わせることができませんでした。「学部生なのでまだ仕方がない」とこの前片岡さんになだめられてしまいましたが、貴重な研究環境や人的サポートを受けている身として学部生という身分に甘んじず最後まであきらめないで実験を完成させようと思います。

背伸びしすぎているのではないか？

大学入学後はもともと一番興味のあった自然言語処理に限らず、さまざまなことに対して手を出しすぎており、背伸びしすぎている感覚も否めません。ChatGPTをはじめとして高度なAI技術が一般的に認知されるようになってから正直焦りも感じていて、要素要素の理論的理解も実装能力も不十分なのに新しいことに手を出してしまった経験もかなり多いなと感じています。こうしたご時世だからこそ、一度どれかを選んでじっくり思索する時間を設けたいというのは今の自分の願望です。cvpaper.challengeでの活動はその没頭をしてみるための良い機会であると考えています。LLMの発達・普及によってAI研究はかなりレッドオーシャンな領域になりつつありますが、卒業するまでは自分のできることをできるだけやってあがいてみようと思います。

今後cvpaper.challengeとしてどのようなことをしたいか？

まずは今進めているVision & Languageで、学部生のうちにトップ国際会議に出せるような研究を上げたいです。また産総研にはABCIを始めとした数多くの豪華な実験設備があるので、将来的には産総研/cvpaper.challengeの特色あるリソースでしか実現できない研究ができればと考えています。

まとめ

後半はただの反省文になってしまいましたが、改めて次世代科学技術チャレンジ「情報科学の達人」5期生の応募締め切りは1月22日です！！
ぜひ応募してください！！！

この記事が気に入ったらサポートをしてみませんか？