見出し画像

【GraphRAG プロジェクトを立ち上げます】ナレッジグラフとLLMで「発想力を持つAI」の実現へ

こんにちは。ストックマークのリサーチャーの広田です。今日は私が新しく立ち上げた GraphRAG プロジェクトの仲間を募集するために、GraphRAG プロジェクトについて紹介したいと思います。

広田航 Researcher
大阪大学大学院情報科学研究科を卒業後、米国に渡り Megagon Labs で Conversational AI や entity matching の研究を行う。その後帰国しストックマークに参画。現在はナレッジグラフ構築や LLM を活用した情報抽出の研究を行う。

まず GraphRAG プロジェクトの背景を紹介したいと思います。

ストックマークは「価値創造の仕組みを再発明し人類を前進させる」というミッションを掲げ、「AIと人による新しい価値創造プロセスを発明する」を目指して Research Unit を組成しています。情報の量が急激に増えている現代において、情報収集や新規事業立ち上げというプロセスを AI を前提にして刷新したいという思いを持ったメンバーが集まり、日々研究開発に勤しんでいます。

ストックマークは Anews という情報収集サービスを提供しています。特に製造業のお客様に対し、ニュース・特許・論文・社内情報など幅広い情報が同一プラットフォームで収集できます。

新規事業の立ち上げに挑戦されているお客様との対話を通して、私たちは発想の重要性に気づきました。成功してる新規事業のきっかけを聞くと、「介護ロボットが活躍しているというニュースを見て、これはもしかして自社部品が使えるのでは?と思った」「営業部のメンバーと話していてひらめいた」など、予想もしていなかったところからアイデアが得られたというケースが多く聞かれました。

一方でアイデア創出は職人芸の領域にあることも事実です。筋の良いビジネスアイデアを出すには、自社技術の深い理解はもちろん、世の中のニーズや市場環境などあらゆる分野の知識が必要です。情報の量が急激に増加する現代において、これらを人間が把握しきることは非現実的になっています。

私はここに GraphRAG のポテンシャルを大きく感じており、「世界中の知識を集約したナレッジグラフと発想力の高い LLM が融合すれば、今まで思いつかなかった筋の良いアイデアが出せるようになるのではないか?」と考えています。LLM だけでも発想はできますが、LLMの応答から情報源を辿ることは困難であり、情報源をたどることで事実の裏付けを行うビジネスシーンでは不十分です。そのため私はナレッジグラフを使用することで情報源を明確化しつつ LLM の発想力を生かすという分業に注目しています。

GraphRAG による発想の例。膨大なテキストからUDテープやポリアミド樹脂の情報を構造化しておくことで、このような事実に基づいた発想が可能になります。

現在このプロジェクトは本格的なサービス導入を目指しており、複数の企業様と PoC を進めています。日本ガイシ様との取り組みが日本経済新聞でも取り上げられるなど、世間からの注目も高まっています。

GraphRAG というフロンティア

今年4月に Microsoft から出た論文を皮切りに、GraphRAG は急速に注目を浴びています。ナレッジグラフそのものはこれまでも様々な研究がされてきましたが、LLM や RAG の台頭にともない再びその価値が見直されています。

一方で GraphRAG はまだまだ世界的にも未開拓な分野です。そもそも巨大なナレッジグラフをどう作るのか?名寄せはどうするのか?どうやって検索するのか?ナレッジグラフのデータをどう LLM に入力するのか?等、検証すべき項目はたくさんあります。現在は 東北大学自然言語処理研究グループ との共同研究を通してこうしたトピックの研究開発を行っています。

なぜストックマークが自然言語処理研究者にとって理想的な環境なのか?

ストックマークは自然言語処理の研究を行う上で理想的な環境です。以下にいくつか私がいいなと思う点を挙げます。

幅広い分野のタレント ストックマークの Research Unit は LLM や図表理解、情報抽出など様々な専門性を持つリサーチャーが在籍してます。またエンジニア PdM も自然言語処理の深い理解を持つ方が多く、日々充実した議論が交わされています。週に一度の勉強会など、専門性を高めるための環境も充実しています。

積極的な対外発表 ストックマークで、研究成果を積極的に公開する文化があります。Stockmark 100B LLM の発表をはじめ、論文や学会発表などを通じて、優秀な研究者を巻き込む環境作りを進めています。

豊富な言語資源 ストックマークには OpenData Unit というクローリングのためのエンジニア組織があり、ニュースや特許、論文、社内情報など毎日数万オーダーの情報がデータベースに蓄積されています。このような大規模コーパスを用いて自然言語処理の研究ができるのもストックマークの大きな魅力です。

プロジェクトにかける思い

私が情報科学の道を志したきっかけは、小学生の時に出会った「世界中の情報を整理し、世界中の人々がアクセスして使えるようにする」という Google のミッションでした。人類がこれまで生み出してきた膨大なデータを上手く使えば何か凄いことが起きるかもしれない、と感銘をうけたことを今でも覚えています。ストックマークに入社したのも、情報収集を再変革するという挑戦に惹かれたことがきっかけでした。

GraphRAG はこの私の原点に根ざしたチャレンジでもあります。世の中の情報を巨大なナレッジグラフとして整理し、それを LLM とかけあわせることで、事実に根ざした・深い・筋の良い発想ができる AI を実現できると考えています。

現在プロジェクトを一緒に進める仲間を募集中ですので、この話に興味を持っていただいた方はぜひこちらのリンクからカジュアル面談・採用に申し込んでみてください!
2024-10-28追記: ありがたいことに多数の応募をいただき、一旦採用枠をクローズしました。カジュアル面談は随時募集中ですので、興味のある方はぜひお申し込みください!

https://www.wantedly.com/projects/600937

最後まで読んでいただきありがとうございました。