Starrydataプロジェクトとの共同研究

2022年3月17日 21:16

Materials Informatics(MI)はデータ科学を活用して新材料を開発するという新しい研究分野です。そんな中、私達のStarrydataプロジェクトに関心を持っていただき、共同研究を申し込んでくださる企業様やアカデミアの研究者様が多くいらっしゃいます。
そこで、Starrydataのプロジェクトリーダーである桂ゆかりや私達Starrydataチームが、どのような活動をしていて、どのようなコラボレーションができるかについてまとめてみました。

Starrydataプロジェクトについて

目的

Starrydataでは、無機材料科学の論文に掲載された実験データのグラフから、元の数値データをデジタル形式で抽出することで、オープンデータベース（無料データベース）を作っています。これにより、過去の研究者たちが集めた膨大な実験データを、再利用して研究に生かすことができます。
データベースがあることで、研究分野全体の実験データを一望して材料科学の世界を俯瞰することができます。また、機械学習などの最新のAI技術の活用によって新しい材料科学を切り拓くこともできます。

チーム体制

Starrydataプロジェクトは、2015年に桂ゆかり（当時：東京大学助教）が発案し、熊谷将也氏（当時：大阪大学博士課程２年）と2人で始めた、草の根の研究プロジェクトです。
少しずつメンバーを増やしていき、2022年3月現在、桂が現在所属しているNIMSなどを拠点として、Webエンジニア1名とデータ収集者6名、マネジメント担当者1名の10名体制で活動しています。
世界中のデータをデータベース化するにはもっと大きなチームが必要なので、このチームは、これからもっと大きくしていきます。海外の大型AIプロジェクトのように数百人、数千人のデータ収集者を雇用することは難しいですが、少なくとも数十名体制のチームを作りたいと思っています。

活動資金

Starrydataのデータ収集活動に必要なのは、チームのWebエンジニアやデータ収集者、マネジメント担当者に支払う給与です。もし研究費が途切れてしまうと、せっかく技術を身に着けたデータ収集者さんが、チームを去らなければいけなくなってしまいます。そしてこれからチームが大きくなるほど、必要な費用が増えていきます。
このための活動資金は、研究機関の研究費や国の競争的研究資金、民間の競争的研究資金、それから企業様との共同研究（４社）によって支えられてきました。単年度で終わってしまう研究費も多いため、Starrydataを活用した新しい共同研究プロジェクトを毎年積極的に受け入れております。

共同研究の形態

企業との共同研究

MIを行うための大規模実験データがほしい企業様と、共同研究を行っています。初めに申請内容を伺い、Starrydataによる論文データ収集が貢献できそうなプロジェクトであるか判断します。もし本質的な形で貢献できそうであれば、NIMSで共同研究契約を締結します。いただいた研究費（人件費）でデータ収集者を雇用して、そのデータ収集者が論文から実験データを収集して、Starrydata webシステムにオープンデータとしてアップロードします。これは学術的なオープンデータなので、１企業で独占することはできませんが、欲しいデータが手に入ること、データ収集対象やデータフォーマットの策定に関われること、競合他社に先駆けてMI技術を磨けることが共同研究のメリットだとお考えください。

アカデミア研究者との共同研究

大型研究費の申請にあたってMIを始めたい研究者様と、共同研究をしております。初めに申請内容を伺い、Starrydataによる論文データ収集が貢献できそうなプロジェクトであるか判断します。本質的な形で貢献できそうであれば、研究分担者として桂が申請書に名を連ね、担当部分の申請書を部分執筆します。
研究費が採択された場合には、人件費をいただいてデータ収集者やマネジメント担当者を雇用します。この研究の過程で集めたデータはStarrydataにオープンデータとして収録され、他の研究参加者も自由に使うことができます。本格的なデータ科学研究も私達が行う場合は、ポスドクまたはエンジニアの人件費も配分していただくか、熱意のある学生さんをご紹介していただくのが確実です。
なお、もし最初の申請で不採択となった場合は、再申請のメンバーからは辞退させていただきますので、ご了承よろしくお願いします。

よくある質問

Q1. 共同研究費の目安は？

A1. データ収集者をつける場合は、最低でも数百万円が必要になります。
データ収集者の人件費（数百万円）と、NIMSへ支払う間接経費(30％)が必要になります。データ収集者は１名でも無理ではないですが、２名以上いた方がお互いに情報交換できて効率的に仕事を進められます。また当然ですが、チーム人数が多いほど早くデータ収集が進みます。
１年以内の短期契約の場合は派遣職員を雇用します。数年間の長期契約の場合はNIMSでの直接雇用にすることで人件費を節約できます。
桂を含むNIMSの研究者がデータ解析を行う場合は、研究者の稼働時間から計算した研究費を追加でいただきます。この研究費はマネジメント担当者の人件費として使用させていただくことで、担当する研究者の研究以外の業務のサポートとさせていただきます。
より本格的なMI研究や新しいWebシステム開発を依頼したい場合は、専属のポスドク研究員やWebエンジニアを雇用する人件費も含めてください。

Q2. 論文データ収集をStarrydataチームに依頼するメリットは？

A2. MI用の大規模論文データを安価に入手できることです。
Starrydataは、営利目的ではなく学術的な目的のオープンデータベースプロジェクトです。人件費のサポートは必要ですが、集めたデータは世界の研究者のために公開するため、データ元の論文を購入するための費用を個別の企業が支払う必要はありません。図表キャプションの直接検索によるデータ収集対象論文の選定など、５年間の論文データ収集経験から得た効率的なデータ収集ノウハウも有しています。

Q3. 自動データ収集の方が安く上がるのでは？

A3. 自動データ収集の方が高くつきます。

「人手による論文データ収集にそんなにお金がかかるなら、AIで自動化した方が安そうだ」と考える方も多いと思います。しかし、それは余計にお金のかかってしまう方法だと考えています。
まず、現在の自動データ収集技術は発展途上で間違いが多いです。近年の自動翻訳AIの活躍を見て、自動データ収集技術にも高い性能を期待してしまう方が多いのですが、翻訳と意味理解は別技術であり、意味理解については残念ながら実用レベルに達しておりません。間違いが多いと、そのままでは研究に使えないので、専門知識を持った人が論文を読んでデータを確認することが必要になります。つまり、結局人手が必要になるのです。
次に、自動データ収集システムの開発に膨大な人件費がかかります。開発には高いスキルを持つエンジニアが必要ですので、数千万円の人件費または委託費が必要となります。複数年の開発期間も必要なうえに、そのシステムが成功するかどうかも未知数なので、その期間に手でコツコツデータを集めた方が確実だというのが桂の考えです。
さらに、論文PDFを一括取得する追加費用が必要です。研究機関では論文PDFの一括ダウンロードが禁じられているためです。NIMSで一括購入している論文XMLファイルは、テキスト・データマイニング用に集合的に利用することはできますが、個別の論文から直接データを取り出してデータベースを作成することは許されていません。論文を一括購入するには、１本あたり3000円〜5000円という高額な費用も取られてしまうので、人件費以外の出費が多くなってしまいます。

Q4. 論文データを自社で独占使用できますか？

A4. お断りさせていただいております。

共同研究で集めた論文データを自社で独占したいというのは、企業との共同研究で非常によく聞かれる質問です。
確かに、お金を出していない競合他社にデータを使われてしまうのは困るという考えは理解できます。けれども研究機関で無料で読める論文は、研究目的での利用が前提なので、営利目的の利用に独占的に提供してしまうと、ライセンス契約違反となる恐れがあります。
Starrydataチームとしては、１企業のみしかアクセスできないデータは作りたくありません。それは、その企業でプロジェクトが終了して、そのデータが使われなくなった際に、データ収集者の膨大な努力がお蔵入りしてしまうからです。また、今後別の研究チームがその論文のデータを使いたくなった際に、もう一度同じデータを集め直さないといけなくなるのは大変です。よって、オープンデータ化を了承していただける企業様のみと、共同研究をさせていただいております。
オープンデータにすることは、企業のご担当者にも大きなメリットがあります。公知のデータであるにもかかわらず、安易な理由で社外秘データにしてしまうと、外部の人にデータを見せるたびに社内で許可を取らないといけなくなります。外部のデータ科学者に相談したり、学会発表や論文執筆に使うたびにデータ持ち出し許可を得るのは大変だと思います。それならば研究開始時にオープンデータとして会社から許可を得ておいたほうが、以後の研究開発がスムーズになります。
Starrydataの論文データはMI用の外部公開可能なサンプルデータとして扱うことで、MIプログラムの研究開発にお役立てください。そして高性能なMIプログラムが完成したら、社内に蓄積されてきた膨大な社外秘実験データをStarrydataと同じデータフォーマットでまとめることで、そのMIプログラムを適用してください。これによって他社にはない独自のMIプログラムが完成し、材料開発に役立てることができます。

Q6. 無償で共同研究はできますか？

A6. データ利用だけなら共同研究は不要です。また、自分で手を動かしていただける方のいらっしゃる共同研究であれば無償でできます。
Starrydataのデータを使用して研究開発を行うだけなら、Starrydataチームへのコンタクトは不要です。成果発表の際に、Starrydataの論文を引用していただくだけで結構です。
Starrydataチームからのアドバイスが欲しい場合も、自分でデータ解析やMIができる方、もしくはインターネットで調べながら自分で学習できる方がいる場合は、共同研究費用は不要です。論文や学会発表の共著者に加えていただけたら幸いです。
Starrydataに新しく論文データを追加する場合も、データ収集者を手配していただけるなら人件費は不要です。ただし、データ収集は片手間では務まらない大変な仕事なので、別業務に従事する社員や学生ではなく、必ず専属のデータ収集者を手配してください。

Q7. 技術指導はできますか？

A7. 初心者向けの講習会を開催することはできます。

機械学習やMIの考え方を知らない初心者の方向けに、直観的な図や事例を盛り込んだ１時間程度のセミナーを行うことはできます。またPythonスクリプトを書いてMIを行うための、自習用の書籍やWebサイト、Web上の無料の学習教材やレビュー論文をまとめて紹介するセミナーを行うこともできます。
これらの講習会は学会やシンポジウムなどの招待講演、もしくは企業様向けの有償セミナーとして開催できます。

Q8. 共同研究の具体的な進め方を教えてください。

新しいデータ収集プロジェクトを始める手順を別記事にまとめる予定ですので、そちらをご参照ください。

この記事が気に入ったらサポートをしてみませんか？