見出し画像

研究データベースのviewとしての論文

私は、個人で研究の自動化を目指して活動・機械学習の研究をしているTakagiといいます。最近「論文を研究データベースの一つのviewとして扱えるようにしていけるといいんじゃないか?」と思ったので、この記事ではその考えを簡単に紹介していきます。また「とりあえずnotionで研究過程をデータベース化してみてはどうか?」ということも書いたので、興味があれば是非読んでみてください。

データベースについてそんなに詳しいわけでも研究に長年従事しているわけでもないので、勘違いしているところなどあると思います。もし見つけてく
ださった場合には是非ご指摘いただけると嬉しいです。

論文を研究データベースのviewとして扱えるようになると良いのでは?

論文はあくまで研究成果の一つの表示形式

論文は紙での出版に最適化された研究成果の表示形式です。これは必ずしも現在の社会の様態を反映した上での最適な表示形式ではないと思っています。ある論文からどのような情報を得たいかはそれを読む人、時代、背景などなどによって異なります。もっと言えば、同じ人が読む場合でも、サーベイの時に読むのか、実験計画の時に読むのかなどで、そこから何を得たいかが変わってきます。さらには、一言に「研究」と言っても文学から物理学までおそらく最適な成果の表示形式は異なってくるはずですが、現在はいずれも論文という同一の形式で表現されます。このように、現在は複数の異なる需要に対して論文という単一の表示形式が対応している状態になっています。

論文をviewとして扱うとは

このような課題を解決するためには、論文を研究データベースのviewとして扱っていけるようにしていけると良いのではないか、と私は考えています。研究過程で出てきたありとあらゆる情報を全てリレーショナルデータベースに保存し、それらの表示形式をユーザーが変更するイメージです。notionを使ったことがある方はデータベースを「table view」や 「time line」に切り替えるのをイメージしていただければわかりやすいかと思います。

Databaseの一つのviewとしての論文

上では「論文をviewとして扱う」と書きましたが、viewは論文という形式以外でももちろん構いません。例えば、データベースの保存データを時系列順に並べれば、研究の全過程を再現できるかもしれませんし、複数の実験が行われてそれらを跨いだ解釈がなされている場合は論理展開をより直感的に追うような形式にすると良いかもしれません。

論理展開を可視化すれば複雑な関係性の理解に役立つ可能性がある

研究過程をデータベースに保存し、そのviewを第三者が各々の目的に合わせて操作できるようしていくといいのではないか?というのが提案です。

論文をviewとして扱っていけるようにすることのメリット

これにはいくつかのメリットがあります。一つ目のメリットは、単一の表示形式に複数の機能を求めなくて済むことです。

現在の論文は一つの論文という表示形式が複数の機能を要請されていると考えています。まず、論文は「報告書」です。したがって、想定する読者に、必要な情報を、効率的に伝えることが要請されます。次に、論文は他の研究の引用対象としての「ストック型の情報」です。そのため、結果を再現できるだけの網羅的な情報が厳密に記されていることが要請されます。そして最後に、論文は(望ましいかは別として)「応募作品」としての役割も期待されています。トップジャーナルの査読を通るため、より魅力的に見えるように書く圧力がかかってしまっているのが現状だと認識しています。

これらの要請が互いに対立しうることは想像に難くないと思います。このような複雑な要請のせいで、論文は特別なtechnical writingの技法を必要としているのではないかと考えています。少なくとも私は論文の構造を理解するのには複数の論文を読み込んだり他の人の資料や本で勉強しなければいけないという意味でとても大変でした(今でもできているか怪しい)。同じような思いをされた方は少なくないと思います。

データベースのviewとして扱えるようになれば、これらを「報告書view」や「ストックview」といった形で機能分離できるかもしれません。あるいは、より研究の目的に適した構造化されたviewを採用できるかもしれません。そうなれば、目的に応じた表示形式に切り替えることで、論文からの情報取得コストがより低くなることが期待できます。これによって、研究が効率的に行えたり、見習い研究者の論文の質の制御が容易になるかもしれません。

目的に適した構造化されたviewに切り替えられるかもしれない

二つ目のメリットは、生のデータが保存されていることを要請する圧力が高まる可能性が生まれることです。これまでは論文という形式にするために著者が共有する情報を取捨選択しなければなりませんでした。しかし、ユーザーがviewを操作できると、表示形式を変更することで情報を絞れば良くなります。そうするとむしろ、できるだけ生データに近い情報を保存しておくことがより自然な要請になっていくと思います。これは学術成果の再現性を担保していく上で重要なことだと思っています。

三つ目のメリットは、著者が気づかなかったような発見を第三者ができる可能性が上がることです。表示形式を自由に変更できるということは、研究過程の一つ一つの健全性のチェックを第三者がより容易に行うことができうるということです。また、著者がアーチファクトとして落としたものに対して異なるviewを採用することで、実はそれが重要な発見だったとわかることがありうるかもしれません。このように、viewとデータを切り分けることで第三者が研究過程の生産物の解釈に介入できる余地を生むというのは、大きなメリットなのではないかと考えています。

四つ目のメリットは、緩やかに表示形式の移行を行えるということです。上述したように、私は論文という表示形式は必ずしも最適ではないと考えています。したがって、新しい表示形式を採用していくのが好ましいと思っています。しかし、もし論文という形式を捨てて全く新しい表示形式を採用しようとすると、破壊的な変更となってしまいます。そうなると少なくともこれまで論文という形式に慣れた人にとっての参入障壁が跳ね上がってしまいます。何よりも、過去の論文という形式で出版されたものを全てそのデータの形に変更しなければならなくなります。これはあまり現実的ではないように思われます。

論文という表示形式を、複数あるviewの一つとして位置付ければ、論文という表示形式を捨てなくて良くなります。最終的にどの表示形式が支配的になるかは世代を追って決まっていけばいいだけです。また、既存の論文という形式に慣れた人も補助的な表示形式として新しい形式を使えばいいだけなので気軽に参入できます。その意味で、論文を含めた複数の表示形式を同時に採用することは、緩やかに新しい表示形式へと移行することを可能にするのではないかと考えています。これは、表示形式の移行を進めていく上で現実的な選択肢なのではないかと考えています。

とりあえずnotionで研究過程をデータベース化してみてはどうか?

Viewを前提としたデータベースを作るには試行錯誤が大事

Viewを表示する機能を実装する前提として、「全研究過程をデータベースに保存すること」と「研究過程の各作業にラベルづけすること」が必要になってきます。これが浸透していくのはそんなに簡単ではないと思っています。

先ほどは「第三者が自由にviewを操作できる」と書きましたが、実際これをやるには欲しいviewを表示できるだけのラベルが各データに紐づいている必要があります。「どのようなラベルをつけるべきか?」は難しい問いで、これに答えるには「研究とは何か」「研究の成果物に対してどのような操作を行いたいか」といった問いに対する解像度を深める必要があります。

解像度を深める上では当然頭でも考えますが、現場での実践の繰り返しもとても重要だと考えています。実際に使うことでしか見えてこないものもあると思っているからです。実際に試行錯誤するにおいて、本格的な環境がある方はがっつりデータベースを使ってやっていくのが良いかもしれません。しかし、個人で色々試行錯誤してみる分にはまずnotionでやってみるのもアリなのではないかなと個人的には思っています。

私のnotionでの研究情報管理

私も最近、研究時に発生した全ての情報やメモをnotionのデータベースに保存するようにしました。研究に関連するものであればなんでも「ResearchData」というデータベースに投げ込んでいます。

ResearchDataというデータベースに研究で発生した情報を全部入れています

現在の私のデータベースのラベルは、「プロジェクト名」「研究過程内での分類」「pageのタイプ」の3つを付与しています。「プロジェクト名」はそのままですが、「pageのタイプ」はそのページが文書としてどういう機能を持つかで分類しています。具体的には「仮説」「計画」「検証」「成果物」「情報」で便宜的に分類しています。ここでいう「仮説」や「検証」は研究のそれではなく日常的な意味で使っています。

「研究過程内での分類」としては、大雑把に、 「トピックの決定」「イシューの決定」「仮説の発見」「検証計画」「実験」「分析」「執筆」「査読」「共有」で分類しています。ちなみに私は、まずアウトラインを書き、研究の進行に合わせて論文を執筆するようにしています。なので、執筆カテゴリーには本当に執筆にユニークなことのみを書いてます。

研究関連の情報は全てnotionのデータベースとして管理しています

これは、以前自分なりに整理した研究過程の分類に準拠したものです。ただし、これは暫定的なラベルづけで、この記事執筆時で既に別のラベルづけが良いかもと思っています。また、本当はもっと細かいラベルづけをしていきたいなとも考えています。少なくとも今の段階のラベルでは意味のあるviewにつながるような情報を提供できる段階にはまだまだ至っていません。ただ、こうして実際にできるところからラベルづけをする仮説検証を繰り返していくことが大事かなと思っています。そうすることで、より実践に即した研究過程の構造化ができていくのではないかと考えています。

以前整理した研究過程の分類

Notion APIの紹介

Notion自体では自分独自のviewを作ることはできません。しかし、notionは今年の3月から正式にAPIを提供しているらしいので、APIを使ってデータベースの読み取りができます。したがって、自分でいい感じに表示するコードを書けば、notionのデータベースからデータベースの操作ができます。いい感じのものができたよ、という人がいたらぜひ教えてください。私も時間を作ってどこかで遊んでみたいと思います。

また、notionはGitHubとの連携もできるようになっていたらしいです。GitHubのPRとIssueの読み込みをすることができるらしいので、以前紹介したような、PRを介した研究へのcontributionもnotionのデータベースに反映することができるようになるかもしれません。今後APIとGitHubとの連携はもっと強化されていくと思われるので、そうなるとより扱いやすくなっていく可能性もあります。

終わりに

今回は「論文を研究データベースの一つのviewとして表現できると良さそうでは?」という考えと「とりあえずnotionでデータベース化してみては?」という考えを書きました。

「全研究過程をデータベースに保存すること」はGitHubでの研究管理にもつながる話です。まずはこれをいかにしてやっていくかについての知見が積み上がっていくのが重要だと思っています。私個人でもやっていきますし、他にもやっている方がいたら是非伺いたいです。ですので「研究ノートをnotionでとってるよ」という方がいらっしゃったら、ぜひどんな感じでノートとっているかなどご知見提供していただけると嬉しいです。

また、notionのAPIでいい感じのviewを提供できるようになれば、研究データをnotionのデータベースで管理する人が増えてくれるかもしれないと少し期待しています。そうすると、よりよいラベルづけ/構造化の知見がより溜まっていくんじゃないかなとも思っています。ですので、是非是非みんなでいい感じのviewを表示する機能を実装していけると嬉しいなと考えています。

繰り返しになりますが「研究過程の各作業にラベルづけすること」には、研究過程の構造化やviewとして欲しい分類の具体化が必要になってきます。研究過程の構造化は私が関心のある研究の自動化にとっても重要な論点です。ですので、もしこういう構造化がいいんじゃないかな?というアイデアがある方がいらっしゃいましたら、是非ご共有していただけると嬉しいです。私が考える構造化についても、また別途記事を書きたいと思います。

最後に、私は研究の自動化/研究の最適化を一緒に進めていく人を探しています。この記事で書いたような研究の新しい表示形式や保存形式を考えていくことは、研究の最適化を目指していく上でも重要なことだと思っています。もし興味を持ってくださった方がいらっしゃいましたら、ぜひご連絡いただけると嬉しいです。一緒に研究の自動化を進めていきましょう。

twitter: @takagi_shiro
gmail: takagi4646@gmail.com
webpage: Shiro Takagi


この記事が気に入ったらサポートをしてみませんか?