見出し画像

新しいアイデアが広がる要因は?(論文紹介)

科学の発展のために、大規模な政府機関や研究所は何十億円という大規模のお金を注ぎ込み、様々な分野で重要な進歩を生み出しています。開発された基礎技術は、実際の社会政策や社会応用に適用されるために、基礎技術を拡張や変形をおこなうことで実際の応用に適用することを目指すのです。これは、いわゆる基礎科学の発見をより迅速かつ効率的に実用化を目的とした「Translational research」と呼ばれる試みです。この試みが効果的に行われるための要因は何なのだろうか?自然言語処理の国際会議であるEMNLP Findingsに採択された"Will This Idea Spread Beyond Academia? Understanding Knowledge Transfer of Scientific Concepts across Text Corpora."では、科学論文と特許のテキストデータを用いて、この問いに答えようと試みています。

彼らは、「研究論文で出現したコンセプトの特許や臨床試験への転移」に着目しました。Web of Science(WoS)に登録された3,860万件の学術論文のタイトルと抄録、そして約470万件の特許文章 (United States Patent and Trademark Office)、約28万の臨床文章、これらからキーフレーズ抽出 (AutoPhrase)を用いて、それぞれの文章からコンセプトを抽出しました。取得したコンセプトのうち、科学論文で登場し特許に以降したコンセプト(Internetやworld wide webなどが含まれる)は全体の約2.7%、同様に科学論文から臨床文章に以降したのは全体の約11.3%程度でした。ちなみに、コンセプトの数は初期に一気に新概念が登場し、1995年頃に急速に減衰するという傾向がみられました(下図左)。

移行しやすいコンセプトの特徴

特許や臨床文章へと移行したコンセプトとしなかったコンセプトにはどのような違いがあるのだろうか?著者は4つの観点でこの2つの違いを特徴づけています。

  • 利用頻度: 移行したコンセプトは移行されなかったコンセプトと比較して、利用頻度が高く、同じ著者によって何度も繰り返し利用されている。

  • Bridge Positioning: 一般的にコンセプトは、分野の境界や技術的な発明に特に関連する分野で提案されると、移行がされやすくなるという研究があります。実際、移行したコンセプトは、用いられる分野の多様性が高く、機械工学分野で提案されたコンセプトは特に移行しやすかったのです。

  • 文脈: 移行されやすいコンセプトがテキストに現れる文脈に違いはあるのだろうか?感情分析 (LIWC / Dale Chall metric)によって、移行されやすいコンセプトは感情的な文脈やポジティブな文脈で使われやすいことが示されました。

  • 技術的共鳴: 移行されやすいコンセプトかどうかはコンセプトが利用される環境にも依存することが想定されます。実際、移行したコンセプトの出現率が高いジャーナルで出現するコンセプトは移行しやすく、また、多くの業界関係者が著者に含まれている場合もコンセプトが移行しやすことがわかったのです。

コンセプト同士のグラフ。オレンジが移行したコンセプト、青色が移行していないコンセプトを表している。Internetが移行することで、近隣のコンセプト (html, world wide webなど)が移行が進んでいく様子を表している。

これらの分析から著者は、コンセプトの転移は偶然に起こるものではなく、①個々のコンセプトが時間の経過に伴って生じる特性と、②他のコンセプトとの相対的な位置関係、に大きく依存すると結論づけています。

このような分析を補強する形で、著者らは、これらの特徴を用いて将来のコンセプトの転移が予測可能かどうかを、一般化線形混合モデル (Feature-based) や深層学習モデル (LSTMなど)で検証しています。実際に、これらの特徴を用いることで予測は上手くいき、Feature Importance分析などによって、著者がそのコンセプトを繰り返し使ってるかどうかが特に重要であることなどを示したのです。

Feature Importance分析の結果

このような研究は、私達が実社会に影響を与えるコンセプトの効果的な提案に役に立ちそうです。

Cao, H., Cheng, M., Cen, Z., McFarland, D., & Ren, X. (2020, November). Will This Idea Spread Beyond Academia? Understanding Knowledge Transfer of Scientific Concepts across Text Corpora. In Findings of the Association for Computational Linguistics: EMNLP 2020 (pp. 1746-1757).
URL: https://aclanthology.org/2020.findings-emnlp.158/


この記事が気に入ったらサポートをしてみませんか?