研究評価における定量的指標の責任ある使用に関する指針（日本語訳）

2024年5月12日 08:23

2024年2月に日本科学振興協会（JAAS）が署名した研究評価に関するサンフランシスコ宣言（DORA）では、個別の研究者や研究内容の評価において雑誌ベースの数量的指標を用いないことを求めており、特にインパクトファクターが誤用されている科学界の現状について指摘しています。

一方、数量的指標には、インパクトファクターだけでなく、h-index、Altmetricsといった他の指標も知られています。DORA事務局は、2024年5月6日（4月16日）に、このようなインパクトファクター以外の定量的評価指標を含めた数値的評価についての潜在的な問題を検証した文書を公開しました。

本note記事は、DORA Research Assessment Metrics Task Force によって作成された「Guidance on the responsible use of quantitative indicators in research assessment（研究評価における定量的指標の責任ある使用に関する指針）」のJAAS有志による日本語訳の試みです。理解を助けるために、原文を少し意訳した箇所もありますが、インパクトファクター以外の数量的指標についての理解につながれば幸甚です。

JAAS理事　山形方人

本コンテンツはクリエイティブ・コモンズ表示・継承ライセンスの下で利用可能です(CC BY-SA 4.0)。元資料（英文）を次のように引用してください。
Guidance on the responsible use of quantitative indicators in research assessment http://doi.org/10.5281/zenodo.10979644

研究評価における定量的指標の責任ある使用に関するガイダンス

はじめに

研究評価は重要かつ難しい課題であり、多くの研究機関がその複雑さに本気に取り組んでいます。それにもかかわらず、客観性のものさしを提供すると思われがちな定量的指標（またはメトリクス）に頼る傾向が依然として広く残っています。指標は、ビブリオメトリクスやサイエントロメトリクスの分野では非常に有効ですが（例えば、異なるサブフィールドの成長や衰退を追跡する）、本質的に還元的であるため（複雑なことを、単純化された数値に還元してしまう）、個々の研究者や研究プロジェクトの評価に使用するには、慎重な文脈の設定が必要になります。

「研究評価に関するサンフランシスコ宣言（DORA）」は、研究評価におけるジャーナル・インパクトファクター（JIF）の誤用に批判的であることでよく知られています。そのため、DORAはしばしば他の指標についての見解について問い合わせがあります。そこでこの小文は、DORAの基本原則が、研究や研究者の評価に用いられることのある他の定量的指標にどのように適用されるかを説明することを目的としています。「DORA」をよく読むと、以下のような5つのシンプルな原則に基づいた定量的情報の活用へのアプローチが見えてきます：

明確にする　研究や研究者の評価に特定の定量的指標を使用する根拠は何ですか? それは十分な証拠に基づいていますか?
透明性を保つ　理想的には、研究評価における定量的指標の使用に関するルールは、研究コミュニティとの対話の中で開発されるべきです。評価対象者がその基準を理解できるように公開する必要があります。また、評価に定量的な情報を使用するアプローチを査読者が十分に認識していることを確認してください。
具体的にする　指標は、評価される人物や研究の質をどの程度反映しているのか。パフォーマンスの大きなばらつきを隠すことになる集計指標（例：JIF、h-インデックス）や、非常に異なる属性や活動について恣意的に加重されたスコアで構成されていることで意味のある解釈が難しい複合的な指標（例：大学リーグテーブルのスコア、オルトメトリクス）に留意しなくてはなりません。
状況に応じた対応をする　どのような指標にも内在する代理的・還元的な性質をどのように考慮するのか。(例えば、被引用数は質についての直接的なものさしではなく、h-インデックスは年齢、専門分野、キャリアの中断を考慮していません）。
公平にする　定量的指標に内在するバイアスをどのように回避するのか？書誌学的な指標は「客観的」であると思われがちですが、論文を出版するか、引用するかという決定は、構造的で個人的なバイアスを反映しうる選択です。意思決定者は、研究評価におけるこうしたバイアスの影響を軽減する努力において、積極的かつ透明である必要があります。同様なことは評価の定性的側面にも当然当てはまります。

📍ジャーナル・インパクトファクター (およびその他のジャーナルの評価指標)

Journal Impact Factor (JIF) は、基本的に、過去2年間の特定のジャーナルの論文の年間平均被引用数として定義できる指標です。 (実際の計算はこれよりも不透明です。)

JIFに対する批判は、DORA宣言や別の箇所である程度詳細に述べられています。研究評価で大切なことは、JIFが個々の論文の価値や質を示すものであるという主張は、証拠を精査しても支持されていないことです。JIFは、特定のジャーナルに掲載された論文の「平均的な被引用実績」とでも呼ぶべき指標ですが、技術的に多くの欠点があることはさておき、一般的に2～3桁に及ぶ被引用分布のばらつきを示すものではありません。平均の法則に頼って、JIFの高いジャーナルからの論文はJIFの低いジャーナルからの論文よりも優れている可能性が高いと結論づけたくなりますが、JIFは個々の論文の引用実績の予測因子としては不十分であることを示す証拠があります。さらに、JIFの高いジャーナルでは査読の質が高いとよく言われますが、それを裏付ける的確な証拠はありません。

したがって、個々の出版物やその著者を判断するときは、注意深く観察する必要があります。論文の個々の被引用パフォーマンスからある程度の洞察は得ることができますが、文脈に応じて配慮する必要があります。つまり、履歴書に記載されている著者の特定の貢献を知ることと同様に、内容の評価も重要です。ナラティブCV は、このより定性的な情報を簡潔で比較可能な形式で入手するための便利なツールとして登場してきています。JIFの使用に関してここで述べた注意点は、他のジャーナルベースの指標、例えば、Citescore、Eigenfactor Score、Source Normalized Impact per Paper（SNIP）などにも同じように当てはまります。

📍被引用

論文の被引用数は、その論文が他の論文や書籍の参考文献リストに含まれている回数として定義されます。一見すると、研究者の評価に論文の被引用を使用することは、ジャーナルのインパクトファクターなどのジャーナルベースの指標よりも改善されているようには見えます。被引用によって、個々の研究論文に関連した解像度のある情報が提供されるからです。しかし、他の定量的指標と同様に、被引用は研究者の業績について限定的な視点を提供するものに過ぎません。

被引用パフォーマンスは遅行指標であり、堅牢な意味ある情報になるまでには時間がかかり、多くの場合何年もかかります。したがって、最近の学問を評価したり、異なるキャリア段階や異なる分野の研究者を比較したりするのにはあまり適していません。

研究評価において被引用を使用する場合は、他の限界にも留意する必要があります。書誌学者は、被引用が研究論文のインパクトを反映していることを認めてはいますが、これは評価者が実際に判定したいと考えているもの、つまり研究の質と重要性とは大事な点で異なる場合があります。被引用のパターンは著者や雑誌の評判によって偏る可能性があります。たとえば、著者の地位によって被引用バイアスが生じる可能性があり、著名な研究者は、あまり知られていない研究者よりも同様の研究に対してより多くの被引用を集めるというのは、マシュー効果として長い間知られている現象です。同様に、複数のジャーナルに掲載された同一の論説の被引用は、ジャーナル・インパクト・ファクターと相関があります。被引用数は、さまざまな分野の出版物の数の違いにも影響されます。したがって、異なる分野の研究者を比較するために被引用を使用すべきではありません。女性を不利にする被引用パターンの違いも十分に文献化されており、研究者を評価するための被引用を検討するときには配慮する必要があります。さらに、被引用データは論文が肯定的な理由で引用されたのか否定的な理由で引用されたのかを示さないため、追加の裏付け情報がなければ研究の質を示すために使用することはできません。被引用タイピングオントロジー（CiTO）の開発は、将来この問題の解決に役立つ可能性があります。

これらすべての理由から、被引用データは専門家の批判的な判断に代替することができないため、研究者の評価には留意して使用する必要があります。研究結果の利用は、質の高い研究の2つの大切な特徴である厳密性と重要性を意味するため、報告された発見にその後の研究がどの程度影響されているのかを反映する指標は、現在の被引用ベースの指標を大きく改善することになります。

📍h-インデックス（h-index）

個々の著者のh-インデックスは、少なくともh回引用された論文の数として定義されます。たとえば、h-インデックスが10の著者は10本の論文を持っており、各論文には少なくとも10回の被引用が含まれています。

h-インデックスは、研究者を比較したり、長期にわたる研究者の「パフォーマンス」を注視したりするために、機関や個人によって一般的に使用されています。しかし、意味あるものとして解釈することは難しいです。とりわけ、研究者のインパクトについて、一貫性がなく直感とは異なる見解が得られる可能性があるためです。さらに、h-インデックスの値は、それを導出するために使用されるデータベース (Web of Science、Scopus、Google Scholarなど) に依存していて、ゲームによって操作できてしまいます。

還元的な集計指標であるh-インデックスには、責任ある研究評価に含めるべき重要なコンテキスト情報も欠損しています。たとえば、h-インデックスは通常、キャリアの後期段階にある研究者、キャリアを中断していない研究者、または引用率の高い分野（数学や人文科学と比較して医学など) で働いている研究者ほど高くなります。また、各論文に対する著者の貢献の性質も考慮されていません。したがって、学際的で協力的なアプローチにますます依存する分野では、h-インデックスは個人としての貢献ではなく、大規模なチームへの参加を反映している可能性があります。

研究評価におけるh-インデックスは、個人の研究業績についての意味のある洞察をどのように提供するか、また個人の状況（研究年数、キャリアの中断、学術分野など）がどのように考慮されるかを説明できるようにする必要があります。

📍フィールド正規化指標（Field-normalized indicators）

一般的に使用されるフィールド加重被引用影響度 (Field Weighted Citation Impact 、FWCI) や相対被引用率 (Relative Citation Ratio、RCR) などのフィールド正規化被引用指標は、分野、種類、出版物の古さの違いから生じてしまう引用のばらつきを補正する試みです。FWCIは、通常、出版物の集合体について、その集合体に含まれる論文1本あたりの平均被引用数を、同じ分野の同じ種類（例えば、1次的な研究論文）の同じ出版年の論文に期待される平均被引用数で割った平均比率として計算されます。したがって、FWCIは研究業績群の相対的な被引用の実情を示す指標となります。例えば、FWCIが2ということは、その研究が、ある分野の論文に対して期待される被引用数の2倍であることを意味します。

ただし、FWCIなどの指標を使用する場合は、どの論文がどの分野に属するかを定義するのが難しいだけでなく (計算の分母に影響される) 、論文の被引用数に固有のばらつきがあるため（特定ジャーナルに特有の偏った被引用数分布と同じように）、注意が必要です。分析の結果、わずか数十～数百の論文で構成されるデータセットでは、被引用頻度の高い外れ値の影響によって、平均FWCIの信頼性が低くなることがわかってきています。したがって、FWCIは、通常は数千の論文で構成される大規模なデータセット (たとえば、大きな分野のすべての成果物) にのみ適用される必要があります。そして、サンプルサイズの違いに伴う変動は、小数点以下1桁を超えて報告されるべきではないことを意味します。一般的な参考文献の規模では信頼性が低く、時間の経過とともに大きく変動する可能性があるため、個々の研究者を評価するのには適していません。

RCRは論文レベルの指標であり、多くの対象分野にわたってFWCIと強い相関関係があり、その信頼性と研究者の評価への適用については同様の懸念を引き起こしています。

📍オルトメトリクス（Altmetrics）

「オルタナティブメトリクス」という用語を一般化したオルトメトリクスは、研究成果が学術以外の媒体（組織レポートやソーシャルメディアなど）でどれだけの注目を集めているかを把握しようとするものです。この指標スコアで捕捉される活動の種類は、一般の人々との関わり（ツイートや再投稿、FacebookやYouTubeでの言及、新聞報道など）に重点を置いたものから、研究者の関与（特許、出版後の解説など）、研究ハイライトのプラットフォームでの紹介まで、非常に多様です。さらには施策的な文書への組み込みも含まれます。記事、書籍、データセット、プレゼンテーションなどについて計算できるさまざまな種類のオルトメトリック・スコアは、Altmetric、ImpactStory、Plum Analytics、Overtonなどのさまざまな商業プロバイダーから取得できます。

オルトメトリクス情報は、多くの場合、複合的なスコアとして提示されます。これは、研究成果について捕捉されたすべての注目の重み付けされたものさしの表現です（つまり、言及された数の生の合計ではありません）。使用される重み付けは注目されている種類によって異なり、これらのスコアを作成する組織が複合的な数値を作成する最適な方法を定期的に再評価したり、時間の経過とともにさまざまな貢献ソースが追加または削除されたりするため、変更される可能性もあります。オルトメトリック・スコアに含まれる活動の一部、特にソーシャル・メディアに関連した動きはゲーム化される傾向があることに留意することも大切です。

オルトメトリック・スコアはその計算方法が比較的不透明であるため、特定の研究成果への取り組みの種類や目的についてのコンテキストがほとんど提供されることがなく、より広範な研究への影響という観点から解釈するのが困難です。これらは、意味のある意味で研究の質を測るものさしではありません。

ただし、これらのオルトメトリック・スコアに貢献している元の言及と参考文献の詳細が提供される場合、これらは、研究成果の注目度や到達している範囲（例：患者擁護団体の間で生まれた関心）のレベルについて、より具体的な文脈で有用な情報を提供することができます。このような状況では、研究成果をより広範に検討する上での有用な要素となる可能性があるのです。

結論

この小文に記載されている指針は網羅的でも包括的でもありませんが、研究や研究者の評価に他の指標の使用を考慮する場合に、DORAに示されている原則をどのように適用できるかを提示しています。ここに含まれる例は出版物ベースの指標のみですが、他の指標についても同じように扱う必要があります (たとえば、指標ツールキットと指標の目標作成に関連する課題を参照)。たとえば、アイデアについての競争的資金を獲得できる能力は望ましい属性であるため、助成金の収入は研究者評価の際に評価対象とされることがよくありますが、この情報は常に状況に応じて配慮される必要があります。例えば、分野によって（たとえSTEM分野であっても）助成金の要件が著しく異なること、女性やその他の十分に代表されていないグループには依然として偏見があること、最も厳密な助成金決定でさえ不確実性がつきまとい、研究生産性の予測には不十分であることを認識することが重要です。

===============================================

ベストプラクティスは組織コミュニティと共同で研究評価プロセスを構築することです。価値観、成果、行動について合意することから始めることです。アセスメントのベンチマークとなる価値観や行動様式に合意することから始めましょう。そのためにはNORMSのSCOPEフレームワークやDORAのSPACEルーブリックが有用なツールです。

📍SCOPEフレームワーク

研究評価のためのSCOPEフレームワークは、責任ある評価を行うための5段階モデルです。これは、研究管理者や研究評価の実施に関わるすべての人が、新しい評価を計画したり、既存の評価をチェックしたりする際に役立つように設計された、実践的かつ段階的プロセスです。SCOPEは頭字語で、SはSTART with what you value、CはCONTEXT considerations、OはOPTIONS for evaluating、PはPROBE deeply、EはEVALUATE your evaluationを表しています。

https://inorms.net/scope-framework-for-research-evaluation/

📍SPACEルーブリック

組織は、公正で責任ある学業キャリア評価の実施を支援するために、SPACEの評価基準を2つの方法で利用することができます：第一に、新たな学業評価の実践や活動の開発・実施を支援するための教育機関の能力を測るために、基盤的条件の現状に関する基準値を設定するのに役立てることができます。第二に、このルーブリックを使用することで、このような制度的条件の長所やギャップが、採用、昇進、終身在職権、あるいは大学院生の評価など、特定の種類の学術評価活動に的を絞った具体的な介入の結果にどのような影響を及ぼし、目標に向けた前進を助けたのか、あるいは妨げたのかを遡って分析することができます。

https://sfdora.org/resource/space-to-evolve-academic-assessment-a-rubric-for-analyzing-institutional-conditions-and-progress-indicators/

この記事が気に入ったらサポートをしてみませんか？