見出し画像

患者報告式アウトカム測定ツールのCOSMIN研究デザインチェックリスト

心理尺度等の患者報告式アウトカム測定ツールの作成にはCOSMINというガイドラインがあります。

詳しくは:

COSMIN Risk of Bias checklistについては、すでに翻訳があります。

https://www.cosmin.nl/wp-content/uploads/Japanese-version-of-the-COSMIN-Risk-of-Bias-checklist-for-PROMs_final.pdf

ただ、尺度の翻訳に関しては、研究デザインチェックリストの中に記載があり、そちらの翻訳は、私の知る限り行われていません。

COSMIN Study Design checklist for Patient-reported outcome measurement instruments
Version July 2019

https://www.cosmin.nl/wp-content/uploads/COSMIN-study-designing-checklist_final.pdf

そこで、DeepLベースの翻訳を行いました。著者確認等行っていないので、悪しからず…参考までにご利用ください。また、評価基準については訳出していないので、原版を参照してください。

なお、COSMIN methodology for content validity of PROMs user manual はこちら↓

https://www.cosmin.nl/wp-content/uploads/COSMIN-methodology-for-content-validity-user-manual-v1.pdf


1.略語のリスト

CTT: classical test theory

古典的テスト理論

IRT/Rasch: Item Response Theory and Rasch analyses

項目反応理論とラッシュ分析

NA: not applicable

非該当

Original CC: original COSMIN chechlist
(Mokkink et al., 2010)

オリジナルCOSMINチェックリスト

PROM: patient-reorted outcome measure

患者報告式アウトカム尺度(測度)

Rob: Risk of Bias; the COSMIN Risk of Bias checklist
(Mokkink et al., 2018)

2.インストラクション

COSMIN試験デザインチェックリストは、既存の患者報告アウトカム(PROM)の測定特性を評価する試験をデザインするために推奨される。このチェックリストは、既存のPROMの測定特性を評価する研究を計画する研究者や臨床医、その他の専門家、あるいは測定特性に関する研究のプロトコルを評価する科学委員会や医療倫理委員会、PROMの測定特性に関する研究のプロトコルを掲載する科学雑誌の査読者などが使用することができます。

COSMIN Study Designチェックリストは、COSMINチェックリストの原版(1, 3)と、最近開発されたPROM用COSMIN Risk of Biasチェックリスト (2) に基づいている。適応の決定は、COSMIN運営委員会の対面会議(LM、CP、HdV、CT)および電子メールによる議論(COSMIN運営委員会全体、すなわち全著者)の反復に基づいて行われた。

COSMIN試験デザインチェックリストは10のボックスから構成されている。最初のボックス、すなわち「測定特性に関する研究計画に関する一般的推奨事項」は、すべての研究に関連する。このボックスには、どのような測定特性に関する研究計画でも考慮すべき一般的な基準が含まれています。残りのボックスには、9つの測定特性、すなわち、内容的妥当性、構造的妥当性、内的一貫性、異文化間の妥当性、信頼性、測定誤差、基準妥当性、構成要素の妥当性に関する仮説検証、および応答性のそれぞれについて (2, 4)、特定の研究のための基準が含まれている。さらに、「翻訳プロセス」のボックスには、既存のPROMを翻訳するための基準を示している。

このチェックリストでは、各基準に4段階の評価尺度が付されている。この評価尺度は、COSMINのRisk of Biasチェックリスト (2) に基づいています。4段階の評価尺度は、研究の方法論的質に対する研究計画での選択の結果をよりよく理解するための例示目的で追加されたものであり、実際に研究計画の総合的な評価(すなわち、ウェルス・スコアカウントの原則に基づく)を行うために使用することを意図したものではありません。このチェックリストの目的は、測定特性に関する研究を計画する際に、すべての重要な問題が考慮されているかどうかをチェックすることだけである。これらの研究をどのように計画し、分析するかについての詳細は、「医学における測定 5. 個々の基準のほとんどについての明確化と説明は、COSMIN Risk of Bias チェックリスト (6, 7) に付属するユーザーマニュアル(www.cosmin.nl)に記載されている。サンプルサイズの要件などの参考文献もCOSMINユーザーマニュアル (6, 7) に記載されている。

基準とは、潜在的なバイアスのリスクの問題、報告の問題、またはサンプルサイズの問題を指す。この文書では、各基準について、COSMIN Risk of Biasチェックリスト (2)(RoB)またはオリジナルのCOSMINチェックリスト (1) (CC)のボックスの番号(括弧内の番号は特定のボックスの特定の基準の番号を示す)を参照するか、その基準がサンプルサイズに関するものであること、または新たに追加された基準であることを示すことにより、正当な理由を付記している。

3.測定特性に関する研究計画の一般的推奨事項

測定特性に関する研究を計画するための一般的な推奨事項」は、測定特性に関するすべての研究に関連する。PROM の測定特性を評価する研究の目的は、問題となっている PROM の質(の 1 つ以上の側面)を調査することである。このような研究には、明確な研究目的(すなわち、関心のある測定特性に言及すること)、PROM の明確な記述、および研究集団の明確な記述が必要である。PROMの質は、PROMが使用される対象集団において決定されるべきである。なぜなら、測定特性に関する研究結果は、研究に含まれる標本に依存するからである。

Research aim 研究目的

3-1 (1)PROMの名称とバージョン、(2)対象集団、(3)関心のある測定特性など、明確な研究目的を提示する。

PROM

3-2 測定する構成要素を明確に説明する。
3-3 PROM が開発された対象集団の説明を含め、PROM の開発過程を明確に記述すること。
3-4 構成概念の起源が明確であること:測定する構成概念を定義するために使用した理論、概念的枠組み(すなわち、リフレクティブモデルまたは形成的モデル)、疾患モデル、または明確な根拠を示すこと。
3-5 PROM の構造(PROM に含まれる項目と下位尺度の数、インストラクション、回答選択肢)および採点アルゴ リズムを明確に説明すること。
3-6 PROM の質に関する既存のエビデンスを明確に説明すること。
3-7 使用の背景を明確に説明すること。

※ 使用のコンテキスト(context of use)とは、PROM の意図された用途(例:研究または臨床)、PROM が 開発された特定の環境(例:病院または家庭での使用)、または特定の管理方法(例:紙またはコン ピュータで管理)を指す。PROM が複数の状況で使用するために開発された場合は、その旨を記述する。

Target population 対象者

3-8 患者を選択するために、例えば、病状、年齢、性別、言語、国などの特徴、設定(一般住民、プライマリケア、病院/リハビリテーションケアなど)の観点から、患者の選択基準と除外基準を明確に説明する。
3-9 研究対象患者の選択方法(例:便宜的、連続的、無作為)を明確に説明すること。
3-10 選択されたサンプルが、年齢、性別、重要な疾患の特徴(重症度、状態、期間など)において、PROMが使用される対象集団を代表しているかどうかを記述する。

4.内容妥当性

既存のPROMの内容的妥当性は、項目、回答選択肢、インストラクションの妥当性、包括性、わかりやすさについて患者や専門家に尋ねることで評価できる。内容の妥当性の欄には、専門家が関与する研究と同様に、患者が関与する内容の妥当性に関する研究の基準が示されている。

Design requirements デザイン要件

4-1 患者の視点:(1)各項目と患者の症状経験との関連性、(2)PROMの包括性、(3)PROMのインストラクション、項目、回答選択肢、想起期間の理解可能性を適切な方法で評価する。
4-2 専門家の観点から:(1)各項目と対象構成要素との関連性、および(2)PROMの包括性を評価するための適切な方法を用いる。
4-3 すべての関連分野の専門家を含める
4-4 各項目を適切な数の患者または専門家で評価する 定性的研究の場合 量的(調査)研究の場合
4-5 熟練したグループ司会者やインタビュアーを使う
4-6 適切なトピックやインタビュー・ガイドに基づいて、グループ・ミーティングやインタビューを行う。
4-7 グループミーティングやインタビューを記録し、逐語的に書き写す。

Analyses 分析

4-8 適切なアプローチでデータを分析する
4-9 少なくとも2人の研究者を分析に参加させること

5.構造妥当性

PROMは、リフレクティブ・モデルまたはフォーマティブ・モデルに基づくことができる (8-10)。リフレクティブ・モデルとは、すべての項目が同じ基礎構成概念の現れであるモデルである。これらの項目は効果指標と呼ばれ、高い相関性と互換性が期待される。形成的モデル(これと対になるもの)では、項目が一緒になって構成概念を形成する。これらの項目は相関している必要はない。PROMがリフレクティブ・モデルに基づいているか、形成的モデルに基づいているかは、プロトコルに記述されるべきである。構造的妥当性は、リフレクティブ・モデルに基づくPROMにのみ関係する。研究の目的が多次元PROMの構造的妥当性を評価することである場合は、尺度全体について因子分析を行うべきである。しかし、下位尺度の単次元性を追加的に評価することを目的とする場合は、各下位尺度について個別に因子分析を実施することもできる。

Statistical methods 統計手法

5-1 CTTの場合:確認的因子分析を行う
5-2 CTTの場合:どのように因子分析を行うかについて、明確な情報を提供すること。例えば、ソフトウ ェアプログラム、推定方法、仮定のチェックの有無と方法、回転方法、モデル適合の基準など。
5-3 IRT/Raschの場合:リサーチ・クエスチョンに適合するモデルを選択する。
5-4 IRT/Raschの場合:IRTまたはRasch分析がどのように実施されるのか、例えば、ソフトウェアプログラム、使用されるIRTまたはRaschモデル、推定方法、仮定がチェックされるかどうか、どのようにチェックされるのか、モデル適合の基準など、明確な情報を提供する。
5-5 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。
5-6 欠損値の処理方法を明確に説明する。

6.内部一貫性

構造的妥当性と同様、内的一貫性はリフレクティブ・モデルに基づくPROMにのみ関係する。さらに、内的一貫性は一次元(下位)尺度について評価されるべきである。したがって、研究の各尺度または下位尺度について、一次元性または因子分析などを用いた構造的妥当性を承認するか、同等の対象集団から採取した標本での先行研究で得られた構造的妥当性の証拠を入手する必要がある。

Design requirements デザイン要件

6-1 尺度または下位尺度が一次元かどうかをチェックする。
6-2 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。
6-3 欠損値の処理方法を明確に説明する。

Statistical methods 統計手法

6-4 連続得点の場合:各一次元尺度または下位尺度についてクロンバックのアルファまたはオメガを算出する。
6-5 二分法の場合:各一次元尺度または下位尺度について、クロンバックのアルファまたはKR-20を算出する。
6-6 IRTに基づく得点の場合:各一次元尺度または下位尺度について、θの標準誤差(SE(θ))または推定潜在特性値((被験者または項目)分離の指標)の信頼性係数を計算する。

7.異文化間妥当性

この測定特性は、PROMの項目が異なる集団、例えば異なる民族や言語集団、異なる性別や年齢集団、異なる疾患集団において同様の挙動を示すかどうかを調査することを目的としている。そのため、複数の集団(例えば複数の言語集団)からのデータが必要となる。

Design requirements デザイン要件

7-1 2分法またはカテゴリー分けを含む、グループ変数の明確な説明を提供する。
7-2 人口統計学的特性や疾患特性など、両サブグループで類似しているはずの患者の関連特性を明確に記述する。
7-3 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。

Statistical methods 統計手法

7-4 CTTの場合:多群確認的因子分析(MGCFA)を実施する。
7-5 CTTの場合:因子分析の実施方法に関する明確な情報を提供すること。例えば、ソフトウェアプログラム、推定方法、モデル適合の基準、仮定がチェックされたかどうか、どのようにチェックされたかなど。
7-6 IRT/Raschの場合:差分項目機能(DIF)分析を行う。
7-7 IRT/Raschの場合:IRTまたはRasch分析がどのように実施されるかについて、明確な情報を提供する。例えば、ソフトウェアプログラム、使用されるIRTまたはRaschモデル、推定方法、モデル適合の基準、仮定がチェックされたかどうか、どのようにチェックされたかなど。
7-8 欠損値の処理方法を明確に説明する。

8.測定誤差と信頼性

測定誤差と信頼性は、同じ研究デザインとデータ収集に基づいて計算することができる。基本的には、測定する構成概念について全員が安定していると想定される集団で、2回の測定が必要である。デザインと収集されたデータは両方の測定特性に使用できるので、1つのボックスに標準を示します。統計パラメータだけが異なる。このようなデザインを使用する研究者には、信頼性パラメータに加えて測定誤差も報告することを強く推奨します。

Design requirements デザイン要件

8-1 少なくとも2測定A
8-2 運営側の独立性を確保する。
8-3 測定する構成要素について、患者が中間期に安定していることを確認する。
8-4 2回の測定の間隔は、リコール防止には十分長く、患者が安定した状態を保つには十分短い、適切な間隔をとる。
8-5 測定のための試験条件が類似していることを確認する(例:投与の種類、環境、インストラクション)。
8-6 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。

Statistical methods for measurement error 測定誤差の統計手法

8-7 連続得点の場合:測定標準誤差(SEM)、最小検出可能変化量(SDC)、または一致限界(LoA)を算出する。
8-8 二分法/名目/順序スコアの場合:(正と負の)一致率を計算する。
8-9 欠損値の処理方法を明確に説明する。

Statistical methods for reliability 信頼性の統計手法

8-10 連続スコアの場合:クラス内相関係数(ICC)を計算する。
8-11 二分法/名数法/順序得点の場合:カッパを計算する。
8-12 順序得点の場合:加重カッパを計算する。
8-13 欠損値の処理方法を明確に説明する。

※ 計算される ICC のモデル(一元配置ランダム効果モデルまたは二元配置ランダム効果モデルまたは混合効果モデル)、タイプ(単一測定または複数測定の場合)、定義(一貫性または絶対一致の場合)が適切に選択され、記述されている (11)。

9.基準妥当性

PROMは患者自身によってのみ報告される構成要素を測定するものであるため、これらの測定法にはゴールドスタンダードは存在しない。唯一の例外は、同じPROMのショートバージョンを調査する場合のロングバージョンである。

Design requirements デザイン要件

9-1 提案された基準が合理的な「ゴールドスタンダード」とみなせるかどうかを記述する。
9-2 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。
9-3 目的のPROMと「ゴールドスタンダード」の評価に適切なタイムスケジュールを用いる。

Statistical methods 統計手法

9-4 連続スコアの場合:相関、またはROCのAUCを計算する。
9-5 二分法の場合:感度と特異度を決定する。
9-6 欠損値の処理方法を明確に説明する。

ROC: receiver operator curve
AUC: area under the curve

10.構成概念妥当性の仮説検定

PROMには「ゴールドスタンダード」が存在しないため、PROMの承認妥当性を調査する一般的な方法は、1)質の高い他のアウトカム指標との予想される関係(パートA)、および/または、2)関連するグループ間の予想される差異(パートB)に関する仮説を検証することである。PROMの構成要素の妥当性を評価する際には、事前に仮説を定義しておくことが重要であり、データ収集と分析後に偏りのない結論を導き出すことができる。

A. 他のアウトカム測定法との比較(収束的妥当性)

Design requirements デザイン要件

10-A-1 研究対象の PROM と他のアウトカム測定器との間に予想される関係について仮説を立てる。
10-A-2 比較対象となる測定器によって測定される構成要素について明確な説明を行うこと。
10-A-3 十分な測定特性を持つコンパレータ機器を使用する。
10-A-4 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。
10-A-5 対象PROMと比較尺度の評価に適切なタイムスケジュールを用いる。

Statistical methods 統計手法

10-A-6 検証する仮説に適した統計的手法を用いる。
10-A-7 欠損値の処理方法を明確に説明する。

B. サブグループ間の比較(識別的または既知集団の承認)

Design requirements デザイン要件

10-B-1 サブグループ間の平均差に関する仮説を立てる。
10-B-2 疾患や人口統計学的特徴など、サブグループの重要な特徴を適切に説明すること。
10-B-3 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。

Statistical methods 統計手法

10-B-4 検証する仮説に適した統計的手法を用いる。
10-B-5 欠損値の処理方法を明確に説明する。

11.応答性

応答性は縦断的妥当性を示すと考えられる。ゴールドスタンダード」が利用可能な場合は、このボックスのパート A の基準アプローチを用いることができる。PROMの変化スコアに関する仮説を他のアウトカム測定器と比較して検証する場合は、パートBを用いることができる;PROMの変化スコアをサブグループ間で比較する場合は、パートCを用いることができる;PROMの期待変化スコアに関する仮説を介入前後で検証する場合は、パートDを用いることができる。PROMの反応性を評価する際には、著者がデータ収集と分析後に偏りのない結論を導き出せるように、事前に仮説を定義することが重要である。

A. 基準アプローチ(すなわち「ゴールドスタンダード」との比較)

Design requirement デザイン要件

11-A-1 提案された基準は、妥当な「ゴールドスタンダード」とみなすことができる。
11-A-2 目的のPROMとゴールドスタンダードの評価に適切なタイムスケジュールを用いる。
11-A-3 1回目の測定と2回目の測定の間に適切な時間間隔をとる。
11-A-4 その間に起こりそうなこと(例:介入、進行性疾患の場合、その他関連する出来事)を記述する。
11-A-5 患者の割合が、測定する構成要素に関して変化(改善または悪化)する可能性があることを確認する。
11-A-6 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。

Statistical methods 統計手法

11-A-7 連続スコアの場合:変化スコア間の相関、またはROC(Receiver Operator Curve)曲線下面積(AUC)を計算する。
11-A-8 二項尺度の場合:感度と特異度(変化あり対変化なし)を計算する。
11-A-9 欠損値の処理方法を明確に説明する。

B. 構成概念アプローチ(仮説検証、他のアウトカム測定器との比較など)

Design requirements デザイン要件

11-B-1 研究中の PROM の変化得点と(他のアウトカム測定器の変化得点の)間に予想される関係 について仮説を立てる。
11-B-2 比較対象となる測定器によって測定される構成要素について明確な説明を行うこと。
11-B-3 比較対象となる測定器の測定特性が十分であるという情報を提供する。
11-B-4 目的のPROMと比較対象機器の評価には、適切なタイムスケジュールを使用する。
11-B-5 1回目の測定と2回目の測定の間に適切な時間間隔をとる。
11-B-6 中間期間に起こりそうなこと(介入、その他の関連イベントなど)を記述する。
11-B-7 患者の割合が、測定する構成要素に関して変化(改善または悪化)する可能性があることを確認する。
11-B-8 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。

Statistical methods 統計手法

11-B-9 統計的手法が検証する仮説に対して適切であることを確認する。
11-B-10 欠損値の処理方法を明確に説明する。

C. 構成概念アプローチ:(すなわち仮説検定:サブグループ間の比較)

Design requirements デザイン要件

11-C-1 先験的(すなわちデータ収集前)に、サブグループの変化スコア間の差異に関する仮説を立てる。
11-C-2 疾患や人口統計学的特徴など、サブグループの重要な特徴について適切な記述を行う。
11-C-3 1回目の投与と2回目の投与の間に適切な時間間隔をとる。
11-C-4 その間に起こりそうなこと(例:介入、病気の進行、その他の関連する出来事)を記述する。
11-C-5 患者の割合が、測定する構成要素に関して変化(改善または悪化)する可能性があることを確認する。
11-C-6 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。

Statistical methods 統計手法

11-C-7 統計的手法が検証する仮説に対して適切であることを確認する。
11-C-8 欠損値の処理方法を明確に説明する。

D. 構築的アプローチ:(すなわち仮説検証:介入前と介入後)

Design requirements デザイン要件

11-D-1 介入前後で予想される変化について、事前に(すなわちデータ収集前に)挑戦的な仮説を立てる。
11-D-2 いつ、どのように実施するかを含め、再現可能なように介入について十分な説明を行うこと。
11-D-3 初回投与と2回目投与の間に適切な時間間隔をあける。
11-D-4 その間に起こりそうなこと(例:介入、病気の進行、その他の関連する出来事)を適切に記述する。
11-D-5 患者の割合が、測定する構成要素に関して変化(改善または悪化)する可能性があることを確認する。
11-D-6 適切な患者数のサンプルで分析を実施する(予想される欠損値の数を考慮する)。

Statistical methods 統計手法

11-D-7 統計的手法が検証する仮説に対して適切であることを確認する。
11-D-8 欠損値の処理方法を明確に説明する。

12.翻訳プロセス

既存のPROMを翻訳するプロセスは、測定特性ではない。むしろ、PROM の新バージョンの開発段階の一部である。しかし、優れた翻訳プロセスによって、翻訳された言語での PROM のバージョンがより承認される可能性が高い。この翻訳ボックスには、翻訳プロセスの質を評価するための基準が示されている。翻訳されたPROMの異文化間妥当性をその後テストする場合は、グループ変数「言語」を用いた異文化間妥当性(Cross-cultural validitymeasurement invariance)のボックスを参照する。

Design requirements デザイン要件

12-1 PROM が作成された原語、原語(原語と異なる場合)、PROM が翻訳される言語の両方を記述すること。
12-2 項目が前後に翻訳されることを確認する。
12-3 前方翻訳者の両方が、PROM を翻訳する対象言語を母国語としていることを確認する。
12-4 フォワード・トランスレータの1人は、関連する疾患および PROM で測定される構成要素に精通していること。
12-5 後方翻訳者の両方が原語または原語を母国語としていることを確認する。
12-6 後方翻訳者の両方が、関係する疾患と測定される構成要素について知識がないことを確認する。
12-7 翻訳者が互いに独立して作業できるようにする。
12-8 原語版と翻訳版の相違がどのように解決されるかを明確に説明すること。
12-9 翻訳が委員会(PROM のオリジナル開発者を含む)によってレビューされることを確認する。
12-10 翻訳プロセスのフィードバックレポートを書く
12-11 パイロット試験(認知的面接試験など)を実施し、(1)各項目と患者の症状経験との関連性、(2)PROMの包括性、(3)PROMのインストラクション、項目、回答選択肢、想起期間のわかりやすさを確認する。
12-12 対象集団を代表する患者集団でパイロット試験を実施する。

(同)実践サイコロジー研究所は、心理学サービスの国内での普及を目指しています! 『適切な支援をそれを求めるすべての人へ』