「イベルメクチンの COVID-19 臨床試験成績のメタ分析に関する一考察」の考察

2022年1月7日 01:32

以前に↓の記事でその手法のおかしさについて解説したメタ解析サイトを、「最も情報量が多く、選択によるバイアスが掛かっておらず公正であると考えられる」と紹介している論考を発見した。北里大学大村智記念研究所客員教授八木澤氏によるものである。

どのような論拠を基にしているのか、詳述してあり有り難いが、同意できない点が複数あるため、以下に述べる。

まず、このサイトは適宜改訂されているので、（行われている解析はともかく）どのような研究が現在までに行われているのかを概観するのには役に立つ。この点は同意。

サイト内で紹介されている研究に関して以下のように述べる。

そして、それらの 71 件の試験のうち、43.7%に相当する 31 件（対象 6,858 人）はランダム化比較試験（RCT）の成績であり、69.0%に相当する 49 件（対象 18,179 人）は査読を経て学術雑誌に掲載された試験成績であるので、試験実施様式および試験結果の評価に関して質が低いという、世界保健機構（WHO）や米国感染症学会（IDSA）の論議は当を得ていない

しかし、RCTや査読はその質を担保しない。RCTにはRCTの質を評価するための標準的なツール（ROB2：https://sites.google.com/site/riskofbiastool/welcome/rob-2-0-tool）
が存在し、これを用いてRCTの「中身」を評価する必要がある。これに基づきWHOは一部の試験結果の質が低いと判断しているのであり、「論議は当を得ていない」というのは誤解である。

次に以下のように述べているが、ここで引用されている確率はミスリーディングである。

さらに、それら 71 件の試験成績を統合すると、イベルメクチンの COVID-19 に対する効果が否定的であるものを、肯定的であると誤って判断してしまう publication bias は 1,950 億分の 1 という著しく低い可能性であると算出されており、試験実施者の思い込みに因りイベルメクチンが有効であると誤認されているというバイアス論議も当を得ていないのである。

この確率はどうやって計算されているか。これは研究の結果を見て、その結果が効果あり（例：死亡率減少のリスク比が1未満）か効果なし（リスク比が1以上）の2種類に分ける。次に効果がありという結果が出ている研究の数を数えて（Xとする）、仮に効果がない場合に偶然にＸ個以上の研究で効果があるという結果が得られる数を計算している。1月6日時点でサイトを確認すると、73の研究中65で効果があったと判定されている。要は両面の出る確率が等しいコイン（つまり効果がない）コインを73回投げて、表が偶然65回以上でる確率を計算しているのと同様である。

しかしながらいくつかの問題点がある。
①研究のバイアスが考慮されていない。本当は効果が乏しくても効果があるという結果がバイアスによって得られている可能性がある。
②効果がある結果ほど出版されやすいという出版バイアスにより、効果のある研究の数が多く見積もられている可能性
③過去記事で言及したように、そもそも純粋にイベルメクチンの効果を検証するのに適さない、併用薬の使用や対照群で別の治療を施されている研究も数に含まれている。
④各研究ごとの「重み」が考慮されていない。参加数が多い患者のほうがより正確な効果の推定を可能にする。

例えばある治療薬の効果を検証する研究が2つ行われたとする。1つの研究では２人の患者のうち、１名に治療薬を投与し、投与された患者で症状の改善がより速かった。
別の研究では5000人ずつを２群に分けて、片方に治療薬を投与。その結果、未治療群で症状の改善が早かった。
１つめの研究結果は偶然による可能性が除外できないが、２つ目はかなり信頼できるだろう（バイアスがなければ）。しかし、この２つを同列に扱っているのが上記の確率計算である。一方メタ解析では「重み付け平均」を取ることで、調整している。注１

次にこの論考では複数のメタ解析論文を取り上げて、

それら 8 件のメタ分析論文を比較すると、分析に用いられている臨床試験成績論文は全部で 45 報あるが、表 1 に示すように、8 件のメタ分析の全てに採用されている試験は 1 報に過ぎず、7 件に採用されているのは 2 報のみ、6 件で採用されているのは 1 報のみであり、5 件以上で採用されている論文は 11 報に留まっている。その逆に、1 件だけが採用している論文は 16 報あり、2 件だけが採用している論文は 9 報となっている。そのように、解析の対象とする臨床試験が異なっている状況で、イベルメクチンの COVID-19 に対する有効性をメタ分析結果として論じることは、明らかに非科学的である。

しかしながら異なる論文が採用されてるのは論文の組み入れ基準が微妙に異なるからである。例えばPoppらはバイアスのリスクが高いと考えられる論文を除外しているし、イベルメクチンの効果を検証するのにベストなイベルメクチンvsプラセボまたは標準治療を比較した研究に限っている。Romanらによるメタ解析も同様な比較研究に限っている。一方、BIRDやFLCCCらの論文にはそのような配慮がなされていない。

また八木澤氏は

その後に内容がアップデート（24 件の RCT を対象）され 6 月 19 日に AJT に掲載されたが、対象に含まれていたエジプトのElgazzar らの論文が7 月13日に速報掲載誌から撤回されたことに伴い、改めて当該論文の成績を削除したメタ分析を行っている。その再解析の結果は、削除する以前の結論を覆すことが無かったので、その次第を 8 月 27 日の AJT に編集者への書簡の形式で報告している。

と述べているが、実際はその後にNiaeeらの研究にも疑義が呈されていて、この書簡ではこの研究が除外されていない。

ちなみにRomanらのメタ解析でミスがあったことを取り上げ厳しく批判する。

そのプレプリントを見た Niaee から厳しい指摘を受けた Roman らは記述を訂正したところ、5 件合算の RR は 0.37 となり、明らかにイベルメクチン投与の効果が示されたのである。しかし、Roman らは、その結果を反映した結論の訂正を行わなかったために、メタ分析結果と結論が矛盾する非科学的な論文となっていたのである。

ミスをしたのは残念であるが、実際は出版論文では訂正されているので、結果自体には影響がない。よって本質を突いた批判ではない。訂正後のRRの合算は確かに死亡に対して0.37 であるが信頼区間が広いかつ、他のアウトカムで効果がみられないので、さらにRCTが必要で、現時点では臨床試験では投与すべきと述べており、妥当な結論であろう。さらにこの結果もNiaeeを含み、その全体に占める重みは41％。これを除外すると効果はさらに不明瞭になる。

ここで八木澤氏は別の研究を引用している。

Neil らは、Roman らが用いた古典的な統計学的手法に加えて、新たに Bayesian 統計手法を用いて Bryant らのメタ分析の結果と Roman らのメタ分析の結果を比較検討して、Bryant らの結果と結論は正しく、 Roman らの結果と結論は誤っていると判断している。

ここで引用される以下の論文は、Bryant、Romanらのメタ解析に含まれた論文の結果をベイズ推定を用いてメタ解析を行っている。

何やら凄そうな解析に見えるかもしれないが、実際は含まれている研究が同じなので、著者の主張に反して私の解釈ではあまり確信度の高い結果が得られていない。
まず著者らは以下のように、systematic reviewの手法として標準的におこなわれるバイアスの評価を "somewhat vague and possibly biased subjective assessment"として無視。

It was based on a somewhat vague and possibly biased subjective assessment of the quality of the trials themselves and erroneously concluding “no effect” from what was merely weaker evidence of a positive effect

バイアスを無視して結果を統合したら効果が見られたという先述のメタ解析サイトと本質的には同じである。

RCTにおけるバイアスの要因（盲検のなしや不適切なランダム化）は客観的なアウトカム（例：死亡）にはあまり関係ないという意見もある。私も「一般的には」バイアスの影響は起きにくいとは考える。しかし、ケースバイケースなので、実データがある場合は実データで確認すべき。
以下の論文で分析されているように、バイアスのリスクが高いイベルメクチンの研究を除外すると、効果が確認できなかったという分析がなされており、バイアス評価を無視するのは暴論と考える。

同論文では疑義が呈されたElgazarrらの研究を除外した感度分析を行っているが、効果がみられる可能性は77－78％と出ているが、CIも非常に幅広く（RRに関しては0-156)、あまり確信を深める結果ではない。

元の論考に戻る。次いでPoppらによるCochraneレビューも厳しく批判している。

臨床試験の遂行において、折角、バイアスを避けるためのランダム化すなわち無 6作為化を行っているのにも拘わらず、それらの試験成績を複数集めてメタ分析を行う段階になって、様々な条件を課して解析対象とする試験を選択するという作為が加えられている。

しかしながら、"様々な条件を課して解析対象とする試験を選択するという作為が加えられている"というのは、Research questionに合致する研究を含めたり、バイアスが高い研究を除外することで、臨床応用を考慮する上でバイアスのリスクが少ない有用な情報を提供するための工夫であり、システマティックレビューの根幹である。

ここからこの論考ではReal-world Medicineについて論述し、既存のEBMを批判する。例えば

このような新規医薬品の臨床効果の統計学的な確認方法は、対象とする疾患が高血圧、糖尿病、気管支喘息、認知症などの慢性疾患であって致命的ではなく、対象患者層や原因、症状などを類型化することが可能であり、各種の既存薬が存在するような場合には極めて有効で有用な手法である。ところが、今般の CIVID-19 のように急性疾患で致命的であり、病期によって症状が変化し、有効な治療薬が存在しない場合には、医薬品の臨床効果の確認方法としては無効で無用な手法であると言わざるを得ない

ではステロイドの効果を示した、Recovery trialはどう考えるのか。RCTで効果が示されずにここまで標準的な治療として普及したのか。未だにその是非について議論が続いていたのではないだろうか。
また以下のようにも述べる。

筆者は、この 40 年間余りにわたって世界の感染症専門医と共に有効で安全な新規抗感染症薬の開発研究に携わってきているが、それらの医師は誰もが患者の治療に真摯に取り組んでおり、疾患の完治に向けて最善の努力を惜しまないのである。そのような医師たちは、常に最も有効で安全な治療薬を求めており、無効な医薬品や副作用が懸念される医薬品を治療に用いることは無いのである。もし、イベルメクチンが COVID-19 に無効であって、好ましくない副作用を生じる医薬品であるならば、すぐに使用が中止されて、論文を著述するほどの症例は蓄積されないはずである。

ではサイトによると303の研究があるヒドロキシクロロキンをどう考えるのか。大規模RCTで効果は否定されたが、使い続けるべきと考えるのか？RCTで効果が否定されなければいまだに議論の渦中にあり、別の治療薬についての議論の進んでいなかったのではないか。

また医師の経験則が無視されたり排除されていると述べる。

信頼度の程度を「エビデンスレベル」としてランク付けしてきたのであるが、その考え方が行き過ぎであり、医療現場の医師の経験則を軽視したり排除したりする風潮が主になったことを是正するために、「医療の現場で得られるエビデンス（Real-world evidence: RWE）」を活かした医薬品の承認審査が求められている

これもよくある意見だが、先述のメタ解析でも亜鉛、ビタミンDなど多種多様な「治療候補薬」が提唱されているが、どの専門家の「経験」を重視するかはどのように決めるのだろうか？診た患者数が多く、○○の治療で100以上に治療して誰も死んでいないという意見があればその意見は信用できるのだろうか。
私だったらせめて、具体的に何人治療して、その平均年齢や、重症度、合併症などを知りたい。また、同じ医師で治療をしていない患者でどうだったかも知りたいし、可能あれば、治療した人としてない人の属性が似た人でどうだったか教えてほしい。これらの情報をまとめたものが論文である。

しばしば論文のデータを引用すると、現場とかけ離れたものかのように批判する人がいるが、あくまで現場とは地続きである。実際に行われる診療をきちんとした評価・分析方法をもってまとめて報告したものが論文になる。
EBMは100％の正解を与えるわけではない。しかし、EBMは無数の情報がある中で、より正解に近い意思決定を行うための重要な営為であると考える。

エビデンスを創りだすのは時間がかかる。しかし今回のパンデミックでは素早くエビデンスを確立するための試みが多くなされている。実際に↓のような多くの治験が重要なエビデンスを提供してきた。

質のよいエビデンスに基づくというと、有事に悠長なという意見がありますが、ワクチンの臨床試験から承認のスピード。Solidarity、Recovery、REMAP-CAPなどのadaptiveデザイン、Living sytematic reviewの立ち上げなど、エビデンスを素早く確立・評価する試みは多くなされているのではないでしょうか。
— st@公衆衛生・疫学某所 (@styh131582) April 11, 2021

また、2016年のエボラ出血熱流行時にもコンゴ民主共和国で治療薬のRCTが行われ有効な治療薬の確立に貢献した。

https://www.nejm.org/doi/full/10.1056/NEJMoa1910993

この治験のおかげでエボラ出血熱に対して有効な治療薬を自信をもって拡大することができ、より多くの人命を救うであろう。COVID-19のような急性の感染症であっても、質の高い治験の存在意義はなくならない。

注１：ランダム効果モデルを用いると小規模な研究の重みが相対的に大きくなる。特に、小規模な研究でバイアスのリスクが高いと、メタ解析結果のバイアスのリスクも高くなる。

追記：Pyloriさんから手法に関する質問を複数頂きました。ツリーに回答を記載しています。

問題の資料の「効果が否定的であるものを、肯定的であると誤って判断してしまう publication bias は 1,950 億分の 1」という文章の意味自体とnote中の説明が理解出来なかったのですが、そもそもpublication biasという概念はそのように算出されるものなのでしょうか。
— Pylori (@Pylori04884231) January 6, 2022

また、Neil らのベイズ統計による解析における例えばP（ RD <0）について、RDの95%CIが0を跨がないためにはP（ RD <0）>97.5%になる必要があるので、有効性を判定する水準は>97.5%あたりに設定するのが自然に思われるのですがそんなことはないのでしょうか。
— Pylori (@Pylori04884231) January 6, 2022

この記事が気に入ったらサポートをしてみませんか？