見出し画像

HIROTSUバイオサイエンスのNewsPicksに対する反論について

雉も鳴かずば撃たれまい。

2023年9月19日にHIROTSUバイオサイエンスが出した「一部メディアの報道について」というプレスリリースを読んで、最初に感じたのはこれでした。

HIROTSUバイオサイエンスは「線虫ががんの匂いに引き寄せられる」という性質を使って、がんの早期発見効果を謳う "N-NOSE" というサービスを提供しています。
尿を一滴垂らすと、がんの人のものであれば線虫は寄ってくる。
健康な人のものであれば、逆に線虫は逃げていく。
自分の尿を線虫に判定してもらえば、がんのリスクがわかるということですね。
しかし、NewsPicks が「がん患者10人の尿が全て陰性(がんではない)と判定された」等のデータを元に、N-NOSE は役に立たないのではないかということを報道したのです。

これに対してHIROTSUバイオサイエンス側が9月19日に反論したのですが、これが正直絶句するような内容でした。
私は元々この問題にそれほど関心がなかったのですが、NewsPicks の記事の内容が真実なら詐欺にあたるでしょうし、何より「医学的にいい加減な説明」が大嫌いなので、一度丁寧に解説したいと思います。
事前知識がある程度ある人は、「母集団の特異度?」のところから読んでください。
そうでない人は、この機会に「感度」や「特異度」についても知ってもらえたらと思います。


感度、特異度、陽性・陰性的中率と有病率

このプレスリリースの中では何度も「感度」「特異度」という言葉が出てきますので、まずはこれをおさらいしましょう。

ある検査を行った時に、その検査結果が数値で返ってくることがあります。
例えば100匹の線虫に尿の匂いを嗅がせて、うち90匹が寄ってくれば"90"という数値を検査結果として報告することができますね。
100匹中10匹しか寄ってこなかったら、検査結果は"10"になります。
実際にはもっと複雑なことをやっているのでしょうが、内部のアルゴリズムは明かされていないので、これぐらい簡略化して説明します。

完璧な分類が可能な検査

上の図は、もし仮に線虫検査が完璧な検査だった場合です。
みなさんならどこに「がんの判定線」を引きますか?
100人中100人が"50"と答えるでしょう。
「50以上の人は全員がん」「50未満の人は全員健康」と言えるからです。
この"50"と決めた数値のことを「カットオフ」といいます。

検査の中で一度カットオフを決めると、検査結果を「数値」ではなく「がんかどうか」で解釈できます。
「検査結果は70でした」と言われても「どういう意味?」となるわけですが、「(検査結果は70だったので)がんと判定します」と言われると納得ですね。
一般的に、カットオフ値以上の場合を「陽性(=がんと判定)」、カットオフ未満の場合を「陰性(=がんではないと判定)」と呼びます。

しかし、世の中そんなに甘くはありません。
実際には、下図のように「がんの人でもたまたま数値が低く出る」ことがあるはずですし、「健康な人でもたまたま数値が高く出る」こともあるはずです。

現実的な検査

「精度100%の検査は存在しません」というのは、HIROTSUバイオサイエンスの今回のプレスリリースでも書かれていることです。
線虫はきっと神ではない。間違えることだってあるでしょう。

さて、上図の場合どこで判定線を引けば良いでしょうか?
仮に"85"をカットオフにすることを考えてみましょう。

85をカットオフとした場合

この場合、85以上(陽性)の人は全員がんです。
一方、85未満(陰性)の人にもがんの人がいっぱいいます。
これは「陽性の人は自信を持ってがんと言えるが、陰性でもがんでないとは言い切れない」ということを意味し、「確定診断」には使えるが「見逃し」は多いということになります。

さて、感度と特異度です。
カットオフを決めると、検査結果を「陽性」と「陰性」に分類できるため、検査の精度を%で表現できます。
特に、「がんの人を正しく検査陽性と判定できる割合」を「感度」、「がんでない人を正しく検査陰性と判定できる割合」を「特異度」と言います。

85をカットオフとした場合の感度と特異度

85をカットオフとした場合、がんの人の中で検査陽性となったのはたったの3人ですから、感度は3/10=30%です。
一方、がんでない人は全員検査陰性だったので、特異度は10/10=100%です。

次に、カットオフを"60"としてみましょう。

60をカットオフとした場合

この場合、60以上(陽性)はがんの人が多いですが、全員ではありません。
一方、60未満(陰性)はがんでない人が多いですが、がんの人も紛れています。

60をカットオフとした場合の感度と特異度

60をカットオフ値に選択した場合の感度と特異度は以下の通りです。
感度:6/10=60%
特異度:8/10=80%

先ほどは感度30%、特異度100%だったので、「特異度を犠牲にして感度を上げた」ということがわかると思います。

さらにカットオフを下げてみましょう。

25をカットオフとした場合

思い切ってカットオフを25に設定してみました。
こうなると、カットオフ未満(陰性)でがんの人(見逃し)は1人しかいません。
一方で、カットオフ以上(陽性)でもがんでない人(誤ってがんと判定される)はたくさんいます。

25をカットオフとした場合の感度と特異度

25をカットオフ値に選択した場合の感度と特異度は以下の通りです。
感度:9/10=90%
特異度:4/10=40%

先ほどよりもさらに感度が上がって見逃しが減った一方で、がんでない人も60%は陽性と判断される「特異度の低い検査」になってしまいました。

このように、感度と特異度は常にトレードオフの関係にあります。
どちらを優先するかは検査の目的によりますが、感度を上げれば特異度は下がり、特異度を上げれば感度は下がります。
そして、感度と特異度を決めているのはカットオフです。

長くなりますが、あと少しだけ解説が必要な用語があります。
それは「陽性的中率」と「陰性的中率」と呼ばれるものです。
今回のHIROTSUバイオサイエンスの主張のどこがおかしいかを理解するためにどうしても必要ですので、もうちょっとだけお付き合いください。

60をカットオフとした場合の感度と特異度(再掲)

先ほどの例に戻って、カットオフを60と設定した場合、感度は60%、特異度は80%でした。
しかし、実際の世界では「がんの人」「がんでない人」は検査をした時点ではわかりません。
答えを知っている状態での検査に意味はないからです。
むしろ知りたいのは、「陽性と判定された時にどれぐらいがんのリスクがあるか」ということになります。
これを「陽性的中率」と言い、その逆を「陰性的中率」と言います。

60をカットオフとした場合の陽性的中率と陰性的中率

感度と特異度は縦の比較でしたが、陽性的中率と陰性的中率は横の比較です。
検査が陽性だった8人の中で、実際にがんの人は6人なので、陽性的中率は6/8=75%です。
一方、検査が陰性だった12人の中で、実際にがんではない人は8人なので、陰性的中率は8/12≒67%です。

さて、思考実験の最後です。
これまではがんの人が10人、健康な人が10人の集団において、感度や特異度、陽性・陰性的中率を計算してきました。
しかし、六本木のクラブで尿を集めてもがんの人はほとんどいないでしょうし、巣鴨の商店街でやればがんの人の割合は上がるでしょう。
このように、検査の対象となる集団によって、がんの人の割合(有病率と言います)は大きく異なります。

がんの割合(有病率)が現実的な集団における陽性的中率と陰性的中率

HIROTSUバイオサイエンスは「日本のがん罹患率0.86%を前提として」プログラムしていると説明していますので、大体それに合わせます。
上の図では、1,010人の集団の中でがんの人が10人ですので、有病率(がん罹患率)は0.99%になります。
この場合、
陽性的中率:6/206=2.9%
陰性的中率:800/804=99.5%
となり、先ほどの陽性的中率75%、陰性的中率67%と大きく値が変わります
一方、感度と特異度は
感度:6/10=60%
特異度:800/1000=80%
で全く変わりません。

いいですか?
ここが超重要です。

感度は「がんの人を正しく検査陽性と判定できる割合」、特異度は「がんでない人を正しく検査陰性と判定できる割合」ですので、有病率に関係なく検査の特性とカットオフ値のみで決まるのです。
これは定義の問題ですので、同じ病気を対象にする以上は必ずそうなります。
有病率によって値が変わるのは陽性的中率と陰性的中率であって、感度と特異度ではありません。

母集団の特異度?

さて、準備ができたところでHIROTSUバイオサイエンスのプレスリリースをみていきましょう。

NewsPicksの連載は、HIROTSUバイオサイエンスに言わせると

「計算ミス」によって導き出した「感度 13%」という数字をあたかも動かしがたい証拠のように掲げ(中略)弊社に批判的な関係者の一方的な証言や資料等で塗り固めるといった印象操作作によって、ありもしない捏造や不正をでっちあげる記事内容とその取材手法は極めて悪質です。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

とのことです。

具体的な内容としては、

誤:実用化後の N-NOSE の感度は 13%
正:実用化後、N-NOSE の感度は臨床研究時(86.3%)と変わらない

HIROTSUバイオサイエンス「一部メディアでの報道について」より

と書かれています。
(誤:NewsPicks の主張、正:HIROTSUバイオサイエンスの主張)

これは、2023年6月に開催された「日本がん検診・診断学会総会」での発表を元に、NewsPicks が取材した医師が計算すると「感度が13%であった」と主張しているのに対して、HIROTSUバイオサイエンスが「いいえ感度は弊社発表の通り86.3%です」と反論しているという文脈になります。

HIROTSUバイオサイエンスは、これに対して

検証した結果、「母集団の特異度を誤り」、また「PET-CT の感度を考慮していない」という二つのミスを犯していることが判明しました

HIROTSUバイオサイエンス「一部メディアでの報道について」より

と説明しています。

どうでしょう。
この時点でおかしいことに気づいていただけましたか?

先ほどの説明の通り、「特異度」は定義上どんな集団であっても一定なので、「母集団の特異度」なるものは存在しないのです。
存在するのは「母集団の有病率」であり、有病率に影響されるのは「陽性的中率」と「陰性的中率」です。
一瞬これは誤植なのかと思いましたが、プレスリリース内では一貫して母集団によって特異度(と感度)が変わるという摩訶不思議な主張が繰り返されます。
医学生の試験ならまだしも、ユニコーン企業のプロが書いた文章とは到底思えないレベルです。

検査の度にカットオフが変わる?

少し飛ばして次に行きます。
NewsPicks の特集では、宮崎鶴田記念クリニックという医療機関から、がんの初期の患者の尿を10人集めて N-NOSE の検査を行ったら、がん患者10人全員低リスク(陰性)という結果が返ってきたと紹介されています。
連載全体の中でも、この部分が最もインパクトが大きいと思います。

感度とは「がんの人を正しく検査陽性と判定できる割合」でしたね?
そして、感度は有病率には影響されず、検査の特性とカットオフのみで決まる値であることを繰り返し説明してきました。
HIROTSUバイオサイエンスが公表している感度は86%ですから、これが正しければ10人全員陰性と判定する確率は0.0000000029%です。
そんなことが本当にあり得るでしょうか?
いくらなんでも「がん患者を10人連続で見逃す検査」を売ったらダメでしょう。
これに対するHIROTSUバイオサイエンスの反論が下記の通りです。

誤:「がんと診断された 10 名が N-NOSE を受検したら全員リスク低と判定された」。N-NOSE の精度は公表されているものより低い
正:実社会ではありえない割合のがん患者の検体を一度に、意図的かつ大量に 提出されたことで標準化変換が働き、正確な判断に支障が出た

HIROTSUバイオサイエンス「一部メディアでの報道について」より

「標準化変換」とは?と思ったと思いますが、私にもわかりません。
これはHIROTSUバイオサイエンスの独自の手法のようです。
これに以下の文章が続きます。

【解説】
以前より、医療機関が意図的にがん患者の検体(尿)を大量にまとめて提出する行為は、他の受検者の検査結果に影響を与え、正しく判定できなくなるため、絶対にやめていただきたいとお願いしてまいりました。
弊社では、検査精度を安定的に保つために、タームごとに標準の母集団と照らし合わせ、検査結果を出す標準化変換を組んでいます。複数の指標の中の1つに、各タームの検体の結果の傾向(平均値等)があります。がん検体が意図的に大量に含まれたりすると、高値の検体の割合が有意に増加します。その結果、標準化変換が異常に働くこととなり、検査結果全体が強い陰性方向へとなります。
当該病院から提出された検体について改めて調査したところ、同一の提出拠点、同一の回収期間内にがん患者の検体が一度に大量に提出され、検査センターにおいて同じタームで検査を行っていたことが分かりました。
表を見ると、該当タームでは標準化前に指標値を越えた検体の割合は高くなっていることがわかります。分布の強い歪性の為、標準化変換が異常に働いてしまい、全体が陰性方向(低リスク検体が多い)となりました。
            標準化前 → 標準化後
     該当ターム   29.8%   2.0%
     通常ターム1  24.9%    7.1%
     通常ターム2  22.9%   6.7%
今後は同報告を踏まえ、対策を検討するとともに、同じタームの受検者の皆様にはご連絡し、返金ある いは再検査を実施いたします。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

なるほど、ちょっと言いたいことがわかってきました。
つまりHIROTSUバイオサイエンスでは、一定数の検体を同時に検査し、その中で検査値が高いものから順にがんと判定しているということではないかと思います。
(そうではなくて補正をかけているだけだという反論が来ると思いますが、本質的に同じ誤りが指摘できるので、簡略化してこのまま話を進めます)

例えば1,000人集めて検査をするなら、「日本のがん罹患率0.86%を前提として」検査をしているということから、上位8.6人(9人?)をがんと判定するようにカットオフを決めている。
そのようにしてカットオフを変える行為のことを「標準化変換」と読んでいるのでしょう。

えっ、なんでそんなことするんですか???

だって1,000人の検体を集めた時に、たまたまその中にがんの人が多い可能性だってありますよね?
逆に、1人もがんの人がいない場合だってあるはずです。
それなのに「1,000人集めたらその中で8.6人はがんと診断します」っておかしくないですか?

そもそも、そういう一定の人数(バッチと呼びましょう)を集めて順位付けする方法を取っているとしたら、バッチによってカットオフが変わるんだから、毎回感度と特異度が変わりません?
ではHIROTSUバイオサイエンスで公表している「感度86.3%、特異度90.8%」というのは、一体どういう意味なのでしょう?
「弊社は毎回の検査でカットオフを変えていますので、検査に感度と特異度は存在しません」と言わなければいけないのではないでしょうか?
(この部分の誤りは、バッチ内の0.86%は必ずがんと診断するいわば「絶対補正」でも、バッチ内の陽性判定率を0.86%に近づけるように調整する「相対補正」でも変わりません。そもそも未知のはずの有病率で適切に補正することなど本来不可能なはずです。)

更に、「10人陰性となったのは標準化変換を行ったから」という話ですが、それでも1人も陽性と判定できなかった理由にはなっていないです。
仮にバッチのサイズが1,000人だとしたら、HIROTSUバイオサイエンスは8.6≒9人ががんだと思っていたのに、実際には9+10=19人がんがいたことになりますよね?
19人のがんの中で9人は陽性と判定されるはずなのに、全員がんの検体を提出した宮崎鶴田記念クリニック以外の9人を的確に陽性と判定したということなのでしょうか?
普通に考えれば宮崎鶴田記念クリニックのがん検体10人中、5人ぐらいは陽性と判定されるはずですよね。

もしこれでバッチのサイズが100人だとしたら、1人だけ陽性判定するはずだったのに、実際には11人のがん患者がいたことになります。
11人中10人が宮崎鶴田記念クリニックからの検体だったはずですが、たまたま残りの1人が陽性と選ばれたのでしょうか?
HIROTSUバイオサイエンスは「がん」と「がん以外」の尿を分けられるだけでなく、「特定の医療機関からのがんを100%の精度で分ける技術」も持っているのでしょうか?

絶対に変わらない有病率

最初の話に戻りましょう。

誤:実用化後の N-NOSE の感度は 13%
正:実用化後、N-NOSE の感度は臨床研究時(86.3%)と変わらない

HIROTSUバイオサイエンス「一部メディアでの報道について」より

ここまでの話から「N-NOSE の感度とは何を意味するのか?」という哲学的な問いに頭を悩ませる必要が出てくるのですが、一旦これは置いておいてHIROTSUバイオサイエンスの解説を見てみます。

【解説】
[計算の誤り]
記者は「衝撃の学会発表」と題し、日本がん検診・診断学会総会にて、N-NOSE の精度が実は公表されている数字よりも著しく低いことが判明したと報じています。しかし、福岡和白 PET 画像診断クリニックの医師による「N-NOSE 受検後にがんが見つかった人は 333 人中 8 人」という報告を元に、別医師が間違った理解に基づいて「N-NOSE の推計感度は 13%」という誤った数字を算出したことが弊社の検証によって判明しています(図1)。
取材の中で計算が間違っていることを指摘したにもかかわらず、それを理解したうえで記者は誤った計算結果を掲載しました。
実際には「母集団の特異度を誤り」、また「PET-CT の感度を考慮していない」という二つのミスを犯しています。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

「母集団の特異度を誤り」の部分は先ほど解説しましたね。
この後に、2つの図が出てきます。

1つ目の図が「NewsPicks が取材した医師による感度13%の計算」を「HIROTSUバイオサイエンスが解説したもの」になります。
2つ目は、「HIROTSUバイオサイエンスが解説する正しい感度の求め方」です。

1つ目から見ていきましょう。
和白クリニックでは、N-NOSE で陽性判定された333人に PET-CT を行ったら8人しかがんが見つからなかったと言っています。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

これを元に「NewsPicksが取材した医師」は、N-NOSE は5%の人に高リスク(陽性)判定しているから、全部で6,600人いたはずだよ。
簡略化して6,000人だとしたら、日本人のがんの罹患率は1%だから、60人がんの人がいたはずだよ。
でも PET-CT では8人しか見つかってないから、52人は見逃してる(感度:8/60=13%)よ。
と言っているわけです。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

これに対してHIROTSUバイオサイエンスは、
いやいや、N-NOSE は20%の人に高リスク(陽性)判定を出しているから、全部で1,665人いたはずだよ。
日本人のがんの罹患率は1%だから、17人がんの人がいたはずだよ。
そのうち PET-CT で8人見つかってるから、見逃しはたったの9人(感度:8/17=47%)だよ。
(※HIROTSUバイオサイエンスのプレスリリースでは48%となっているので8/16.65で計算したと思われる)
と言っているわけです。

一体このガバガバ計算はなんだ???

どちらも「日本人のがんの罹患率である1%」が、和白クリニックで検査を受けた333人を含む対象集団にも適応されることを前提に置いていますよね?
本当にそうなのでしょうか?
若い人が多かったり、逆に高齢者が多かったりする可能性はないのでしょうか?
この有病率1%不変の法則の根拠はどこにあるのでしょうか。
(公平を期すために書いておきますと、NewsPicks 側も同じ仮定を置いて計算していることになると思います。私の見解としては、両者ともに誤りだと考えています。)

更に「N-NOSE の高リスク(企業の用語でいうC,D,E)判定は20%」という表現も、「対象集団によらず高リスク判定の割合は同じ」ということを暗に意味しています。
高リスク判定の割合を同じにするためには、毎回カットオフ値が調整する必要があるはずで、そうすると毎回感度も異なる…?
あれ?私たち、今何を計算してるんでしたっけ…?

感度300%の謎

更に酷いのはここからです。
前述のHIROTSUバイオサイエンスの説明が正しかったとしても、まだ感度は48%です。
公表している86.3%という数値には到底及びません。
ここで、非常にエキセントリックな理論が飛び出します。

[PET-CT の感度を考慮していない]
さらに、計算にはもう一点誤りがあります。それは、PET-CT の感度です。
N-NOSE 中・高リスク者(C,D,E 判定)は、PET-CT 検査を受けて陽性になった場合に、さらなる精密検査を受けてがんであったかが確認されます。
つまり、N-NOSE の陽性的中率には、PET-CT の感度も含まれていることになります。PET-CT 検査を受けた 333 人中、「要検査(陽性)」となった人は何人いたのかについては、触れられていません。
医療現場での信頼が厚い PET-CT 検査ですが、感度は 17.83%と報告されており(国立がんセンターより)、推奨されるエビデンスには至っていないので自治体のがん検診には採用されていません。精度ならびに信頼性の向上は、既に医療において確固たる地位を築いている PET-CT 検査においてさえ、大きな課題となっています。
しかも、PET-CT 感度を加味して計算した場合、N-NOSE の感度は 300%を超えてしまいます。仮に、PET-CT 感度を 50%と加味した場合でも、N-NOSE 感度は 90%を超えます。これは、N-NOSE は臨床研究での精度とほぼ変わらない精度であることを示しています。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

これは流石に酷すぎて苦笑してしまいました。
感度300%って、がんの人が検査を受けたら陽性判定される確率300%ってことですか?

これはおそらく、「PET-CT の感度は17.83%(80%以上見逃す)だから、N-NOSE 陽性の333人中8人が PET-CT 陽性なら、実際には8*(100/17.83)≒45人はがんの人がいる」ってことなのだと思います。

しかし、もう一度思い出して欲しい。
HIROTSUバイオサイエンスの主張では、N-NOSE の陽性判定率は20%だから、N-NOSE 陽性333人の元となる対象集団は1665人だという話でした。
で、日本人のがんの罹患率1%ということから、その中にがんの人は17人しかいなかったはずですよね。
「1665人中17人ががんの集団」に対し、N-NOSE の検査で333人が陽性と判定され、うち45人にがんがあり(?)、そのうち8人が PET-CT で見つかりました、ということなのでしょうか。
「がんは全部で17人しかいないんちゃうんかい!」と突っ込まざるを得ない。感度300%の謎である。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

これでは意味がわからないので、次に出てくるのが「PET-CT の感度が50%の場合」という謎の仮定です。
もし仮に PET-CT の感度が50%だとしたら、8人の PET-CT 陽性者の裏には8人のがん患者が見逃されているはずだ。
そうすると、「1665人中17人ががんの集団」の中で、333人が N-NOSE で陽性と判定され、N-NOSE 陽性の中の16人ががんを持っていたことになります。
つまり、N-NOSE の感度は16/17≒94%となるので、公表している86.3%よりもむしろ高い、ということでしょう。
(16/16.65で計算しているのか?どうすれば98%という表の数値が出てくるのかわかりませんでした。)

ここで恐ろしいのが、PET-CT の感度が50%という数字には何の根拠も示されていないことです。
もし仮に50%なら N-NOSE の感度は9割を超えます。これは企業が公表していた86.3%より高いのでセーフです。と言ってるにすぎないです。
もし仮に90%なら、N-NOSE の感度は約53%である。まだ足りない。これじゃまずいから、50%ってことにしとこう。
こんなレベルの数値遊びをしているように見えませんか?
もし違うというのなら、どうして PET-CT の感度が50%と言えるのか(自分で17.83%だと言っていたではないですか!)根拠を示していただきたい。

そもそも「何かが起こる確率同士のかけ算」をして良いのは、それぞれの事象が独立の場合だけです。
N-NOSE 検査が陽性になる人は PET-CT でも陽性になりやすい(だからこそがんを判定していると言えるのでは?)はずなので、こうした事象が起こる確率同士をかけてはいけないのです。
もっとも「10人のがん患者を全員陰性と判定してしまう検査」なので、PET-CT との関連もそう高くはないとは思いますが、それでもこのような単純計算はNGです。

頑なに行わないブラインド検査

こうした一連の疑惑を晴らすために最も簡単な方法は、HIROTSUバイオサイエンスが「どの患者ががんか知らされていない状態で」検査を実施し、公表している通りの感度と特異度を証明することです。
別に検査のアルゴリズムを公表する必要はありません。
第三者機関が事前に「がんとわかっている人」と「健康な人」を集め、それをシャッフルした状態でHIROTSUバイオサイエンスが検査して、判定結果だけを報告すれば良いのです。
どうしても一般人口の有病率0.86%に合わせなければいけないのだということであれば、健常な人991人とがんの人9人から尿を分けてもらえば良いでしょう。
しかし、HIROTSUバイオサイエンスは頑なにこれを拒否しているように見えます。

[なぜ非ブラインド試験を行っているのか]
まず一般論として、体外診断の医療機器の試験においては、解析員のバイアスが入らないことから、ブラインド・非ブラインドの意味はないとされています。重要なのは、ブラインド試験を行うことそのものではなく、バイアスが一切入らない(ブラインド状態にしかならない)検査技術の確立です。判定に受検者や評価者のバイアスが入る研究や検査と、意志の伝わらない生物を使う N-NOSE 検査との間にはそもそも根本的な違いがありますが、弊社ではさらに厳密にバイアスが一切入らない状態を確立しています。 まず、以下が弊社の走性解析における解析手順です。
ステップ 1: 解析員が検査 ID 以外の一切の被検者情報を伝えられず走性アッセイによる解析を実施
ステップ 2: 結果は画像取得とソフトによる自動判定
(中略)
その上で現在 N-NOSE の研究を非ブラインドで実施している理由は、ブラインド試験を続けても検査向上に役立てることができないからです。N-NOSE の研究段階では、非ブラインドで得たがん種情報をもとに、複数の実験条件で検証することでさらなる検査向上を目的としています。

HIROTSUバイオサイエンス「一部メディアでの報道について」より

どうも線虫に「がんだよー!」って言ってもわかるわけじゃないし、解析員にはID以外の情報を伝えていないから、HIROTSUバイオサイエンス側が事前に答え(=がんかどうか)を知っている状態での検査だけで問題ない、ということみたいです。

これはもう信用の問題だと思います。

公表している感度と特異度を算出した研究において、解析員が本当にがんかどうか知らずに検査しており、それを誠実に報告したのであれば、確かにブラインド検査と結果は変わらないでしょう。
でも、企業側が事前に答えを知っているのなら、「資料を作るどこかで」手を加えることだって理論的にはできるはずです。
そうした不正が行われたと言っているわけではありませんが、研究報告通りの感度とは思えない結果が出ているのは事実であり、疑惑を晴らす方法はブラインド検査しかないわけですから、やらない理由はないと思います。
頑なに「やりたくない」「やっても意味がない」と言い続けられては、どうして結果を信じられるでしょうか。

PET-CT で見つからないがんはどうする?

ここまで見てきた通り、N-NOSE には
・企業の発表する感度(86.3%)より実際はずっと低いのではないか
・そもそも一定の感度を報告できる検査方法ではないのではないか
・公正な方法で再検査する気がないのではないか

という疑念が生じざるを得ません。
しかし、仮に感度86.3%が正しいとしても、有意義な検査だとは限らないのです。
そのことが奇しくも「PET-CT の感度」の部分で触れられているので、最後にそれを解説します。

HIROTSUバイオサイエンスの指摘通り、PET-CT はがんの検索に有用な検査ではありますが、全てのがんが見つかるわけではありません。
つまり、「N-NOSE で陽性→PET-CT で陰性」となったからといって、がんではないとも言えないのです。

気軽な気持ちでN-NOSE で検査を受けてみたら陽性となった。
慌てて PET-CT で検査したら陰性だった。
安心していたら1年後に進行がんが見つかった。
みたいなことも普通に起こり得るわけです。

では一体どうすれば良いのでしょうか?
症状が出た時に受診する?
それでは結局がんが見つかるタイミングって、普通に生活していた場合と変わらないのでは?

結局、「がんのスクリーニング検査」は、実際にがんを判別する力があったとしても、陽性時と陰性時の対応が確立したものでなければやっても意味がないのです。

例えば子宮頸がんであれば、20歳以上の女性は2年に一回検診を受けることが推奨されていますが、「検査で陽性なので何ヶ月後にまた来てください」とか「結果が良くないので精密検査を行いましょう」とか、具体的な指示が出されるはずです。
究極的には「その検査を行うことでがんで亡くなる人が減った」という根拠がなければがんスクリーニングはただの気休めでしかないのです。
「何のがんかはわからないけど、ちょっとがんのリスクが高いかも知れない」などという曖昧な結果を聞くために、大事なお金を払う必要はありません。
目的なき検査が誰かを幸せにすることはないのです。

私は何もHIROTSUバイオサイエンスを敵視しているわけでも、競合他社に指示されたわけでもなくて、このことを今一度みなさんに知っていただきたくて長々とnoteを書いています。

検査は賢く使いましょう

最後までお読みいただきありがとうございました。

(9/21に読者の皆様のご指摘を受けて下記の通り修正いたしました。)

「感度、特異度、陽性・陰性的中率と有病率」
25をカットオフ値に選択した場合の感度について
(誤)感度:6/10=90%
(正)感度:9/10=90%

(誤)一方で、カットオフ以上(陽性)でもがんでない人(過剰診断)はたくさんいます。
(正)一方で、カットオフ以上(陽性)でもがんでない人(誤ってがんと判定される)はたくさんいます。
※「過剰診断」は診断自体は正しいが診断による害が益を上回るものを指すと言うことで書き換えました。
例えば一部の前立腺がんなど非常に進行の遅いがんを80代の方で検索しても予後を改善せず生検のリスクの方が大きいなどの問題が指摘されています。
本記事の文脈における用語としては「偽陽性」が適切です。

その他体裁を整えました。

この記事が気に入ったらサポートをしてみませんか?