QST(NICT, 阪大)からのプレスリリース(2023.11.30)へのコメント
量子科学技術研究開発機構(QST)量子生命・医学部門 量子生命科学研究所、情報通信研究機構(NICT)未来ICT研究所、大阪大学大学院生命機能研究科から発表された最近のプレスリリース
とメディア報道に対して、いくつかの懸念点があるため、ここに記載します。
論文について
主に最近のプレスリリースに対する懸念を述べたいと思いますが、論文自体に関する懸念についても触れておきます。より詳細な分析と専門家向けのコメントは、英語でのコメンタリーとして後日公表する予定です。
この論文は、間島 慶さんを責任著者として執筆され、Neural Network誌に掲載されました。間島 慶さんは私の研究室の元メンバーであり、共著者である他の二人も個人的に親交のある研究者です。私にとって、リスペクトする研究仲間の論文発表に対して批判的な意見を述べることは胃が痛む思いですが、これまでの個人的な対話では解決しない問題があり、これを放置すると研究分野全体に悪影響を及ぼす可能性があるため、やむを得ずこの場で指摘することにしました。この批判は個人的なものではなく、学問的な見解に基づいたものですので、その点を理解していただければ幸いです。下記のコメントは、研究室のメンバー、とくに、Fan Chengさん、白川健さん、田中美里さんによるレビューをベースにしています。
プレスリリースされている論文は、私の研究室の論文(ATR, 京都大学; プレプリント, 2017; Plos Computational Biology, 2019)にもとづいています。以下、Shen et al (2919)として言及します
間島さんは共著者として重要な貢献はしましたが、プロジェクトをリードした研究者ではありません。とくに、プレスリリースされた論文で扱っている想起イメージの実験や解析については、間島さんの貢献はほとんどなかったと記憶しています。当時の研究室メンバーの堀川友慈さん(現在、NTT コミュニケーション科学基礎研究所所属)が関連研究もゼロの状態から立ち上げたものです。
Shen et al.(2019)は、脳活動から深層ニューラルネットワーク(DNN)の画像特徴を介して、知覚内容と想起内容を画像として再現した論文です。この手法(Deep image reconstruction)により、これまで困難だった想起画像の再構成に初めて成功しました。ただし、その精度は低く、大まかな形しか再構成できていません。背景については、日本語のこちらのエッセーも参照してください。
間島論文では、われわれが公開したShen e al. (2019)のデータ・コードを使用して、画像特徴に加えて意味的特徴も活用して再構成することで、想起画像の再構成精度が大幅に改善されたと主張しています。後で詳しく述べますが、定量的な評価は、評価指標の妥当性のチェックが必要になります。視覚像再構成の目的は、知覚や想起に類似するものを生成することなので、まずは、目で見て似ているかを判断することが重要です。想起イメージの再構成画像は間島論文のFig 3, Supplementary Fig 8, 9 に示されています。下の図はSupple,etary Fig 9ですが、この中でTarget image(事前に見せて覚えさせた元画像)を正確に再構成しているもの(ours=間島論文)はあるでしょうか。
残念ながら、私には(研究室のメンバーにも)、大まかな形状以上に元画像を正確に再現しているものは見当たりません。報道発表で使用している以下の画像は、細かい部分も似ているように見える唯一の例です。しかし、動物のような顔が画像が出てくることはノイズを入れても一定の確率で起こることで、天井のシミを見て顔を知覚する「パレイドリア」の要素もありそうです。
Shen et al.(2019)にくらべてより線的なパターンが現れていますが、それが当たることもあれば外れることもあります。ただ、奇妙なことに、上でShen et al.(2019)による再構成として表示されているものは、実際の論文のものとは異なります(手法に複数のオプションがあるので組み合わせが異なるということだと思いますが)。また、われわれがレポジトリで公開している標準ライブラリによる結果とも異なります。Shen et al. (2019)の結果をプレプリントで報告した2017年時点と比べて、前処理に違いがあるだけですが、想起データで改めて確認したところ、以下のように、形状はくっきり出るようになります(一行目が元画像、2−4行目が異なる被験者の結果)。色は相変わらず正確でありませんが。
したがって、間島論文の再構成画像はフェアな比較もできていないように思います。間島論文のコードが公開されれたら詳しく検証します。
間島論文では、精度を定量化するために、各再構成画像が元画像と他の画像のどちらに近いかを判別(同定)してその正答率を調べています。この同定解析は、Shen et al.(2019)では、人の評価者をによって同定してもらい80-90%の正答率が得られています(Fig 8)。
間島論文では、人による評価を行わずに、再構成画像を再びDNNに入れてDNN特徴の類似度に基づく同定解析を行っています。これは、人による評価にはコストがかかるため、簡便に評価を済ませるためにわれわれが別の論文Ho et al. (2023)で用いた手法で、あくまで人による評価の代替手法に過ぎません。また、間島論文では、画像生成時の評価関数に用いたのと同じDNNを用いて類似度を計算しており、評価指標の「二度漬け」になっています。そのためバイアスが生じている懸念があります。さらに、この2択の同定解析は、画像を大まかに分類するだけでも(たとえば、自然画像 vs. 人工的形状)チャンスレベルよりは高い値は出るので、再構成精度の評価という点ではかなり緩い指標であることにも注意が必要です。
ここでも奇妙なことに、間島論文の同定解析によりShen et al(2019)の評価結果が、チャンスレベル、すなわち、再構成画像から2つのうち一つを当てることすら全くできないという結果になっています。人が見れば80-90%当てられるわけですから、この代替指標に問題があるというのが自然な解釈でしょう。コードが公開されれたら詳しく検証します。
間島論文では、再構成画像の評価にはInceptionスコアも採用していますが、この指標は、生成画像群の多様性と自然さを評価するもので、元画像と対応していなくても高い値がでます。これを元に再構成精度が向上したとするのは不適切です。
また、間島論文では新しいベイズの枠組みを提案したと主張していますが、実際のデータ分析ではShen et al.(2019)の枠組みの中で、最適化アルゴリCLIPというDNNの意味特徴を反映させたただけです。ベイズ的に言い換えただけで、新しいアプローチを構成しているようには見えません。
CLIP特徴を取り入れたことが成功のポイントであると主張していますが、Fig 7にある彼ら自身の定量的な評価では、CLIP特徴の有無で精度はあまり影響を受けないことを示しています(上述したように、この評価指標自体が不適切である点にも注意が必要)。もし仮に意味的特徴が有用だとしても、それは言語的なイメージと対応するものかもしれず、視覚イメージの内容を読み出すという本来の目的とは異なる現象を捉えている可能性があります。
言語的な特徴を用いて画像を再構成する試みには他にも注意が必要です。私の研究室の白川 健さんが中心となってこの問題の検証を進めています。
率直な感想として、主張をサポートするための信頼性の高いエビデンスがないという印象を持ちました。査読が機能しなかったのだと思います。最近は、AIやコンピュータビジョンなど神経科学以外の分野でも、脳データを使った再構成の研究発表が増えています。残念なことに、トップカンファレンス・トップジャーナルであっても、まともな査読を受けたとは思えない、見せかけの再構成論文が多数見られます。われわれが啓蒙・改善していくべき課題です。しかし、完璧な論文や査読というものはないことも忘れてはいけません。まだ本当かどうかよくわからないことを専門家が議論する場が学会やジャーナルです。根拠の乏しい論文が出ること自体はある程度許容すべきでしょう。しかし、根拠の乏しい研究成果を、専門家集団で吟味せずに一般の人に直接大発見であるかのようにアピールすることに対しては、厳しい目を向ける必要があると考えます。
QSTのプレスリリースについて
上記の内容を踏まえ、プレスリリースをチェックしていきます。日本において研究者が直接プレスリリースの内容を作成するケースが多いことは理解していますが、通常は研究機関が公式に発表する形を取っていますので、その観点からコメントします。また、私はShen et al. (2019)に責任著者として関わっておりますので、その点については私の意見にバイアスが存在する可能性があります。その点を考慮し、適宜判断していただければと思います。
タイトル
想起イメージを生成AIと数理的手法を用いて復元することを初めて実現したかのように読め、ミスリーディングです。風景の想起イメージを再構成したと言えるようなエビデンスは論文に見当たりません。
ポイント
「世界で初めて成功」の前の部分は、Shen et al (2019)の説明になっています。これがなぜ、QST(NICT, 阪大)が世界で初めて成功したことになるのでしょう。
概要
上で示したように、このようなことに成功していません。
既存のデータと手法を用い、評価関数の一部を変更した研究にこれだけの予算が必要だったのでしょうか。各ファンドについて、このプレスリリースと同様の誇張した報告が行われていないか、また、報告によって誤った評価が行われていないかチェックする必要があるかもしれません。
本研究成果の概略図
図のほとんどが、Shen et al. (2019)の説明です。
これも、Shen et al. (2019)の説明で、独自性のある部分ではありません。
研究の背景と目的
プレスリリースで示されている再構成画像の例は、論文の結果の代表的な例にはなっていません。チェリーピックされているように見えます。上述のように、Shen et al. (2019)からの例がどのように選ばれたか謎で、フェアな比較になっているのか不明です。これらの例で、細かいパターンが生成されていることは確認できますが、それが正しいパターンなのか判断は難しいです。
自分たちが過去に取得したデータを使っているかのように書かれていますが、間島さんが私の研究室に所属していたときに一部のデータの取得に関与した以外、論文の著者は実験に貢献していません。QST、NICT、 阪大の施設やリソースは一切使用していません。
研究の手法と成果
ここでの記述も大部分が、Shen et al. (2019)の説明です。
上述の通り、これはShen et al. (2019)の結果と整合性がなく、評価指標自体の妥当性が問われます。人が見れば80−90%当てられることが示されているのに、「全くヒントにならない」結果となる指標を使う妥当性はあるでしょうか。
プレスリリースとは
根拠の乏しい論文を出すこと以上に、根拠の乏しい成果を一般の人にアピールすることの方が問題であると上で述べました。誇張されたプレスリリースは、多くの人に誤った情報を植え付けるリスクがあり、これが政策やビジネスの誤った方針を導く可能性があります。これは税金の無駄遣いにつながり、社会からの信頼を損なうことになりかねません。さらに、信頼性の高い研究を行っている研究者への資金やポジションの配分が不十分になり、アカデミア全体の腐敗を招く恐れもあります。何よりも深刻なのは、研究者自身が自分の研究や専門分野に対する誇りややりがいを失ってしまうことです。これらの点に関連して、最近、新聞のインタビューを受けました。
以前このようなことも書きました。
神経科学は比較的新しい分野であり、伝統的な大学の専攻区分ではまだ十分な位置を確保していないのが現状です。この背景から、QSTやNICT(CiNet)のような国立研究機関が神経科学の研究と教育において重要な役割を担ってきました。これらの機関は国の政策に影響されやすく、霞が関や政治家にアピールできる目立つ研究を通じて予算を確保することが行われてきました。国の大型研究費の配分を担う省庁の担当者や審査する「有識者」、また、研究機関の上層部がいとも簡単に、研究者のセールストークとメディア受けした「実績」に騙されるのを数多く見てきました。
私自身も、100%外部資金に依存するATRでの研究経験から、研究成果のアピールの必要性は十分に理解しています。しかし、過去の行動を振り返ると、その方法について忸怩たる思いを持つこともあります。やはり科学研究は、長期的な視点と真摯な探究心を持って進めるべきです。研究機関としては、短期的な成果やメディアの注目に惑わされず、着実な進歩を目指すことができる環境を確保していただきたいです。
(2024.4.19)追記
いまだに、コードは公開されていません。githubのページだけあります。
と、論文でも公開が約束されているのですが…
(2024.7.25 追記)
コードの一部がようやく公開されまた。公開の内容は十分とは言い難いですが、一歩踏み出したことは評価したいと思います。公開された補足情報により、論文に記述されていなかった重要な点が明らかになり、不可解な結果の背景がある程度理解できるようになりました。研究室で精査してコメンタリを出しますが、この論文とプレスリリースを正当化するような情報はありません。
生成AIを使用する際の注意点として、下の論文・スライドでも議論しているように、複数回の出力を行えば、もっともらしい結果が偶然得られることがあります。
とくに、小出-西本-間島論文のように、Langevin dynamics でノイズを加えながら画像を生成する方法では、脳データが同一でも毎回少し異なる画像が生成されます。論文やプレスリリースで成功例として表示している再構成は、何度も生成を繰り返さないと再現できないようです。研究者としての責任は、このような結果を慎重に扱うことです。恣意的な結果の選択は、一般の人々の科学に対する信頼を損なう恐れがあります。
プレスリリースについては、量子研に対応を求めていますが、現在のところ組織の責任者からの返答はなく、広報部門からのクレーマー向けと思われる定型的な返信しか得られていません。さらに、日本の主要な研究資金配分機関である科学技術振興機構(JST)の対応についても懸念をもっています。JSTは自身のウェブサイトで問題のあるプレスリリースを掲載し続けています(https://www.jst.go.jp/pr/announce/20231130-2/index.html)。特に懸念しているのは、JSTの資金によらない研究成果を、あたかも自らが支援した成果であるかのように広報している点です。このような行為は、研究成果の帰属と公的資金の使用に関する透明性を損なう恐れがあります。
研究の透明性と公的資金の適切な管理は、科学の信頼性を維持する上で極めて重要です。両機関には、これらの懸念事項に対して迅速かつ誠実に対応することを強く求めます。このような対応なくしては、科学コミュニティーや一般公衆の信頼を維持することは困難であり、ひいては日本の科学研究の発展にも悪影響を及ぼす可能性があります。