見出し画像

研究データを公開したらどうなるか。データ盆栽家のたしなみ。

これは、Open and Reproducible Science Advent Calendar 2019:22日目の記事です。

昨今、科学の再現性・再生性にまつわる様々な課題が科学のあらゆる領域で話題です。データ盆栽家(Messyなデータの整然化が好き)としてアカデミアの片隅にかろうじて生息しているワタクシとしては、「オープンデータ」という福音がもたらされた瞬間でもあります。

再現性・再生性の理念や方法は様々なところで書かれていますが、では実際研究データを公開したらどうなるのか、というのがあんまりないかなー、ある方がみんな公開してくれるかなーと思い、アドカレの波に乗って、そのあたりのおきもちをここに晒していきたいと思います。

ところで研究の再現性・再生性の問題って?

再現性・再生性の問題とは、大雑把に言えば、「インパクトファクターの高いジャーナルに載った論文でさえも結果が再現できなくなくなくなくない?金ドブじゃない?バッカにしてくれちゃって~(ポプテ風)」ってことです。結果の正当性を担保していたのが、同業者による論文の査読システムで、いわゆるクローズドソース開発のようなやり方を一生懸命やっていたわけですが、これが思ったよりワークしていないということが明るみに出てきました。

プロセスも透明化しよう

その対策として考えられているのが、自分に都合の良い結果を得るための改ざん防止として事前に実験・研究計画を公開しておくとか(どこにだよ)、使ったデータや書いたコードを公開する(どこにだよ)、といった研究の透明化です。こういった透明化の様々な手法や理念をオープンサイエンスと総称し、研究データを公開するのはオープンデータに該当するそうです。医学系研究者であれば、臨床試験のエッセンスを取り入れるというと、「あっハイ、あの面倒くさいやつね。うわ~。」と即座に理解できることでしょう。

(ちなみに上記をもっと正確かつ高尚に書いた文章はJCORSのアドカレにたくさんあるのでそちらを御覧ください。オープンサイエンス自体はかなり昔からある運動です。)

データ盆栽家は福音を感じた、それはなぜか

せっかく労力をかけて作ったデータ盆栽ですが、実際のところ、オーダーメイドのsingle-useばかりで、単なるストレージの中身に落ちぶれてしまうのが関の山でした。数年経てば何だったかも思い出せなくなるし。ウッ。。。

そんな中、エンジニアの世界のオープン化の後塵を拝しているアカデミアに吹いたオープンデータの嵐が、我が臨床疫学界隈にも扇風機の風くらいになって吹きはじめたのであります。

( ゚∀ ゚)ハッ!これはもしや、死蔵しているデータ盆栽を再び世に出すときが来たのでは…

公開したらどうなるのか

ということで、オープンサイエンスの流れに従って、筆者は2014年度のデータから、日本の保険医療機関(病院・診療所)・薬局の医療機関番号つき一覧を、多少他の情報を付加しつつ公開しています。この一覧は、地方厚生局という地域ごとに公開されている情報ではあるものの、csvの一つのセルにいろんな情報を詰め込み、かつ各厚生局によって微妙に表現型を変えてくるという狂気&狂気な仕様(当時の公開方法はcsvか驚きのPDF)であっため、自力で整然化する以外に道がないという必然性で作りはじめました。当初は色々とうまくいかないことがあって試行錯誤していましたが、最近は省力化も進み、データソースもややきれいになり、さほど作成に労力はかかっていません。使わない人には何それただの電話帳?という情報ですが、企業が販売もしているのでそれなりに需要はある模様です。さて御託はさておき、今回のテーマである公開したら現実的に何が起こるのか、ということですが、

特に何も起こらない

よくよく考えてみても、

特に何も起こりません。

エッ と思うくらい何も無いです。

あえて言うと、

「ここが間違ってます」

っていう連絡は稀にいただきます(ありがたやー)。

不利益は起こらないのでどんどん公開しよう

研究データを公開するということに対して、「プライバシーの問題」は確かに課題です。プライバシー山盛りのデータを勝手に一般公開したら、公開した本人がお縄になって閉じ込められることは避けられません。このような場合は、どこまでなら公開できるのか、ということを検討するしかなく、断念せざるを得ないことも多いと思います。しかし本音を言えば、プライバシーの問題が解消されたところで、「苦労して作ったデータを誰かが楽して業績にするのは許しがたい」「もうすでに任期付き雇用で搾取されているのに、ギギギギ」というところもラスボス的障壁になっているのではないでしょうか。

ですが実際のところ、データに不備があっても感知しない宣言はしていますので、公開したところで個人的な不利益はありませんでした。そのあたりは鷹揚に構えるとよいのかもしれません。

いいこともある

データを公開したところで、世界がかわるようなことはないけれど、いいこともあります。死蔵してる盆栽が日の目を見るということ以上に、普段接触することがあまりない直接的な『エンドユーザー』が出現することは大きいです。

研究データや細胞が

「Hello world! おまえの研究、ゴミだな!hahaha!」

と喋ってくることはないので、これはなかなかの新感覚です。同業者や行政官と研究について話すというのとはまたちょっと違うライブ感と言ったらよいのでしょうか。まさしく店員さんを体感できます。

しかしですね

再現性・再生性に対する様々な対策は、有り体に言えば「透明性の担保のためにこれまでやっていなかった面倒なプロセスを踏む」という事なので、なかなかそのような「正しさ」だけでやる気がおきるような人は(JCORSにいるような外れ値を除き)まれです。Githubでコードを公開するにせよ、レポジトリサイトに登録するにせよ、特段決定版というようなお作法も定まっておらず、現状では研究者の個人的な興味関心の枠から出ていません。

このあたりは、研究業績と連動できるような仕組み(既にデータジャーナルのような動きはありますが)がないと、データを公開したい欲求がもともとある盆栽家はさておき、普通は取り組みに対するモチベーションが生まれないように思います。

最近は

研究データを公開してもあまりにも何も起こらないので、データ不備は使う人が直して頂ければ、、と思っていたのですが、「実は使っている」という声をちらほら耳にするようになりました。研究者だけではなく、企業や行政からも問い合わせがあります。

一人で作ったデータ盆栽には精度管理にどうしても限界があって良心の呵責もあるので、興味のある人が集まってデータを作成し、公開していくという試みを始めたところです。いまは始まったばかりでクローズドな分科会として活動しており、そのうちこの会から何らかの成果が公表できるといいなと思います。同じ課題を感じ、エフォートを割いてくれる人が思いの外いるということも巡り巡ってわかりました。

研究データを公開することによって、どれだけ学問的な貢献があるのかというのは未知数です。透明化によって再現性・再生性を担保するという建前はありますが、実際には公開情報を利用してくれる人が現れなければ、パケットの無駄使いで終了する可能性も大いにあるでしょう。

自分の頭は有限で、スイカ程度のものが一つあるだけです。私もデータを公開するまでは、『少なくとも政府機関や自治体の人は余裕で一覧データを入手できるに違いない。間違いない』と思っていましたが、残念ながら世の中そういうことにはなっていないということを知りました。自分が当初考えていなかったような他の分野の人が全く違う目的に使ってくれることもあると思います。市民の方や学生さんが使ってくれるかもしれません。公開されたデータによって新たなサイエンスが生まれることは、まさしくオープンサイエンスの理念といえます。

こういったことを事前に想定したり、研究業績に書くことはできませんが、広い意味ではそれも研究成果の一つなのではないかと思います。お手持ちのデータが死蔵されているそこのアナタ!オープンデータはいかがでしょうか?




この記事が気に入ったらサポートをしてみませんか?