見出し画像

生物学者はアマチュアITエンジニア?#1

どうも、こんにちは。ぞんずです。
皆さんお元気でしょうか。

スコットランドの大学で博士課程に進み、現在はクジラの研究をしています。スコットランドの夏は日の出時間が長く、1日がとても長く感じられます。

さて、本題の「生物学者はアマチュアITエンジニア?」に入る前に、断っておきたいことがあります。
生物学者の中にはITエンジニアリングのバックグラウンドを持つ方がいらっしゃいます。彼らは「アマチュア」ではなく、れっきとした「プロ」です。ちなみに、この記事では「ITエンジニア」という言葉を広義的に「データ管理・プログラミングを書く人」として使用しています(タイトルにデータサイエンティストと書くとカタカナが多くなっちゃう気がしてしまって、、、)。

本記事では、私のように学部生の頃からずっと生物学(または別の学問)の勉強・研究を進め、プログラミングや統計学を独学で学んできた方々を対象にしています。なぜ我々のような研究者が「アマチュア」と思われてしまうのか。また、どのように「プロ」を目指せるのか。何回かに分けてお伝えしていけたらなと思います。



1. 生物学者はアマチュアITエンジニア?

今回のタイトルについてですが、なぜ、生物学者はアマチュアITエンジニアと言われているのでしょうか?

歴史的に生物学(特に生態学)は他の理系分野(物理学や化学)に比べ、定量的なデータが少なく、定性的なデータに基づいて生物の生態を記録、または理論を組み立てていくことが一般的でした。しかし、近年の急激な科学技術の発達に伴い、動物の行動やゲノム情報などの定量データが爆発的に増え、新しい手法を用いた解析方法の習得が必須となりました。

対して、大学の生物学の授業で大量のデータを解析するためのプログラミングスキルや統計解析方法をなかなか教わりません。したがって、多くの研究者が独学でプログラミングや統計学を学び、データ管理方法や統計解析方法が杜撰になるケースが出てきてしまいます(もちろん、中には卓越したプログラミングスキルを持った研究者もいます)。

ゲノム学スキャンダル - エクセルを信用するな!

私たちが普段、エクセルに日付や金額を入力すると、自動的に「数字」からそのデータに合ったフォーマットに変換してくれます。

しかし、エクセルに科学的なデータを記録するとどうでしょう。遺伝学では、エクセルに癌関連遺伝子である「SEPT」遺伝子を記録すると、日付に自動変換され、正しい解析結果が得られなくなってしまうことも。
実際、エクセルの入力ミスが原因で論文の約30%が間違っているのではないかと指摘する研究者も中にはいます。

もちろん、エクセルにこれらのデータを「GeneSymbol」として認識させてあげれば解決できる簡単な問題かもしれません。しかし、大量のデータ、大量のエクセルシートを相手に解析を行うと小さなミスが起こる確率はゼロではありません。論文を執筆する際、こうした小さなミスが命取りになってしまうのです。

その解析結果、本当?

生物学は主に「統計学」を用いて雑音の交じったデータからパターンを導き出し、理論を組み立てていきます。しかし、「統計学」は有能なツールでありながら、使い方を間違えると、解析結果が妄想話で終わってしまう、恐ろしい側面を持つツールです。

「p値操作」、または「p-hacking」 という言葉をご存知でしょうか。統計学的に有意義な結果(p値が0.05未満)を得るために解析方法を模索することを指します。周囲からのプレッシャーに耐えられず、意図的にp値操作してしまうケースはありますが、かなり稀(であると信じたい。。)です。

しかし、大半の研究者は「無意識のうちに」p値操作してしまうのです。。。
怖くないですか?

p値操作はどのようにして起こってしまうのでしょうか?
一つは「Null hypothesis」、「帰無仮説」の理解不足に原因があると考えられます。
例えば、厳密な実験を行った場合、一つの変数のみを変化し、その変数がどのように結果に影響を与えるのかを調べることができます。この際、「結果に何も変化がない」という明確な帰無仮説を立てることができます。

しかし、生物学や心理学、経済学などの学問では、倫理的な観点から厳密な実験を行うことが難しい場合が多々あります(例:携帯の電波が常時放たれている部屋に人間を1年間閉じ込めたら、脳にどんな変化が起こるだろう?)。この場合は観測データを基に、どんな変数がどんな構造で影響しあっているのかを深く調査した上で、統計解析に移ります。

観測データを基にした統計解析では、厳密な実験を行っていないので、明確な帰無仮説を立てることは難しいです。もしかしたら、私たちが気づいていない変数(Z)が原因(X)と結果(Y)に影響を与えているかもしれない。このような可能性を払拭できないため、p値を基準とした解析結果は信頼できないのです。

2. 結局、どうしたらいい?

エクセルは信用するな、統計解析方法を見直せ、、
じゃ、結局どうすればいいんだ?

  1. データ記録や解析方法を記録していくこと。

  2. 統計解析をテストし、本当に結果に差異があった際、どのような結果を期待するべきかをシミュレーションすること。

  3. 1と2のプロセスを繰り返し行うこと。

記録

科学者として重要なのはデータ記録や解析方法を記録していくことにあると思います。記録といっても、ノートに記録するだけではなく、「バージョンコントロール」を行うことです。

バージョンコントロールとは、コードや書類をどのように変化したのかをパソコン上で細かく記録していく事を指します。こうすることで、いつでも時間を遡り、どのようにコード(統計解析)を編集したのか、などを吟味することができます。

これは「Git」というツールを用いて行うことができます。Gitに関しては次の記事でもう少し細かく説明していきます。

テスト・シミュレーション

観測データに基づいた統計解析ではシミュレーションを行うことを強くお勧めします。例えば、タバコと寿命の関係性を調べる際、想定範囲内の変数(運動量や摂取カロリー、住んでいる地域など)を設定し、どのくらいのタバコ使用量でどのくらいの寿命の変化が見られるのかを事前にシミュレーションすることで、仮説検証をある程度行うことができます。

統計解析のシミュレーションについても記事を書きたいと思います。

3. おわりに

最後の方はGitや統計シミュレーションについて勿体ぶってしまいましたが、次回はこれらの内容について記事を書いていきたいと思います。

Gitの使い方を学びたい!という方は、以下のSoftware CarpentryというWebサイトをお勧めします。

英語のWebサイトになってしまうのですが、とても分かりやすくまとめられているので、ぜひ、興味のある方はご覧になってみてください!

引き続きよろしくお願いします。

ぞんず

この記事が気に入ったらサポートをしてみませんか?