見出し画像

「専門家でも分かるように信頼区間の説明をしてください」という面接質問は無理ゲー

データを集めた後に確率の推測をしたい」という記事で少し触れた、伝統的な統計学でいうところの「信頼区間」と、ベイズ統計でいうところの「信用区間」の話について、最近思ったことを紹介します。

データサイエンティストの面接でよくある質問

データサイエンティストは機械学習やら統計学の専門的な知識が必要となる業務なので、どの会社でも面接では専門性を聞くことが多いかと思います。私が勤めている会社でもそうです。その中でもよくある質問が、「専門家でない人にも分かるように、信頼区間の説明をしてください」というものです。似たような質問で、「専門家でない人にも分かるように、p値について説明をしてください」というものがあります。

実は私も面接で何度か聞いたことがあります。ただ最近この質問は非常にタチが悪いのではないか、と思うようになりました。その理由は端的にいうと、

統計学を学んだ人でも信頼区間を誤って理解している人がいる

ということになります。ここから導き出されるもう1つの疑問が

専門家でも理解が難しい概念を、どうして非専門家が理解できるのか

という点です。面接試験という設定上、ここでいう非専門家はビジネスチームの偉い人を指します。誤解しないでほしいのですが、非専門家が愚かだということではありません。どういうことか、順を追って説明したいと思います。

信頼区間とは

その前にそもそも信頼区間とは何か、という説明をします。統計学では有病率とか平均視聴率とか平均体重とか、何かデータから推定したいことの「信頼区間」というものがあります。例えば有病率でいうと、「95%信頼区間は5%から10%」というような表現をします。ではこれはどう解釈できるのか。よくある間違いが、

95%の確率で有病率は5%から10%の間にある

というものです。これはよくある勘違いで、Wikiにも書いてあります。

Common misunderstandings

See also: § Counterexamples
Confidence intervals and levels are frequently misunderstood, and published studies have shown that even professional scientists often misinterpret them

- A 95% confidence level does not mean that for a given realized interval there is a 95% probability that the population parameter lies within the interval (i.e., a 95% probability that the interval covers the population parameter).

https://en.wikipedia.org/wiki/Confidence_interval#cite_ref-12

かなり回りくどくなりますが、正しい解釈は、

もし同じようにサンプルを繰り返し100回取ったとすると、そのうち95回について、信頼区間は正しい有病率(=母集団の有病率)を含む

というものです。

面接質問

これの何が難しいかというと、まず第一に面接で信頼区間の質問をしている人は、信頼区間を正しく理解できていない可能性がある、ということです。つまり「95%の確率で推定したい値がこの区間の間に入る」と誤解している可能性です。

信頼区間を誤解している人が面接で質問してきた場合、期待している答えは「95%の確率で有病率がこの区間に入る」というものだと思われます。ただ、これは厳密には不正解です。そのため正しく質問に答えると、面接にパスできない可能性が高いです。

では逆に面接で質問した人が統計学を修めていて、信頼区間も正しく理解している人だった場合、非専門家に信頼区間をどのように説明すれば良いのか。これも非常に難しいです。というのも、このブログを読んでいる人は統計の非専門家の方が多いと思いますが、「もし同じようにサンプルを繰り返し100回取ったとすると、そのうち95回について、信頼区間は正しい有病率(=母集団の有病率)を含む」という説明を聞いて、理解できる人はほぼいないと思うからです。

この時、どのような模範解答があるのか、自分もこれまで質問しておいてなんですけど、正直なところ非専門家に信頼区間を正しく、かつわかりやすく説明するのは無理だよな、と最近思うわけです。上記のような説明では非専門家はわからないので、正しい答えではあるのだけれでも、結局面接は通らないのではないか、と思います。

整理すると

  1. 面接をした人が信頼区間を正しく理解していない => 面接にパスする回答は統計学的には間違った回答

  2. 面接をした人が信頼区間を正しく理解している=>面接にパスできる回答は存在しない

というわけで、唯一面接にパスできるのは1のケースで、統計学的に間違った回答をした場合、ということになります。もし面接に通ることを目的とするのであれば、1の回答をする方が可能性としては高いです。

更なる問題

これで一件落着、と思いきや、1のケースで無事面接に通った場合でもそれはそれで問題がありそうです。というのも、入社する会社には統計や機械学習について間違った理解をしている人が多いかも知れず、それはそれで科学的に全く間違ったことを問題解決に使っていたり、科学的に達成できないようなプロジェクトが走っている可能性があるからです。

じゃあどうする?

少なくとも個人的には面接で「非専門家にもわかるように」という質問をするのはやめようと思います。

信頼区間を正しく理解する、というのは数理統計を学ぶ大学生が理解できたら結構大きなマイルストーンとなるような出来事で、大数の強法則と大数の弱法則の違いを理解できるようなものです。それなりに基礎的な数学と統計学の哲学というか考え方を学んでいないと、信頼区間の説明はしっくりこないのではないかと思います。

頻度主義の統計だと、例えば有病率のような推定したいものは、ある特定の値を持つ未知数、というように扱い、一方でベイズ統計だと有病率は確率変数だと捉える、という違いがあります。で、この説明自体も多分よく分からないと思います。

先ほど引用した英語版Wikiでも、

According to the strict frequentist interpretation, once an interval is calculated, this interval either covers the parameter value or it does not; it is no longer a matter of probability. The 95% probability relates to the reliability of the estimation procedure, not to a specific calculated interval.

https://en.wikipedia.org/wiki/Confidence_interval#cite_ref-12

と書いてあって、この文章を理解するにも結構な統計的な教養が必要です。「信頼区間を一旦計算すると、その区間は推定したいパラメーターを含むか含まないかのどちらかで、確率の問題ではない。95%信頼区間といった時の確率は推定のプロセスの信頼性について述べているのであって、計算された区間についての確率ではない。」

信頼区間について、昔の教科書など引っ張り出して復習しながらもうちょっと詳しく書く予定です。

この記事が気に入ったらサポートをしてみませんか?