「統計所得」問題を整理する〜データリテラシーの無い西日本新聞を誰が叱るのか〜

12日の午前中、いきなりtwitterのタイムラインに「統計所得」なるワードが登場したので何事かと思ったら、西日本新聞が以下のような記事を配信したことがキッカケのようです。

要は、調査対象となる事業所群を新たな手法で入れ替えたから、統計上の所得が実態よりも高めに出ていることが問題だと指摘をした記事のようです。

そして実態と乖離している可能性がある数字で景気判断していいのか、という提起をしています。

反アベノミクス派は、この記事に狂喜乱舞。「もはや公的データすら信用できない」という言葉が飛び交っています。

が、はっきり言って、信用できないのはデータが読めない西日本新聞です。コイツ何言ってんだ?と思いました。

問題点を整理してみましょう。

結局、何が問題なのか?

記事を読んでも何を訴えたいのかよく分からなくて、読解力の無い私はきっとAIに代替される存在なのだと感じました。何度か読んで、

毎月勤労統計調査が発表する月間現金給与額は、新たな手法によって恣意的に操作されている。したがって統計の信頼性が疑われている。

と言いたいのだと分かりました。言い換えれば、2018年1月から導入された新手法の内容を整理すれば、疑惑は払拭するでしょう。

そもそも「毎月勤労統計」の精度は元から高くないのでは

西日本新聞の記事の文中に"最も代表的な賃金関連統計として知られる「毎月勤労統計調査」"とありますが、そもそも、その指摘が間違いです。

最も代表的な賃金関連統計は「賃金構造基本統計調査」です。年に1回発表される、賃金構造を様々な観点から把握できる詳細なデータです。

両者の違いは標本事業者数です。賃金構造基本統計調査は約78000、毎月勤労統計調査は約33000、およそ倍近くあります。

(2018/09/13 10:18)言い回しとしてダメだったので「母平均を求める際、標本平均が多ければ多いに越したことはありません。」は本文から消しますです。すんません。

加えて賃金構造基本統計調査は、標本労働者数が約168万人と明らかになっています。一方で毎月勤労統計調査は不明です。これは、毎月調査票を提出する手間を考慮して入力を省いているからです。

こうした背景から、学術的に賃金構造の変化を見るのに一般的に使われているのは賃金構造基本統計調査です。西日本新聞は、何をもってして"最も代表的な賃金関連統計"と表現したのか、その理屈を小一時間は問いたい。

両者の違いについてはこちらを参照ください。

「毎月勤労統計」が採択した新たな方法とは何か?

そもそも「毎月勤労統計」は、面倒な課題を抱えていました。

上記のリンクの通り「事業所は3年間(常用労働者5~29人の事業所は18か月間)継続して調査」しています。そして3年経過すれば、全く新しい事業所から調査を行います。

その結果、事業所が前回と今回で違うため、「きまって支給する給与」で少なからず差異が発生しました。厚生労働省の資料によれば、入れ替え前後で以下のような差があったようです。

この差異は、12月から1月に年が変わったことによる差異ではなく、標本が違うことによる差異です。景気の悪化とかは関係ありません。ある時点の新標本、旧標本でこのような差異があったのです。

毎月発表する時系列データですから、ある時点から傾向が変わるのはマズいわけです。

もちろん、前後比較できるように、例えば平成27年1月分が確定すると、指数、増減率が過去に遡って改訂されます。言い換えると、平成26年12月分が確定された際に見ていた指数と、平成27年1月分が確定された際に見ていた指数、これは違っていました。

つまり、2〜3年に1回は過去に遡ってデータは改定されていたのです。そうでもしなければ時系列比較ができなかったという事情背景があります。その分だけ、ちょっと精度に欠けるというか「どこまで受け止めていいかわかんないデータ」ではありました。

これはずっと発生していた問題で、第16回経済財政諮問会議にて麻生さんから「精度が悪い」と指摘もされました。ちょっと長いですが、引用します。

私どもは気になっているのだが、統計についてである。消費を見ていただくとわかるが、家計調査等々は、消費動向をタイムリーに把握する指標として期待されているにもかかわらず、有識者がよく指摘をされるように、販売側の統計、小売業販売と異なった動きをしている。また、高齢者の消費動向が色濃く反映された結果が出ているという言い方もされている。
毎月勤労統計については、企業サンプルの入替え時には変動があるということもよく指摘をされている。また、消費動向の中に入っていないものとして、今、通販の額は物すごい勢いで増えているが、統計に入っていない。統計整備の司令塔である統計委員会で一部議論されているとは聞いているが、ぜひ具体的な改善方策を早急に検討していただきたいとお願いを申し上げる。

要は、厚労省や総務省のデータの質が悪いやろボケなんとかしろや!いてまうぞ!です。

そこで厚労省内部で議論が交わされ、新たに導入された方法がローテーション・サンプリングです。ちなみに議論の過程は以下で拝見できるので暇な方はどうぞ。

ローテーション・サンプリングとは?

2〜3年に1回、調査の標本がガラッと入れ変わることが問題なわけで、だったらガラッと変えなきゃいいじゃん!という発想の元生まれたのが「ローテーション・サンプリング」です。

珍しい手法でもなく、例えば法人企業統計調査や労働力調査、家計調査で用いられています。以下の図は平成27年度エネルギー消費状況調査からの抜粋です。

では、今回の毎月勤労統計では、どのように少しずつ変えようとしていたかと言えば、以下のようになります。こちらの資料からの抜粋です。

平成30年1月分から部分替えが始まり、最初の2年間は半分が、以降毎年1年間単位で3分の1のサンプル数が変わる仕組みです。

その結果、以前とは違って、大きな差異が出なくなりました。これ自体は喜ばしい限りです。

ただし、平成30年1月分以前の標本と新しく加わった標本の合算での推移になるので、変化の無い標本で見比べたいですよね?というニーズもあるはずなので、ご丁寧にも参考値が加わっています。

例えば7月速報であれば、「【参考資料】共通事業所による前年同月比」という記載があります。

それが西日本新聞のグラフで描かれているブルーの線ですね。

ただし、こちらは標本数が半分なので、公表値と比較してそこまで信用できるかと言えばそうでもないでしょう。

ちなみに、西日本新聞は「現金給与総額の前年同月比の推移」に対して、平成30年1月分以降の公表値と参考値(平成30年以降も変わりない共通事業所分)を掲載していますが、「毎月勤労統計におけるローテーション・サンプリング(部分入替え方式)の導入に伴う対応について」という資料には平成29年分から記載があります。

平成30年以前は、むしろ公表値より共通事業所の方が高かったわけで、標本になんらかのバイアスがかかって、改訂前の標本はもともとちょっと低かった可能性もあるわけです。


もっと言えば、Aグループ、Bグループ、2つのグループの合算値、それぞれの前年同月比でも、それぞれを比較すると1%〜2%近い差は出てしまうのです。こうしたブレを完全に無くすなんて事実上不可能であるとも言えます。

それが統計の限界なんです。そもそも全数調査じゃないんだから誤差が出て当たり前。

国が発表している統計でそんなにズレていいのか!と言うなら予算下さい。あるいは母集団と標本から勉強してみて下さい。ズレが出ない方法を発見したら、ぜひ論文で発表して下さい。もしかしたら日本人初のノーベル経済学賞を受賞するかもしれません!

ローテーション・サンプリングとは、そうしたブレを無くすための苦肉の策の1つなのです。

つまり西日本新聞が本当に報道すべきは、毎月勤労統計調査が改善されて少なからずブレ幅が減る可能性が出てきた点です。

西日本新聞は何を言っているのか

改めて、西日本新聞の指摘を振り返りましょう。

毎月勤労統計調査が発表する月間現金給与額は、新たな手法によって恣意的に操作されている。したがって統計の信頼性が疑われている。

新たな手法とはローテーション・サンプリングであり、そもそも毎月勤労統計調査が解決したかった問題が何で、そのためにどのように適用され、そしてまだ完全には解決には至ってい無いことが伝わったかと思います。

さて、西日本新聞は何を言っているのでしょうか。

大和総研の小林俊介氏は何を言っているのでしょうか。

データリテラシーのなさを疑います。各統計の調査概要とか見たことはあるのでしょうか。

さらに西日本新聞の記事をソーシャルで拡散し、やれ「ペテン政権」と批判する人たちは、1度でも第一次資料に目を通して本当の問題と向き合ったのでしょうか。

恥ずかしい。これは本当に恥ずかしいことなんです。

★2018/09/13更新

「西日本新聞は入れ替えられた標本が無作為ではなく、上昇するように意図的に選ばれたのではないか」というコメントをもらいました。だったらその証拠を記事中に記さないと。あれだけじゃあ単なるイチャモン、刑事事件だったら記者は相手から訴えられても仕方が無いくらいの難癖です。証拠もってこい、証拠!って感じです。

この記事を書いた人、データジャーナリズムの本を出します!

最後に宣伝です。(これだけの内容を3時間でまとめたんだから宣伝くらいさせて!w)

ちなみに上記本では、オープンデータを使って様々な社会事象を読み解き、いかにバイアスを持って判断しているかを明らかにしております。

書籍のお題を挙げると…

・「世界から愛される国、日本」に外国人はどれくらい訪れているのか

・なぜネットと新聞・テレビで支持率がこんなに違うのか

・結局、アベノミクスで景気は良くなったのか

・東日本大震災、どういう状況になれば復興したと言えるのか

・経済大国・日本はなぜ貧困大国とも言われるのか

・人手不足なのにどうして給料は増えないのか

・海外旅行、新聞、酒、タバコ…若者の◎◎離れは正しいのか

・地球温暖化を防ぐために、私たちが今できることは何か

・糖質制限ダイエットの結果とデータにコミットする

・生活水準が下がり始めたのか、エンゲル係数急上昇の謎

経済問題からダイエットまで、幅広くデータで読み解いております。9月28日発売です。

安倍政権を擁護するお前の本なんか読むか!と思ったかもしれません。しかし、アベノミクス問題、貧困問題では安倍政権の姿勢をズババババーンと否定しております。

もともと私に党派性なんかなく、データから鑑みて変だったら変と言うだけの単なるデータサイエンティストです。

以上、お手数ですがよろしくお願いいたします。



1本書くのに、だいたい3〜5営業日くらいかかっています。良かったら缶コーヒー1本のサポートをお願いします。