見出し画像

文系で統計検定1級に合格した

2017/12/26 ならびに2020年4月27日に改訂。

題の通り。2017年11月26日の試験で数理と応用に受かった。応用は社会科学を選択。
20歳で合格だが、最年少というわけではないらしい。というわけで何をやったのかを記しておく。
※記事下部にいくつか追記しました しっかり読んで欲しい
※2019/11/28 受験して2年ほど経ったので、統計検定1級の効用?について書きました

自身の背景・勉強を始めた日

その前に自分のバックボーンを語っといたほうが参考にしやすいと思うので書く。
大学は一橋で文系。経済系だろと言われるが、自分は商学部商学科。専攻はデジタルマーケティングということになっている。受験で数学は使った。センター試験は新課程1年目で、データの分析が入り始めたころだった。まあでもセンターレベルなので簡単。

講義で統計学と名のつくものは受けておらず、少し関わるところの量的データ解析を受講したことがある。その内容は、特に社会科学系の論文で使いがちなことを基礎からやりましょうねという感じで、数式も使わなければデータラングリングを教えるわけでもない、まあ微妙なものだったと、振り返ってみて思う。本学の統計学に係る講義は、計量経済学などの経済学部系の講義や、一般教養であり必修の線形代数・微積分があるが、前者は受講しておらず(勉強はじめてから友人に講義ノートを借りて独学はしたけど)、後者はあまりにも出席せず単位を落とすなんてこともしている。
要は、なんも事前知識がないどころか数学的素養にも乏しい状態で始めたということになる。検定を受けるのも今回が初めて。
ただ、これは後述するが、英語は割とすらすら読める(ネイティブではないし留学経験もないけど、受験英語で)。これは役に立った。

 さて、統計の勉強を始めた日だが、

このツイートにある通り、2016年9月7日である。だが、このときは買って満足するという大学生が陥りがちなものに罹患していた時期なので、実際に勉強を始めたのは2017年頭あたり。さらに、当初は統計学というよりもPythonやRの習得にオネツだったので、数式を見始めたのは2017年の5~6月ごろ。
でもPythonやRでデータの扱い方とか「こういうときにこれを使うと嬉しい」みたいなことは攫えていたんだと思う。

勉強法

肝心の統計の勉強は、基本は本読む→わからなかったらググるを繰り返していただけ。一日何時間とか決めずに、暇な時とか、講義に集中できないときとかにやってた。特にググったりするのは電車で暇な時にちょいちょいやっていた気がする。

まず本に関してだが、とっつきやすいものを読んでふんわりイメージを掴んでから本腰を入れたという流れ。あとは、エラい人たちの力を借りて効率化しましょうという感じ。以下、読んだ本とコメント。

 ■高橋信『マンガでわかる統計学』シリーズ ☆☆☆☆☆

最初の最初に読んだ3冊。これらは良書だと思う。
どういう時にどういう流れで、どういう意図をもってやるのかが書いてある。漫画だと思って侮るなかれ。このシリーズわかりやすいから、気になるジャンルはとりあえず読んでおくのが良いんじゃないかな。

これらは読んでないけど紹介。普通に有用だと思う。

■久保川達也『現代数理統計学の基礎』☆☆☆☆☆

これがなかったら受かっていない、というかこれを完璧にしたから受かったみたいなところある。もちろんこれ1冊でいいかと言われれば違うわけだが。
解説→演習問題という、よくあるタイプの参考書形式。だが、とにかく説明が分かり易い。「いや、その分かり易いって分かり易くないだろ」っていうのはコミュニケーションを解さない数学書あるあるだが、これは本当にそんなことはないと思う。というより、これにある数式が理解できないときは、数学の理解に穴がある状態なので、立ち戻った方が良い。「それが分かり易くないってことだろ」と言われるかもしれないけれど。

■丹野雄吉『教養の微分積分』☆☆☆☆

教養がなかったのでやった。薄くコンパクトなので携帯しやすく、講義に集中できないときなどにパラパラ見て問題解いてた。教養がある人はいらないと思うけど、微積分は統計学の礎なのでおろそかにせず。

■村上正康『教養の線形代数』☆☆☆

同上。教養を求める人向け。まあでもやっといたほうが良い。

■南風原朝和『心理統計学の基礎ー統合的理解のために』☆☆☆☆

よく文系の課程で使われることがある(らしい)教科書。たしかにわかりやすい。それと、よく使われるためにググると良い解説がいっぱい出てくる。そういう意味でおすすめかも。最近続編が出た。

■山田剛史『よくわかる心理統計』☆☆


上の心理統計が良く分からなかった人が読むやつ。たしかによくわかる。ただ文中に登場するキャラがややウザい。

■東京大学出版会『統計学入門』☆☆☆

どうせ図書館に行けばあるから、たまに見るといい。図鑑風に使うのが良くて、読むものではない。買ったけど。

■東京大学出版会『人文・社会科学の統計学』☆☆

同上。買わなくていい。買ったけど。

■久保拓弥『データ解析のための統計モデリング入門ー一般化線型モデル・階層ベイズモデル・MCMC』☆☆☆☆

いつもの。統計学の勉強として用いるのは微妙かもしれない。しかし、いまは偉い人たちがこの本を元に数式を解説してくれている資料やブログがいっぱいある。それを参照しながら見ると、とても効率いい。

 ■公式過去問と教科書 ☆☆☆☆

まあやっとこう

■松井秀俊, 小泉和之『統計モデルと推測(データサイエンス入門シリーズ)』☆☆☆☆

最近用があってこの本を読んだが、緑本より数理に寄っていて良かった。これから広く読まれるようになるんじゃないか。難易度も高くないのでおすすめ。実務に向くと思う。

■椎名洋, 姫野哲人, 保科架風『データサイエンスのための数学 (データサイエンス入門シリーズ) 』☆☆☆☆

上と同じシリーズ。いいですねこのシリーズ。

だいたいこんなところ。もっと他にもチラ見した本はあるけれど、おおよそこんな感じで受かった。

使ったサイト

ググり先(?)で特に重宝していたものは、

高校数学の美しい物語(お世話になりました) ☆☆☆☆☆
Qiita(エライ人たちが書いてくれる)☆☆☆☆
はてなブログ(エライ人たちがめっちゃ書いてくれる)☆☆☆☆
SpeakerDeck(輪読会の資料がオススメ)☆☆☆☆☆
大学の講義資料(東大・一橋・慶應など、計量経済に明るい大学の資料に良作が多い)☆☆☆
Stackoverflow(Hi, domo)☆☆

最初は必ず日本語サイトを探す。なぜなら読むのが楽なので。それでも分からなかったら英語でググる。すると嬉しいことに、統計検定1級レベルはここまでやれば完全に網羅できる(逆に言えば、しょせんその程度の検定なので自慢は出来ない)。

Stackoverflowを取り上げたが、英語のサイトは別にこれに限らない。日本語サイトを探すと言った手前申し訳ないが、英語でググれること・英語でググった結果を理解できることはめちゃくちゃ重要である。論文読むときとか、あるいはなんかの分析の結果を解釈するときとか、そういうときに現れるのはおよそ英語だ。英語ができないとダメ、とまで言えそう。

 

その他 モチベについて

モチベーションは重要であるけれど、モチベーション以前に重要なことは習慣作りだと思う。モチベーションとかいう不確かなものに賭けるから終わらないのであって、IFTTTを体内に仕込めばそれが損なわれることは滅多にない。

自分はまず机に向かうこと、とりあえず本を開くことまでは習慣化してる。あと疲れたら筋トレするか、動画サイト見るかTwitterするか、そんな感じで発散している。それ以上に疲れたりしたら、もうやらないで、その日は疲れをとることに集中する。射撃しながら前進しましょう。

長く続けるコツは気を張らずストレスを溜めないことというか、真面目にやらないことだと思っていて、「今日は○○分やれなかった」とかそういうのは学習を妨げると思う。別に5分でも進捗には変わりないので、「今日はレポート書かなきゃいけないからこれだけ!」「今日は飲みに行くから数字のこと考えたくない、変なブログ眺めとこ」とか、そんな感じでいいと思う(でもそれは「5分やったからOK」ではなく、「5分という時間の長期的な重要性」を導くべきである)。気張るのが一番よくないので、ガス抜きしながらやっていきましょう。

  

なにかあったらTwitterでリプライなり飛ばしてください カジュアルな会話を好みます。

ちなみにいまは一橋大学から移り、東京工業大学の大学院にいます。

 追記

この記事を読んでいる人は、データサイエンスに関連するビジネス領域や数学、あるいは経済学などに興味がある人たちだと思う。ファクトに基づいて指針を決める、実証主義的な考えに基づく。しかし、特にこれから先、データサイエンスが当たり前になる時代においては、実証主義だけに頼るだけでは有用な知見を残せない。当たり前かもしれないが。

これは改めて書こうと思っているが、データサイエンスはデータがあるものしか表現できない。マイノリティ、被差別民といったデータなき者たちの声は、モデルの前に捨象されてしまうというのは肌感覚でわかると思う。そこで有用になってくるのが、特に文化人類学が牽引してきたエスノグラフィだったり、質的データ調査(自然言語処理とかQDAを使った調査もあるけど、それは保留)だ。データサイエンティストやエンジニアは、自分の立ち位置や権力性を意識しなくてはならない
目先の数字だけを上げたい人は「何をバカなことを」と思うかもしれないが、そういう人は意識的にも無意識的にも統計やデータサイエンスを悪く使うことに繋がることに注意してほしい。情報の量でなく情報の質が求められる時代が到来しているので、理工系の人々も人文的な方法論や思想を学ぶべきだと感じる。 もちろん、人文系が線形代数を学ばないのも問題だけれど。

マイノリティを見ることは何も企業の社会的責任を果たすという効用に止まらない。数多くの変革が少数者によって為されてきたことは、少し歴史を学んでいれば知っていると思う。みんなが大好きなジョブズやザッカーバーグだっていい。イノベーターを目指すなら、文理の壁は無くした方がいい。

自分がこの追記で述べたいことは、データサイエンスやAI人材志向の偏重に対する近視眼的な暴走への懸念だ。 データサイエンティストが悪い人だと言っているわけではない。むしろ彼らの中に世の中を幸せにしたいと思っていない人がいるのだろうか。ただ、「地獄への道は善意によって舗装されている」というのも真だ。善意を持っているのなら、それをより正しい方向へと発揮するようにしたい。そのためには、まずは自分を客観的に知ることが先決だ。

もし自分の立ち位置を客観的に捉えたい人は、以下の本を手元に置くことを強く勧める。「社会科学」と題にあるが、文脈を超えて通用する。主義(立ち位置)の分類と同定に始まり、用いられる方法論を非常に明快にまとめている。これによって、立ち位置と用いる方法論の齟齬を減らすことができるだろう。研究をする人もしない人も、必ず役に立つと思う。なんなら研究(アカデミックでもビジネスでも。商品開発もそう)する人で自分の立ち位置が明快でない人は、すぐに立ち返った方がいい。

 むしろ自分はこっちのが専門なので、なにかありましたらリプください。

 

皆様のサポートは本になります・◡・