見出し画像

データ分析勉強中

私はIT企業で働くワーママ(もうすぐ4歳娘あり)。
休職から復帰する準備でデスクワーク練習をする必要もあって、最近、リスキリングとしてデータ分析を勉強している。

動機と分野の理由

私はITの仕事をしていて、専門分野は夜間/休日のメンテナンス作業が不可欠。今は子育て中ということで免除されているけど、そのことで同僚にしわ寄せがいっていると心苦しく思っていた。なら夜間休日作業が前提でない分野に行ったほうが、まだ居心地はよくなるんでは?という動機だ。

リスキリング分野としてデータ分析を選んだ理由は、「在宅ワーク可能/副業1人月の稼働でなくてもよい副業ありそう(小1の壁対策)/サイアク副業で使えなくても勉強したと職務経歴書でアピールできそう/自分の性格」。
文系出身かつ子育て中で時間がないなかで、ごりごりのデータサイエンティストになるのは厳しい。けれどデータ専門職にこだわらない。販売予測といった分析のところは、ユーザー企業の情シスだったり、その他企業だったりで選びでプラスになってくれる…といいなぁ…わかんないけど…とおもっている。
あとデータ分析は、トレンドではあるけれど、そんなに仕事(ポスト?)は多くなくて、稼ぐのが大変というSMSも見た。むしろそれは好都合。一人月ごりごり仕事がありまくる仕事では、小一の壁対策にはならない。私は仕事人生を細く長くしてくれればいい。

学習方法

最初は有料スクールに通おうとしたけど、スクールとなればまとまった講座出席時間が必要。私はまだ半ば病人でもあるので、なるたけ大きな労力をかけるのは避けたい。なので本と動画などを使って、自分の体調と相談しながら自習することにした。

どんな学習をしてるか

①自分にデータ分析の適正があるかはかってみた

いや適正なんてぺーぺーには判断つかない。正確には「やっててつまんね~」と挫折しないか、以下の本を読んでみて自分の感触を確かめてみた。

読了率は7割ほど。リスキリングに使える時間は限りがあるので全部をパーフェクトに固めることを優先せず目標のクリアで次にいく。

数学の知識のところはちょっと頭痛はするけど、ゆっくり読めばなんとかついていけた(本のおかげ)。最大のところは、この手の話を、データクレンジングのような泥臭い話も退屈とは思わなかったところ。
 ※データクレンジング…データの誤記や未入力・重複などの不備を修正し、データの正確性を高める作業(本リンク参照)

とりあえずもう少し勉強を進めてみることにした。

②統計数学の解説本を読んでみた

前述の本を読んでみて、データ分析の難しい操作はExcelなりツールなりがやってくれるのは分かったけど、出来上がった分析を顧客に説明する段になったら「え、えーと…それはデスネ(汗」となりそうだなと感想をもった。

ということで次はこの本を読んでみた。
こちらはすべて読了。練習問題は途中でいったん放棄。

1周では頭に入らず、久しぶりにノートなんか作りながらもう1度読んだり…でも全部は2度読めなかった。公式が長いと目が勝手に遠くをみてしまう。考えすぎて頭が重くなるたび娘みーちゃんのご機嫌伺にキロで購入した大量のラムネを貪った。

ほんとに私はデータ分析できるようになるんだろかと不安になるときもあった。そんなとき、高校受験の塾の先生に言われた言葉を思い出す。

「かえでさんは数学のセンスがありますね」

そう、私にはやる力があるっ!たぶん!私はきっとできる子できる子できる子…。

…と自分に暗示をかける毎日。

子供のとき何気なくかけられた褒め言葉、影響大きいなぁ。自分もみーちゃんにそんな言葉をかけられたらいいなぁ。 

それはさておき。

ゆっくり読めば、理解…うーん…経緯は把握できる、ようになった。ここからさらに解像度をあげて理解するなら、演習問題をどしどし解いていく必要がありそうだった。
しかしリスキリングに使える時間は限りがある(以下略)ので次にいく。

③資格勉強をしてみる

復職したら勉強時間は減ってしまう。なのでいったん勉強した証拠を対外的に残しとこうかと思い、統計検定3級テキストを買ってみた。
近々読了(練習問題ふくめ)する予定。

3級は高校レベルということで、実務統計からいったら入門レベルの内容だそう。実務をするなら2級から上(大学レベル以上)が望ましいらしい。けど2級以上の資格を取ろうとしたらも少し期間がいりそう。ほかにも分析ツールの勉強も必要だし、背伸びせず3級を選択。

でも3級も文系出身者にはとても勉強になる。そして3級でも計算問題はでて、不馴れだから何度も演習がいる!現在進行形で悪戦苦闘中。

④とりあえずなんか分析してみる

ここまでで初歩の統計学とツール(Excel)の知識がインプットできたし、いったん、なんでもいいから分析してみようと思った。

ちなみに私のパソコンはやっすいやつで、Officeが入っておらず「WPS Spreadsheets」というソフトをExcelの代わりに使用した。そんなわけで本家Excelの細かい機能は使えない。でも代表的なものは同じ関数の入れ方で使えそうだった。

本来、データ分析は問題設定を先にやるべきだそう。でも、とりあえずなんでもいいから動かしてみたいから、元データを見てからなんの解析にかけるか考えることにした。

最初はこちらを参照。

すごいですね、勉強をはじめるまで、こんな風にオープンに統計データがみれるなんて思いもしてなかった。一般教養として統計は普通に面白い。

しかし、あまりにデータがありすぎて、どうしていいかおもいつかない!
あー初心者!

これも数あるデータのうちの一つ

とりあえず目に付いた値をグラフにしてみた。

ただの折れ線グラフだけどこれをつくるだけでも一苦労。そもそもいつもグラフ機能なんて使ってなかったから、
「系列てなに?」
「うまくデータが選択できないー!」

そしてグラフにしてみたものの、ここから解析するやり方が思いつかないという…色々傾向は見て取れるけど、統計数学の実践とは違う気がする。
まぁ無目的で分析だけしようとしたのがよくなかった…

と思ったら、高校とか向けに統計学習用のデータセットを公開しているサイトがあった。

都道府県別にいろんな情報がまとめられていた。

さすがは学習用データというだけあって、統計の計算でさっと使えそうなデータが並んでる。こ、これは!散布図とやらが作れるのでは?

とりあえず「はじめてグラフ作れました!」の既成事実ー手っ取り早く達成感がほしいデス。
各都道府県の「出生数」と「保育園数」という、もーばりばり相関関係あるやろのデータを選び、グラフ作成。
以下、〇の一つ一つは都道府県です。

やったー!相関係数がかぎりなく1に近い、キレイな右肩上がりの正の相関のグラフができた。こ、これが教科書でみたグラフ…私にも作れた…しみじみ。作ったグラフは高校生レベルの、まだまだ初歩のとはいえ。

余談ですが、突出して右上にある〇は、東京都サマです。さすが!うーん、回帰直線からも離れており「あなた実は外れ値ですか?」といいたくなる。

それはさておき。
これで、なにげに1年以上前にたてた目標をクリアー。時間はかかってしまったけど。

ちなみに最近、セカンドキャリアとして、休日夜間メンテナンスの多いインフラエンジニアからデータ分析系にも足を出してみよっかなという野望があったりします。1本統計データを使って分析グラフをつくってみて、noteにやってみて書くのがなにげに一番の目標です。

上記noteより

やっぱりつくるのって楽しい。
やることが形になると嬉しい。