見出し画像

Courseraでデータサイエンスのトレーニングを受けたはなし(前半)

こんにちは。

オンライン学習プラットフォーム、いわゆるMOOCの一つのCourseraでPythonベースのデータサイエンスのトレーニングをしました。取ったのは以下のProfessional Certificateです。(日本でも)それなりに受講されている方もいるようですがあまり情報もなさそうで、検索して出てくるものがあればご参考になるかと記事にします。


IBM Data Science Professional Certificateは9つのコース(授業)で構成されており、すべての履修が修了に必要です。この9つのコースのうち、番号で表記すると1・2・3・5がIntroduction to Data Science Specialization、4・6・7・9がApplied Data Science Specializationという二つのSpecializationに相当しています。Pro Cert.を目指し、途中でIntro to DSの認定をまず受けるということも可能で、そういうことを勧めている記事もありました。Intro to DS + Applied DS +コース8(機械学習)= Pro Cert.という感じになっています。

Courseraでは一つのまとまった授業のことを「コース」と呼びます。示された課題(クイズや提出課題)に合格することでコース修了です。コースをいくつかセットにして修了すると、それぞれのコース修了証のほかにSpecialization Certificateという修了証が出ます。Professional Certificateというのもほぼ似ているのですが、コースの提供者が修了証の発行主体になるということが違うらしいです。Professionalだと、比較的職業に直結していたり、最終課題(capstone project)が求められたりする特徴もあるのかなと思っています。

コースの内容的にはApplied DSだけでもよかったのですが、前半のコース5がSQLを対象としていたことと、こういうのは前の方の内容が後ろの前提となっている可能性もありそうだったので、通しで受けてしまいました。

正直に言うと、私は文系ですが以下のような経験と知識を持っているので、こういうトレーニングのターゲットというより、何であんたここにいんの、というところかもしれません。

○1990年代から社会心理学を専門として社会調査をやり、統計学、特に多変量解析と呼ばれていたものを身につけ、その後も四半世紀は必要な分析をSAS, SPSS, Stata等で行ってきた(いる)。
○必要なデータ前処理等のため、当初はawkで大半を、多少のPerlを経て2010年代からはPythonを使う。
○2000年前後にエージェントベースドのコンピュータシミュレーションを行っていくつか報告をしたこともあり(これとか、世論とメディアのモデル。いまなら計算社会科学というのでしょう)、プロトタイプはこっそりawkで書いたが恥ずかしいので(速度の問題もあり)あとでCで書き直した。その程度にはプログラミングはできる。
○機械学習のなんたるかはおおむね理解していて、これも2000年代にはSPSS Clementine(のちのSPSS Modeler)で人工ニューラルネットワークで回帰とのパフォーマンス比較を試行する報告をしたことがある。その流れでRも最低限はいじる。

ただ以下のような点から、今回あらためてトレーニングとして受け直したというところです。

スキル上の理由
○Pythonは使うがその利用が前処理ツールとして限定的なので(スクリプト言語的な位置づけ)、SQL、API、データ視覚化、機械学習等のスキルを押さえてデータ読み込みから結果を出すまで一度さらえておきたい。
○英語でやっておいた方が、結局あとで使いこなすためにリファレンスを読まないといけないのでのちのち役に立つ。しばらく外国とも縁がなさそうで、デスクトップ留学的なこともありかなと。
○そもそも1980年代のBASIC以降プログラミングについては自己流で習ったことが皆無なので、何かアヤシいところがないか確認したかった。
○本(ウェブ)読んで写経して独習というやり方が、時間のなさ、集中力の低下と老眼のせいでつらくなったので、今後の技術水準維持の方法を模索したかった。あと10年もたつと、また世の中大きく変わることは予想がつくので。GPT-3みたいなものがいろいろやってくれているかもしれませんが。

教育上の理由
○「社会調査」と「統計学」について文系を相手に分析・教育してきたが、むしろ社会的要請も強まっていて対応を要する「データサイエンス」(との流儀の違い)について教育の様子を見て体感し、理解が正しいの確認しておきたい。
○今年はオンライン授業が全面化し、社会が全体にそれを経験したのでこういう形態の流れはもう止まらない可能性も高い。何がわかりやすい授業なのか、教材やクイズの作り方、評価の仕方など、受講生視点で体験して自分の授業改善にもつなげたい。


何か技術を身につけるだけなら、いつもであれば適当なプロジェクトがあるときにぶっつけ本番でそのツールを使い始め、試行錯誤しながらモノにする、といういままでと同じやり方でもいいのですが(ただし老眼のせいでコードが書きにくい)、データ分析を教えたり、教育のオンライン化に対応するという側面もあったので、あえてパッケージで履修してみたというところです。Courseraはアカウントを持っているだけで何もしたことがなかったのですが、コロナ禍で初体験となりました。

実際の感想は後半の方に書きます。おおよそこの分野への入門や、(私のような)古いトレーニングを受けた人のリフレッシャー、また今後の教育実践などに関心ある人向けかと思います。その話の前提となるので、今回はいろいろと書きました。

後編に続きます。



この記事が気に入ったらサポートをしてみませんか?