Python学習ログ「機械学習図鑑」簡単なおぼえがき 2020.9.12

どーも。某大学生のきむです。

さて、今回から不定期的にPythonの進捗具合をちょいちょい残していきます。まだ全然下手ですが昨日も書いたように「振り返り」したいですし、せっかくなので。

ちなみに昨日の記事はこちら↓

さて、今回は「機械学習図鑑」という本を一通り、手を動かしながら終わらせましたので、その感想を、自分がまた見返したときのための備忘録的な感じで軽く「内容」や「気づき」をまとめてみようと思います。

件の本はこちら

図書館で借りてきましたが、いいお値段ですね。

全体的な感想:初学者向けっぽい

「機械学習の」初学者・新しくアルゴリズムを学びたい人向けの入門書

ただ、Pythonの基礎やいくつかのライブラリ(Numpyとかpandasとかmatplotlibとか)に触れたことがないと難しい(ライブラリやコードの説明は一切ない)ので、「Pythonの基礎は一通りやって次は機械学習の勉強をしようという方」向けですね。

概論的な本で、全体的に画像を多用していて読みやすく、いい意味で「ざっくり」としていて、「scikit-learn」という機械学習ライブラリのチュートリアルというか、「こういう機械学習の手法があるんだよ」という説明の本でした。

そのため、「どのようなアルゴリズムがあるのか」「どんな感じか」という点はつかめますが、機械学習の手法に関する「詳細な解説」「詳細なアルゴリズムの内容」「データの扱い方」などはほぼ語られていません。

細かいところ、原理的なところは別の書籍なりネットなりで調べた方がわかるような気がします。実際私は細かいところが気になったのでそうしましたし。

機械学習の入り口に立とうとしていた私には割といい本でした。

次はオライリーで細かいところ(特にデータの収集と整形がわからない)を押さえつつ、プロダクトを生みたいですね。

以下備忘録です。

概説本なので具体的な内容とか載せると無断転載チックにも見えるので、抽象的なことしか書いてません。私の習熟に伴って追々更新していきます。


備忘録

結局「元データを見るのが大事」と再三言われた。適切なデータセットに対して適切なアルゴリズムを適用する必要がある。(だからこそデータとアルゴリズムについてもっと詳細に語ってほしかったと思うけど)

教師あり学習:わりとわかる

教師あり学習はまさに思っていた「機械学習」で、既知データ(特徴量と答え)から予測モデルを作る。

2つの問題に対して血起用され、
・分類問題(AかBか、0か1かみたいな。0<1に意味はなく、ただのラベル)
・回帰問題(連続的な数値を答えにする、大小関係に意味あり)
を扱う。

やっぱり大事なのは、「未知データに対して使いたい」というところ?

だから「過学習:既知データに対してあまりにもジャストフィットしすぎる」というのはよくない。
→モデルとして適切かを検証するのはもちろん、過学習を防ぐのも大事
例)混同行列を用いた正解率や再現率、テストデータを分割など
(この辺もあっさりだった)

教師なし学習:写経しすぎて理解が甘くなった

ピンとこないというか、「機械学習」と言われてイメージしない方がこっち。

入力されたデータを考察するというか、教師あり学習のような「予測」みたいなものではなく、「入力データを理解する」ための手法、ということみたい。

その手法には大きく分けて
・次元削減(多要素からなるデータを少ない要素で表現・近似する)
・クラスタリング(データを似たもの同士で分類する)
という2つ。

前者はそらデータ少なくて簡単な方が良いよねっていうのでわかるし、いくつものデータの共通点を探りたいというのもわかるので、目的はよくわかりました。ただやっぱり手法については理解が全然。

教師あり学習の対象は「入力データから得られる予測結果」、つまり元データとは別の何かを考えるモノだったのに対し、教師なし学習では「入力データそのもの」に焦点が当たっていると言えばいいのか。

だから「データ」に対する知識が無い私はかなり写経気味になってしまって、データとアルゴリズムの対応の理解が全然です。

自然言語処理や画像処理によく使われているというのは、言語や画像の性質を見たいからこの教師なし学習を使うからだとはわかったものの......

総括:今の私にはピッタリだったかな

機械学習、という抽象的なワードの全体、構成する手法1つ1つをあっさりとはいえ網羅的に学べてよかったですね。機械学習の「き」の字も知らなかったのでやっと入り口に立った感です。

おそらく自分がやりたいのは「教師あり学習」だということもわかりましたし。

【今後の課題】
・詳細なアルゴリズムの理解
・データの扱い方(入手と整形、変換など)
・データから手法を適切に選択する

これらは全く身についていないので、今後は意識して学んでいきます。
まあ、教科書をやればいいというわけではないので、試行錯誤しながらプロダクトつくりつつやっていけたらという感じですかね。

ではまた次回の進捗報告で。


以上


この記事が参加している募集

あなたのサポートで、私の食生活が大幅に改善されます。具体的には寿司になります。たぶん。あとディズニー旅行費用になると思います。ありがとう。