[実行用プログラム公開] 21の判別分析(二クラス分類)手法を一気に実行して結果を比較する!ダブルクロスバリデーションによる評価付き (Python言語)
[New] 実業家として有名な堀江貴文さん(ホリエモン)のメルマガ[Vol.359]における副業紹介において、このプログラム・コード販売が、なんと 1番 に紹介され評価していただきました!
こんにちは!大学教員ブロガーのねこしです。http://univprof.com/
仕事や研究において、判別分析(二クラス分類)をしたい方もいらっしゃると思います。でも、たくさん手法もあってどれを使えばよいか、迷いませんか?こっちのクラス分類手法のがよいのかな・・・、と考える人も多いはずです。
どんなときはどうすればよいのでしょうか?答えは、下の記事でも書かれているように、すべての二クラス分類手法を実施して、結果を比較すればいいんです。
http://univprof.com/archives/16-11-18-8441806.html
それはわかったけど、どうやって実行すればよいの? って人のために、21の二クラス分類手法をすべて実施して、結果を比較するプログラムを作りました!データを準備して実行すれば、すべて自動的に行われます!
21の二クラス分類手法はこちらです。
1. 線形判別分析(Linear Discriminant Analysis, LDA) http://univprof.com/archives/16-05-30-3588648.html
2. 線形サポートベクターマシン (Linear Support Vector Machine, LSVM)
3. 非線形サポートベクターマシン (Non-Linear Support Vector Machine, NLSVM) http://univprof.com/archives/16-02-26-2888783.html
4. 二次判別分析 (Quadratic Discriminant Analysis, QDA)
5. k近傍法によるクラス分類 (k-Nearest Neighbor Classification, kNNC)
6. 単純ベイズ分類器 (Naïve Bayes, NB) http://univprof.com/archives/16-07-10-4585774.html
7. 決定木 (Decision Tree, DT) http://univprof.com/archives/16-05-25-3464187.html
8. ランダムフォレスト(Random Forests, RF) http://univprof.com/archives/16-04-06-2889192.html
9. Gaussian Process Classification (GPC)
10. LDAに基づくバギング(アンサンブル) (Bagging[LDA])
11. LSVMに基づくバギング(アンサンブル) (Bagging[LSVM])
12. NLSVMに基づくバギング(アンサンブル) (Bagging[NLSVM])
13. QDAに基づくバギング(アンサンブル) (Bagging[QDA])
14. kNNCに基づくバギング(アンサンブル) (Bagging[kNNC])
15. NBに基づくバギング(アンサンブル) (Bagging[NB])
16. DTに基づくバギング(アンサンブル) (Bagging[DT])
17. GPCに基づくバギング(アンサンブル) (Bagging[GPC])
18. LSVMに基づくAdaptive Boosting (AdaBoost[LSVM]) http://univprof.com/archives/16-07-01-4380227.html
19. NLSVMに基づくAdaptive Boosting (AdaBoost[NLSVM]) http://univprof.com/archives/16-07-01-4380227.html
20. NBに基づくAdaptive Boosting (AdaBoost[NB]) http://univprof.com/archives/16-07-01-4380227.html
21. DTに基づくAdaptive Boosting (AdaBoost[DT]) http://univprof.com/archives/16-07-01-4380227.html
このように代表的な二クラス分類手法が揃っております。一通りのデータ分析・解析ができるってことです。ちなみに今回はクラス分類の中でも”二”クラス分類ですので、サンプルのカテゴリは”1”もしくは”-1”になります。つまり目的変数の値は”1”もしくは”-1”でなければならないということです。
もちろん、クロスバリデーションにより、
■LSVMにおけるC
■NLSVMにおけるC・γ
■kNNCにおけるk
■DTにおける決定木の深さ
■RFにおける各決定木で使う説明変数の割合
を最適化しており、その結果も出力されます。
1.のLDAと2.のLSVMは線形のクラス分類手法ですので、それぞれの標準化後の変数の重みの値も出力されます。最後は、ダブルクロスバリデーション http://univprof.com/archives/16-06-12-3889388.html により各手法の予測性能を評価します。つまり、至れり尽くせりなプログラムになっております。
ダブルクロスバリデーションにはサンプル数が多いと少し時間がかかるため、ダブルクロスバリデーションを省略することもできます。
データ形式・必要なソフトウェア
以下の記事に示す形式のデータ(data.csv, data_prediction1.csv, data_prediction2.csv)さえ準備すれば、Python言語で21のニクラス分類手法をすべて実施して結果を比較することが可能です。
Python言語のために必要なソフトウェアは以下の記事をご覧ください。
実行結果
実行したあとに保存されるcsvファイルとその内容をまとめます。
■CalculatedY.csv ・・・ それぞれのクラス分類手法におけるモデル構築用データの目的変数の計算値
■PredictedYcv.csv ・・・ それぞれのクラス分類手法におけるモデル構築用データの目的変数のクロスバリデーション予測値
■PredictedY1.csv ・・・ それぞれのクラス分類手法における予測用データ1の目的変数の予測値
■PredictedY2.csv ・・・ それぞれのクラス分類手法における予測用データ2の目的変数の予測値
■StatisticsAll.csv ・・・ それぞれのクラス分類手法におけるモデル構築用データ・クロスバリデーション・予測用データ1のそれぞれTrue Positive・False Positive・False Negative・True Negative・正解率
■StandardWeights.csv ・・・ 線形のクラス分析手法(LDA・LSVM)における変数を標準化したあとの重み
■PredictedYdcv.csv ・・・ それぞれのクラス分類手法におけるモデル構築用データの目的変数のダブルクロスバリデーション予測値 http://univprof.com/archives/16-06-12-3889388.html (省略可能)
■StatisticsDcvAll.csv ・・・ それぞれのクラス分類手法におけるモデル構築用データのダブルクロスバリデーション後のTrue Positive・False Positive・False Negative・True Negative・正解率 (省略可能)
実行結果を下に示します。
決定木によって得られたルールを見るためには、DTResult.dotというファイルをGraphvizというソフトウェア(アプリ)で開く必要があります。Graphvizをインストールされていない方は、こちらからダウンロードしてインストールしてください。
http://www.graphviz.org/Download..php
この他、ここには載せませんが、CalculatedY.csv・PredictedYcv.csv・PredictedY1.csv・PredictedYdcv.csvのそれぞれに対応するすべてのクラス分類における目的変数の実測値と予測値との混同行列 (4×21=84) も出力されます。
プログラム公開
ここまでお読みいただきありがとうございます。
Python言語のプログラムは有料コンテンツとします。ただ、こちらのプログラムのように代表的な21の二クラス分類手法をすべて実施して結果を比較できるプログラムは他にありませんし、2,3の二クラス分類だけでもそれが可能なソフトウェアを購入すると、数万円や数十万円かかることがあります。さらに、こちらのプログラムからスタートしてさらにプログラミングを進めたいと考えている方も活用可能です。
人気が出てきたら値段を上げてみるかもしれません。しかし、それにしても かなりお得なプログラムです。21もの二クラス分類のプログラムを、自分で書くことなくすぐに使えるようになるんです。いろいろなデータへの応用もきき、十分、元がとれます。
こちらからプログラムのzipファイル自体はダウンロードできます。
http://univprofblog.html.xdomain.jp/code/bclass_analysis_all_e_python_pass.zip
購入していただくと解凍のためのパスワードがありますのでそちらをご利用ください。
またこちらのzipファイルに必要なスクリプトと関数があります。パスワードはかけていません。購入後に使い方の説明があります。
http://univprofblog.html.xdomain.jp/code/supportingfunctions.zip
ここから先は
¥ 9,800
この記事が気に入ったらサポートをしてみませんか?