【DataCamp】31_Case Study: School Budgeting with Machine Learning in Python

2022年4月4日 20:17

DrivenDataのBox-Plots for Educationという課題。

データのダウンロードはどうするんだ？と悩みまくりましたが、ググったら出てきました。

Join the competition!を押してログインすると、DATA DOWNLOADが現れます。

やってるうちに目的を忘れてしまいますが、目的は予算の各項目にラベルをつけることです。

ラベルは下記の9つのカテゴリーがあります。

・Function

・Object_Type

・Operating_Status

・Position_Type

・Pre_K（幼稚園前の教育）

・Reporting

・ Sharing,

・Student_Type

・ Use

まず、TrainingData.csvをインポートしてみましょう。120MB超えてて重い…。

ん？DataCampと出力が違うなあ。

400277行もあります！DataCampでは1560行にカットされているみたいです。

列は全部で25個で、Function ～Operating_Status の9列がラベル、Object_Description～Text_1の16列が特徴量です。

ラベルは欠損値がありませんが、特徴量は全ての列で欠損値があります。

↑数値列の要約統計量。FTEは"full-time equivalent"の略で、その予算項目が被雇用者に関するものであれば、被雇用者がフルタイムで働いている割合を示します。totalは支出の合計額。

objectは23列、float64はFTEとtotalの2列のみです。

機械学習アルゴリズムは数値に対して機能するので、文字列を数値化しないといけません。

pandasにはcategoryというデータ型があり、astypeメソッドでobject→categoryに変換します。category型にすると、pd.get_dummies()関数でダミー変数に変換できます。

ラベルの9列をobject→categoryに変換しましょう。

ここで、pandasのapply()メソッドを使います。DataFrameの軸に沿って、関数を適用します。引数はfunctionとaxis。デフォルトでaxis=0だから、axis=0は書かなくてもいいです。

ラベルの各列が、いくつカテゴリを持つか。

ここで、pandasのnunique()メソッドを使います。指定した軸における、別個の要素の数を数えます。

ラベルは104種類も要素がありました！train_test_splitだと、訓練データに出現しないが、テストデータには出現するラベルもあるでしょう。

StratifiedShuffleSplitというのもありますが、単一の目的変数でしか働きません。
今回は目的変数が多いので、multilabel_train_test_split()を使用します。

数値列のみの特徴量で予測する

数値列のみの特徴量で、multilabel_train_test_split()を使ってみます。

y_trainとy_testのColumnsにあるFunction_Aides Compensation to Operating_Status_PreK-12 Operatingは、Function_Aides Compensation列からOperating_Status_PreK-12 Operating列までの意味。

OneVsRestClassifier(estimator)
One-vs-the-rest (OvR) multiclass strategy.
yの各列を独立に扱う。各列（クラス）ごとに一つの分類器を適合させる。
引数はestimator（推定量）

multiclass（多クラス）は3つ以上のクラス。binary（2クラス）は2つだけのクラス。

よく分からん…。

すごく時間がかかって、デフォルトのソルバーが変わるよ～って警告もでましたが、0.0というスコアが出ました。数値列のみでは予測できないことが分かりました。

予測

提出形式は、可能性のあるラベルの個々の確率なので、predict_proba()メソッドを使います。

自然言語処理(NLP)

数値列だけでは予測できないことが分かったので、文字列の列も予測に加えます。

まずは、特徴量のPosition_extra列のみに注目してみましょう。この列は、Position_Typeラベルによって捕獲できなかった付加的な情報を記述しています。例として、8960行を見てみましょう。

Object_DescriptionはExtra Duty Pay/Overtime For Support Personnel（サポート要員の残業代）。これは誰に払ったものでしょう？Position_Typeは単にOtherとなっていてよく分かりません。Position_Extraを見ると、BUS DRIVERでした。