AutoML(Automated Machine Learning)

AutoML、機械学習を自動化する技術やツールのこと。以下の記事がわかりやすい解説と思うが、データサイエンス全体を自動化してくれることはなくて、機械学習を適用する一部のタスク(ハイパーパラメータや機械学習の手法の選定)を自動化してくれるもの。

もう少しわかりやすく言うと、有償ツールで最も有名であろうDataRobotの紹介ページから。その昔、金額は聞いたことがココで書くのは控えておく。

そもそも何を分析すべきかを考え、必要なデータを揃え、分析に向けた前処理をする、といったところは人がやること。ハイパーパラメータや機械学習の手法の選定といった部分の自動化がAutoMLツールの役割である。一時期ブームの際に購入した人が「使えねーな」という理由がこれで、そもそも理解しないで大金を払うヤツが悪い。最近は理解が進んだと思いきや、いまだに「DataRobotを入れれば良いっすよ」とぬかす二流コンサルがいるww
AutoMLがあればデータサイエンティストが不要になる、などということはない。分析のプロセスを理解・設計できるシニアなデータサイエンティストはむしろ不可欠。一定の規模のチームを作ろう、でも頭数がない、というときに、ジュニアなデータサイエンティスト、なんちゃってな人、頭数合わせなどの人などなどの代替にはなりうるかな、というところ。むしろ期待とその分の失望を引き受けてしまったDataRobotが可哀そう。今でも市場にある通り利用シーンを考えれば今でも使えるもの。私の知る利用シーンではコスパ悪いので使わないけど。

ツール、使い方の観点からであれば、こんな解説記事から。

Rだとcaretかな。pythonにもpycaretってあるけど。
他のRのライブラリとしてはmlr3とか、ハイパーパラメーターの推定にはrBayesianOptimizationとかがある。

python系のOSSライブラリだと、全自動を志向するならTPOT
GitHub - EpistasisLab/tpot: A Python Automated Machine Learning tool that optimizes machine learning pipelines using genetic programming.

柔軟に手を入れることを想定するならauto-sklearnあたりか。
GitHub - automl/auto-sklearn: Automated Machine Learning with scikit-learn

ベイズ最適化によるパラメータ選択もいずれ見ないととは思ってる。。。

レコメンドエンジンに特化したものもあるようで。

企業が提供しているツール。この辺りの技術が表に出始めた頃の古い記事なので後で差し替えるかも。でも知らない人が最初に見るにはこの辺りから読むのが良いのではないかなぁ、と思って一旦これで。

十分なITインフラがあって、真っ当なデータサイエンティストが複数名いれば、無償~廉価のAutoMLツールで実現できるように思う。
高値なAutoMLツールを購入したり推奨したりする方々のご意見は聞いてみたいと思う。決してイヤミなどではなく、いまだに生き残っている以上は何らかのメリットがあるはずで、そのあたりの知見は私にないので。

時系列分析のAutoMLは、時系列のページで言及予定です。
他の情報を見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note

この記事が気に入ったらサポートをしてみませんか?