【TeachOpenCADD-KNIME W7の目的】
2022年1月1日から半年かけて紹介してきたTeachOpenCADD機械学習編であるW7の振り返りをします。
まず何より、下記の偉大なるご尽力があってこその今回の振り返りであることを改めて述べておきます。
【7. Ligand-based screening: machine learningメタノード】
W7のLigand-based screening: machine learningメタノードの各ステップ別に記事をまとめてみます。
Step1: 課題の設定は最も大切
Step2: 説明変数で化合物の特徴を正しく表現できるかも大切な問題
Step3: 機械学習の体験
機械学習アルゴリズム①:ランダムフォレスト
機械学習アルゴリズム②:ニューラルネットワーク
機械学習アルゴリズム③:サポートベクトルマシン
Step4: 機械学習の評価
おまけ: 精度向上の試み
【W7にまつわるディスカッション紹介】
magattacaさんの記事に本WFの総括にもつながるディスカッションが和訳されていました。
アルゴリズムの比較
W7でOverall Accuracyが最も高かったのはランダムフォレストでした。
あるいはサポートベクトルマシンのパフォーマンスはデモデータでは悪かったと感じましたが、適切にハイパーパラメータチューニングすればランダムフォレストを超えることも可能であることは体験しました。
さらにそもそもアルゴリズムを比較するなら極めて大切な注意点としては下記が挙げられます。
得られたデータをどのように分けて学習し、その性能を評価するかは未来の機械学習モデルの利用目的や予測対象までしっかり考えて選定する必要があります。W7ではこの問題は奥が深すぎて議論の対象にはなりませんでした。例えばですが、創薬化学分野の機械学習でランダムスプリットしてモデル作成して性能評価したものは往々にして予測性能が過大評価される傾向にあると考えます。
化合物をいかに表現するか
どのような手法で化合物をエンコードすなわち電子データとして表現するかで、予測精度に多大な影響があります。未だに最先端の研究が進められている、もしくは現時点では未だに解けていない問題ではないでしょうか?
ここから次にどちらに進めば良いか?
半年かけて勉強しても本当に入り口を覗いただけであると実感します。厨二な感想でしょうが、
W7は本当に取り組みがいのある良い教材でした。ここまでお読みくださった方にも本当に感謝いたします。
しばしお暇ののち、W8をまた一緒に体験できればと思います。