見出し画像

【W7】TeachOpenCADD機械学習編まとめ

【TeachOpenCADD-KNIME W7の目的】

利用可能なデータソースがより大きくなるにつれ、医薬品探索、特にリガンドベースのバーチャルスクリーニングにおいて、機械学習(machine learning、ML)が盛り上がってきました。このトークトリアルでは、私たちの標的とするターゲット分子(EGFR)に対して新規な化合物の活性を予測するために、様々な教師あり機械学習(supervised ML)アルゴリズムを使用する方法について学習します。

https://magattaca.hatenablog.com/entry/2020/05/02/120031

2022年1月1日から半年かけて紹介してきたTeachOpenCADD機械学習編であるW7の振り返りをします。
まず何より、下記の偉大なるご尽力があってこその今回の振り返りであることを改めて述べておきます。

【7. Ligand-based screening: machine learningメタノード】

W7のLigand-based screening: machine learningメタノードの各ステップ別に記事をまとめてみます。

Step1: 課題の設定は最も大切

Step2: 説明変数で化合物の特徴を正しく表現できるかも大切な問題

Step3: 機械学習の体験

機械学習アルゴリズム①:ランダムフォレスト

機械学習アルゴリズム②:ニューラルネットワーク

機械学習アルゴリズム③:サポートベクトルマシン

Step4: 機械学習の評価

おまけ: 精度向上の試み

【W7にまつわるディスカッション紹介】

magattacaさんの記事に本WFの総括にもつながるディスカッションが和訳されていました。

アルゴリズムの比較

我々のデータッセットで最もパフォーマンスがよかったのはどのモデルで、それは何故でしょうか?

https://magattaca.hatenablog.com/entry/2020/05/02/120031

W7でOverall Accuracyが最も高かったのはランダムフォレストでした。

我々のデータセットは、単純な決定木用の分類器(tree-like decisions)、あるいは動径基底関数でそれぞれ簡単に活性/不活性を分類できるものだったのかもしれません。したがって、この分類を行ううえでフィンガープリントにあまり複雑なパターンがなかったのかもしれません。

https://magattaca.hatenablog.com/entry/2020/05/02/120031

人工ニューラルネットワーク(ANN)のパフォーマンスが少し悪かった理由としては、モデルを訓練するためのデータが単純に少なすぎたのかもしれません。

https://magattaca.hatenablog.com/entry/2020/05/02/120031

あるいはサポートベクトルマシンのパフォーマンスはデモデータでは悪かったと感じましたが、適切にハイパーパラメータチューニングすればランダムフォレストを超えることも可能であることは体験しました。

さらにそもそもアルゴリズムを比較するなら極めて大切な注意点としては下記が挙げられます。

・加えて、モデルの評価のためには他の外部検証用データセット(validation set)を持っておくことを常におすすめします。

https://magattaca.hatenablog.com/entry/2020/05/02/120031

得られたデータをどのように分けて学習し、その性能を評価するかは未来の機械学習モデルの利用目的や予測対象までしっかり考えて選定する必要があります。W7ではこの問題は奥が深すぎて議論の対象にはなりませんでした。例えばですが、創薬化学分野の機械学習でランダムスプリットしてモデル作成して性能評価したものは往々にして予測性能が過大評価される傾向にあると考えます。

化合物をいかに表現するか

MACCSを用いることは正しい選択だったのでしょうか?

https://magattaca.hatenablog.com/entry/2020/05/02/120031

・明らかに、MACCSは分類が可能かどうかみるために、モデルの訓練と評価を行う出発点として良いものです。
・ですが、MACCSフィンガープリント(166ビット)は他のフィンガープリント(2048ビット)と比較してかなり短いので、異なるフィンガープリントを試し、検証のプロセスを繰り返した方が良いです。

https://magattaca.hatenablog.com/entry/2020/05/02/120031

どのような手法で化合物をエンコードすなわち電子データとして表現するかで、予測精度に多大な影響があります。未だに最先端の研究が進められている、もしくは現時点では未だに解けていない問題ではないでしょうか?

ここから次にどちらに進めば良いか?

いくつかのモデルをうまく学習させることができました。
・次のステップは、新奇なEGFR阻害剤となりうる可能性がある化合物を予測するために、これらのモデルを使って未知のスクリーニングデータセットの分類を行うことです。
・巨大なスクリーニングデータセットの例として、例えば700万以上の化合物からなるMolPortがあります。
・我々のモデルを使ってMolPortの化合物をランク付けし、活性がある可能性が最も高いと予測された化合物群についてさらに研究を進めることができます。
・そのような適用例としては、S. RinikerとG. Landrumによって開発された TDT Tutorial も参照してみてください。新しい抗マラリア薬を見つけるために、融合モデルを訓練し eMolecules のスクリーニングを行なっています。

クイズ
・バーチャルスクリーニングのためにどのように機械学習を適用することができますか?
・どのような機械学習アルゴリズムを知っていますか?
機械学習をうまく適用するための必要な前提条件は何ですか?

https://magattaca.hatenablog.com/entry/2020/05/02/120031

半年かけて勉強しても本当に入り口を覗いただけであると実感します。厨二な感想でしょうが、

深淵をのぞく時、深淵もまたこちらをのぞいているのだ

https://w.atwiki.jp/aniwotawiki/pages/40841.html

W7は本当に取り組みがいのある良い教材でした。ここまでお読みくださった方にも本当に感謝いたします。
しばしお暇ののち、W8をまた一緒に体験できればと思います。


記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。