機械学習の研究が難しい理由

15年前の機械学習という記事を書きました。当時からもっと機械学習の研究をしたいと思っていましたが、いくつか難しい問題があり、機械学習よりも線形の多変量解析の研究を中心にしていました。

個人的に機械学習の研究をするのが難しいと感じる理由はいくつかありますが、1つは普段扱っているオミックスのデータがサンプルの数nよりも変数の数pが多く(p>>n)、非線形の予測モデルではなく、線形手法で十分ではないか、というのが1つ目の理由です。これは学会である先生から指摘されたことや、知り合いとも同様の議論をしていたこと、また遺伝子発現データを使った予測モデルでも、非線形の方法ではなく線形のシンプルな方法がScienceに掲載される等、線形手法で十分だろう、という考えは今でも正しいと思っています。

ただ、この問題についてはもう少し議論が必要だろうと思っています。線形の手法だけでは非線形性を捉えることが出来ないので、仮に非線形の関係があった場合には、線形の手法では必ずしも十分ではないはずです。メタボロミクスの分野では、主成分分析を使うのが当たり前になっていますが、主成分分析を使うのと同じように、生物学者が非線形の手法を使うようになれば、この状況は変わるのではないかと思っています。線形の多変量解析を説明する時も、生物学の研究者の方が使うときに注意しておいた方が良いこと、という点を強調して説明するように心掛けています。





この記事が気に入ったらサポートをしてみませんか?