見出し画像

機械学習のオススメ情報収集術

今回は、自分が機械学習に関する最新情報を収集するにあたってどういう情報源を頼っているのかを紹介してみたいと思います。

はじめに

今回の記事では、機械学習(主にNLP、あと医療を少々)の「最新情報(=最新の研究)」の収集術について書きます。個人的に思っているのは、最新の研究情報の収集というのは基礎的なことを理解して初めて意味を成すものだと思っているので、もし基本的な教科書を読んでいないのであれば、まずはMurphy本(機械学習)だったりJurafsky-Martin(NLP)を読むことをオススメします。

ブログ、特に各企業のAIブログなど

最近は優秀な研究者の方々がアカデミアから企業に移っていたりするので、企業のAIブログなどをフォローしていると結構な量の情報を集められたりします。

企業のAIブログの良い点は、大抵の場合論文の著者が記事を書いているので内容がとても正確であること。デメリットは一応企業のブログなので、トピックが製品に使われていそうなトピックにある程度偏っていることがあるということです。

自分はとりあえずこの辺りをFeedlyに登録して読んでいます。

Google AI Blog
Facebook Research Blog
Amazon Science Blog
The AI Blog (Microsoft)
The Stanford AI Lab Blog
DeepMind Blog

以下の二つは主に医療系の情報収集のためのブログです。

Verily Blog(Alphabetの医療部門)
Individualized Medicine Blog (Mayo Clinic、アメリカで「最も優れた病院」とされていて、研究活動も盛ん)

Redditの機械学習のsubreddit

Redditは英語圏で流行っているソーシャルブックマークサイトで、世界で人気のあるウェブサイトをランク付けするAlexaランキングでも20位に入っています。こちらではユーザーがテキスト記事やリンクなどを投稿し、コメントでそれについて議論がなされたりします。

Redditではsubredditという特定のトピックに対応するコミュニティがあって自分は機械学習のsubredditに入っています。

Redditの利点はいろいろあって、

・アプリを入れておくとプッシュ通知で面白そうな記事を紹介してくれる
・論文や研究について議論がなされるので、多面的に見ることができる
・論文の話だけでなく、特定のタスクについてのベストプラクティスだったり、いろんな研究に共通する問題点だったり、何でも議論されている

欠点としては、割と何でも議論されてるので、あんまり役に立たないノイズみたいな投稿も結構あったりします。…が、少なくとも自分のところに飛んでくるプッシュ通知に関しては割と精度良く自分が興味があることを紹介してくれてる気がします。

ちなみに、機械学習以外にも例えばデータサイエンスのsubredditなんかもあったりします。自分はフォローしておりませんが。

ニュースレター

こちらは購読しておくと週一だったり月一だったり、定期的にオススメ論文などを紹介してくれるサービスです。

NLPだとSebastian RuderがやっているNLP Newsが圧倒的にオススメというか、これだけ購読しておけばNLPの最新事情は大体掴めるんじゃないかという気がしています。NLPに興味がある方は絶対に購読しておくべきだと思います。こちらのニュースレターは月一です。

医療系だと医療AIをやっている知人から先日教えてもらったDoctor Penguinというのがあります。こちらはAndrew NgやEric Topolといった医療AI界の大御所が作ったニュースレターなので、(多分)論文の質も高いと思うし、実際まだ素人の自分が見ても面白い論文が多いです。こちらのニュースレターは毎週配信されています。

国際・国内会議

機械学習業界は良い論文は大抵トップ国際会議(機械学習だとNeurIPS、ICML、ICLRなど。NLPだとACL、NAACL、EMNLPなど)に出ているわけなので、トップ国際会議の論文を調べたり参加したりすると、効率良く良い論文に触れることが出来ます。

自分は論文書いてる勢ではないので割と緩く国際会議を利用していて、年一くらいで国際会議に参加したり、あとはチュートリアルが大体どの国際会議も公式ウェブサイトやYoutubeなどに上がってたりするので、それを眺めたりしています。ガチな人は、自分がやっているタスクでトップ国際会議に採択された論文は(多分)全部チェックしてるんじゃないかと思います。

国内会議は「なんかちょっと偏ってない?なんでこの国の人々は文脈考慮型機械翻訳をこんなに全力でやってるの??」などと思うことはありますが、どういうトピックが盛んに研究されてるのかを大雑把に見るという点では良い気がしています。

国際・国内会議に参加することの大きな利点の一つはいろんな人と直接話せることで、そこで(時にはまだ世に出ていない)最新情報を得られたりもするので、積極的にいろんな人と飯を食いに行ったり、興味がある発表があったら積極的に質問してみたりすることをオススメします。

敢えてそこまでオススメしない情報収集術

…と、ここまではオススメの情報収集術なのですが、上手く使えば有益なものの万人にはオススメしない情報収集源もいくつかあります。

1. SNS(Facebook、Twitter)

SNSは上手く使うと非常に役に立つ気がしていて、自分も知り合いに強い人々がいるので、その人々の投稿などから結構有益な情報を得ていたりはします。特に、Kyunghyun ChoとかYoav Goldbergなどの強い研究者のツイートはとても有益です。

一方で、フォローする人を選ばないと、間違った情報が入ってきたり、あとはみんながみんな研究の話ばかりをしてるわけではなくて、突然政治的な話をし始める人もいたりする(特にFacebook)ので、フォローする人は厳選すべしという気がしています。

2. ArXiv

ArXivは主に理数系の研究業界で最も良く使われているプレプリントサーバーで、最近は機械学習の人々も結構な割合でまずはArXivに論文を出している気がするので、最新の論文を最速でチェックするのであればArXivに出ている自分が興味ある分野の論文を毎日チェックするのがベストという気がしています。

ただ、毎日全部の論文を見るのはタイトルだけでも割と大変な気がするので、本物のガチ勢ならやるべきだし自分も理論物理の研究していた頃はやっていましたが、そこまでガチじゃない人は続かないという気がしています。

最後に

他にもこんな情報収集の手段があるぞ(特に医療系)!というのがあれば、どなたか教えて下さい😊




いいなと思ったら応援しよう!