noteのユーザーと記事の分類器が作れるのか事前検討
ことのはじまり
仕事のことで悩んでいて「もし、今の仕事辞めたら何して生きていこうかな」的なことを呟いたら、noteの代表とCXOからまさかのリクエストをいただきました。
誰かに必要とされるって嬉しいですね。
そもそも、できるかどうかも分からないことですが、noteは大好きなサービスなので、便利になったら自分も嬉しいし、何より自分にできることなら少しでも力になりたいということで、まずはGiveの精神でボランティアベースで事前検討してみることにしてみました。
ユーザーや記事の特徴がうまく可視化できるかテスト
記事やユーザーをテキストマイニングで特徴さえ捉えられれば、きっと分類はできるはずと考えて、まずはどんな特徴が見えるか可視化するところまでをやってみることにしました。
テキストマイニングに関しては、noteでチュートリアルを作成しているので、同じ要領で試して見ました。
noteの記事のテキストマイニング
まずは記事のテキストマイニングから取り掛かります。スクレイピングするところから始めようとしたのですが、noteは構造上スクレイピングが自分には難しかったのと、スクレイピング推奨していない雰囲気を感じ取ったので、今回は自分の以下の記事をコピペしてテキストマイニングしてみました。
コピーしたテキストをもとに、WordCloudの可視化を行います。
それらしい特徴が可視化できました。
ユーザーのテキストマイニング
続いては、ユーザのテキストマイニングです。ユーザーに関しては、数多くの記事を取得してテキストマイニングする必要がありますが、さすがに全部コピペするのは辛そうです。
どうしようかなーと思っていたら、noteユーザーの「ふぃろ」さんが、私のチュートリアルをベースに、noteのRSSをテキストマイニングする手法をnoteで公開していたのを思い出しました。
noteの繋がりに助けられました!
こちらを元に、RSSを使ってユーザー毎のテキストマイニングを行いました。まずは私(karaage0703)から。
ラズパイとかディープラーニングとか機械学習とか、それっぽいですね。
続いて、深津さん(fladdict)
加藤さんも
それぞれ、それらしい異なる特徴が見て取れることが分かりますね。これなら分類できそうな気がします。
分類器の作成に関して
実際に手を動かしてみて、実際に分類器作成するには、以下をやっていく必要があるのかなと感じました。
noteのデーターベースのデータ使用
今回は外から簡単にとれるデータということで、コピペしたりRSSの情報から引っ張ってきたデータを元に行いましたが。精度を向上させるには、何よりデータが必要なので、noteのコンテンツのデータを直接処理する必要が大事だなと感じました。
前処理
例えば「機械学習」が「機械」「学習」となってしまったりするので、辞書作りも含めた前処理が重要なのだろうなと感じました。note特有のワードも考慮する必要がありそうです。noteのタグ情報などは有力な情報になりそうですね。
分類器の作成
分類に関しては、文章の単語の頻度をベクトルで表現すれば、分類して行くことができそうです。大量のデータに対して、適切な前処理をすることで、高精度な分類器ができそうです。
まとめ
簡単ですが、noteのユーザーと記事の分類器が作れるのか事前検討をしてみました。noteでユーザーと記事の高精度な分類ができたら、とても便利になりそうですね。
noteは大好きなサービスなので、便利になると自分も嬉しいです。
なお、現在私は自分の能力を活かせる場所を探して求職中です。もしご興味ある方は、以下記事みてお声をかけていただけましたら幸いです。
この記事が気に入ったらサポートをしてみませんか?