「ほっこりニュース(仮)」を作るメモ1

課題:
同居人から「ほっこりするニュースばかりを読みたい」と要望をもらった。

パッと思いついた解決案:
新聞社サイトのRSSからニュースを取得して、ニュースがほっこりするかどうか判定し、合格であればニュースURLを出力するサイト。

判定方法:
取得したニュースを一件ずつ形態素解析でわけ、『ほっこりキーワード』に合致するニュースを合格とする。
形態素解析には、Mekcabを使おう。採用理由は、直感。
http://taku910.github.io/mecab/

新聞社のRSSは商用不可が基本なので、マネタイズは積極的に避ける。
AWSサービスの無料枠などでできないか検討する。

思いついたけど、ダメそうな案:
出力先をTwitterにする。
ほっこりしたかどうかのフィードバックが取れない。なにせボタンが『リツイート』と『イイネ』の2種類しかない。「ほっこりしませんでした」等のネガティブ意見が取れないので却下。
Twitterモドキサイトを作るしかないかなー。

見えてる課題:
『ほっこりキーワード』って手動で選定するの?自動判定とか機械学習じゃなくて?
機械学習はオライリー本を半分ぐらいで挫折した記憶があるんだけど、目的がある今なら読み終えることができるか。あるいは手動でがんばるか。

この記事が気に入ったらサポートをしてみませんか?