みんなの「成人式」ツイートの傾向をちょっと見てみた(形態素解析の練習した話)
新成人のみなさま、おめでとうございます。
特に新成人をお祝いする気持ちはないんですが(…)、最近Pythonの勉強を始めたので、ちょっと遊んでみただけのnoteです。PythonとGoogle Colabを使ってサクっとできるの便利。
やったこと
Twitterから「成人式」を含むツイート1000件(リプライ・リツイートは除く)を取ってきて、ワードクラウドにしました。
※除外ワードが雑なのは途中で飽きたからです(・ω<)
ワードクラウドにしてみた結果
一般の声を普通に聞いてみるため、とくに条件を絞らず出してみます。
やっぱ「振袖」「着物」「可愛い」など、振袖が楽しみになっているようですねー。
「みんな」「同窓会」「友達」「懐かしい」「地元」「久しぶり」など、同窓会的な要素で成人式を楽しんでる人も多いみたいです。
今度は300以上のイイネがついてるツイートのみに絞りました。
「皆さん」とか「市長」「風物詩」とかが入ってるのを見ると、新成人ではなくおめでとうする側のツイートが多いようです。
「阿蘇」「熊本」「神奈川」が入ってるのを見ると、地域も言及軸の一つになっていそうです。「歌う」はどこかの市長のことなんですかね。。
あと、「飲む」はたぶんお酒なんでしょうね。新成人よ、お酒はいいぞ。
やってみて思ったこと
GAの検索キーワードとかもそうなんだけど、インプットのデータ数が少ないとか、共起が小さいワードが大量に並んでくる系だとワードクラウドどうにも使いづらいんですよね。。
形態素解析もっと勉強しないといけないなと思いました。
あと、Google Colabのフォントの指定よくわかんないから、とりあえず豆腐だけ回避してみたけど、ゴシック体あんまり可愛くないからもっと良いやつ誰か教えろください。
コードはここを参考にしました