見出し画像

過去noteの頻出ワードを抽出してみた[600]

noteを掃き溜めみたいに使って
それでいて、綺麗にしておきたいって思ってる。

マイニングしてきた。
頻出単語が、純粋に気になって。

同じ話ばかり、同じ視点と、同じ言葉遣いで、
書いていることを自覚しているから。

*分析対象: 約4年分のnote記事(≧500本, ≈300,000字)
*ツール: ユーザーローカルAIテキストマイニング (https://textmining.userlocal.jp/)


まあ。悪くないじゃん。
まんぞくまんぞく。

なら、いいんだ。

知ってた。
こんなに愚直な人間なんだってこと。

   (…「姫」だけ気になる。何の話だ?)


ー作成手順ー
1. note「記事一覧」から「エクスポート」
_10分ほどかかりました。
_xml形式で保管されています。

2. 全角文字を抽出
_MS Word ワイルドカードを使用しました。
_システム構成部分(ヘッダーや日付表示)を削除するため。

3. 頻出単語を調べる
_ユーザーローカル AIテキストマイニング(Webサイト)。
_docx, pdf, txtなどの拡張子を受け付けます。

(手順2と3は、スクリプトやコードを書いちゃうのもありな気がします。)

雑に抽出してしまったけど、気が向いたら作りたいなあ。
オリジナルxmlファイルからぴょーんとできるやつ(note特化型)。

日本語の「ワード」を認識する技術に関して、無知です。
全角と半角が混じってて、それだけで混乱します。

ほら!やれるもんなら、やってみな!


…やっぱり、
気は向かないかもな。 

この記事が参加している募集

もっといろんな環境を知りたい!!