見出し画像

自分をテキストマイニング

前書き

書いた文章が溜まって来たため、勉強も兼ねて自分の文章の分析をしてみました。文章の反省や自己分析、テキストマイニングの練習にもなるかと。見てないですけどnoteで同じような事をやっている人いるんじゃないかなぁ。と思ったらテキストマイニングタグが100件くらいしかなかった。
意外とマイナー...?

今回でプロファイリングにかなり有効であることが分かりましたので、
「界隈の文章やツイートのテキストマイニングとnote売り上げ・対外的評価との間の相関解析」
「テキストマイニングによるツイートからのネカマ・危険人物判別解析」
「noteにおける詩・ポエム・ポエトリータグの違いをテキストマイニングで明らかに」

みたいな建設的な(または悪意ある)統計分析もやってみたいのですが、それは追々機会と興味と時間があれば。
使用したツールは使い方がとっても簡単で、分かりやすいチュートリアルもありますのでPCがあれば誰でも使うことができるかと思います。
解析時にちょっとPCスペックが必要かも?
自分ではできないという方でも、自分や他人の文章をプロファイリングをしたい、この人安全かどうか調べて欲しい、こんなことできないかという何かアイデアがある方、下記のようなことを自分や他人の文章でもやってみたいという方がもしいたら、できそうであればスキルアップも兼ねて挑戦してみたいと思いますので、お気軽にDMか何かでご相談ください。技術をこっそり悪いことに使うの大好きなので大歓迎です。

方法

KH Coderというフリーのテキストマイニングツールを使用しました。

分析対象は僕のnote及びツイートの文章です。
自分の文章であればサンプルとしては身近で、身近であるからこそ分析もしやすい、ということで。

RMeCabを使った経験もあって、データの取得から分析まで初めてでもおおよそ数十分でできたのでとっても簡単でした。

結果と考察

・語句登場頻度リスト

語句リスト

語句の使用頻度ごとに並べたものです。
一番目はぶっちぎりで「ご主人様」
言及しすぎですね。仕方ありませんね。

二番目は「自分」、三番目は「思う」
これは文章書きからすると良くないことです。
日本語の文章であれば自分が書いていることは分かっている訳ですから一人称は省略できる場面が多いですし、「思う」というのも漠然としているため思い切って削った方が良い言葉です。今後気を付けないといけません。

4番目以降についてはよく話題として上げる「花」「見る」「言葉」「色」など僕が文章やツイートの中で題材にするワードが出現しており、興味のある分野や表現志向性がよく分かります。

・多次元尺度法バブルプロット

多次元

語の使用頻度を〇の大きさで表現しつつ、同じ文章で登場する語句同士は近くなるように表現した図です。〇の色の違いは言葉の属性をグループ化したもので、同じ色であれば同じ文脈の中で使われる傾向にあることを示します。(主成分分析や因子分析との違いについても後々調べないといけないけど、上記説明で合っているのか...?)
自分がその言葉をどのような文脈で使用しているか、その言葉に対しどのような印象を持っているかがよく分かります。

例えば黄色グループ、「ご主人様」を中心として「大切」「ありがとう」「想い出」「喜ぶ」という語句が属しています。
また、別グループで近いものとして、「花」「花言葉」「幸せ」「大好き」「想う」「言う」など、僕がご主人様に対してどのような印象を持っているか、どのような行為を重視しているかがよく分かります(?)。
「ご主人様」が撮る「写真」「素敵」ですものねぇ。
「自分」という言葉とも近いため、同じ文脈で並べて話すことが多いみたいですね。

別グループには五感に関する言葉や概念的な言葉が並びます。具体的な名前を持つ「物」ではなく、感覚的精神的な語句を多く使用し文章を書いているようです。暗めな文章を書いているような気がしましたが、語句だけ見ると実はそうでもないようですね。
でも左下「死ぬ」周辺の不穏さがすごい。

ここからいくらでも性格・心理分析みたいなことができてしまいそうな空恐ろしさがあるプロットですね。そもそもここに出てきた言葉というのは使用頻度が多いために、何とは言わないまでも容易に性癖がバレる…!

・共起ネットワーク図

共起

語の使用頻度を〇の大きさで表現しつつ、同じ文で連なって使われる語句を線でつないで関係性を示した図です。
多次元尺度法バブルプロットでは全体を俯瞰したような要約結果が得られますが、こちらはより具体的な語句同士の繋がりに関する情報が得られますね。
「書く」という言葉に注目すると「考える」「思う」「見る」「自分」につながっており、好きなものだとか大切なことだとかを書いている訳ではなく、自分が見て考えたものを書いていることが分かります。
その他文章表現として好みな表現がよく分かりますね。
”「ご主人様」「素敵」、「いつ」も「たくさん」「ありがとう」ございます”
とか。
「今日」「明日」「桜」「最後」「行く」「死ぬ」ラインの不穏さよ。

終わりに

結果的に惚気ただけじゃねーか感。申し訳ありませんでした。

KH Coderはとっても使い方が簡単で色々な情報が得られる良いツールです。
外部変数やサンプルの種類が多いのであれば、分析結果を元にRで多重回帰分析や決定木やってみたりとか面白いことができそうですね。
今後も文章の研究や他人のプロファイリングなど、色々と悪用していきたいと思います。
情報解析のために他人の著作物を利用するのは許されているからね!(著作権法47条の7)。

万が一サポート、感想、コメント、分析等のご相談などございましたらお気軽に。