プレ社内アンケートの自由記述を分析してみた話[テキストマイニング]

2021年6月30日 12:30

1.アンケートをとるぞー

社内のコーポレートブランディングを検討している一貫で、社員全員にアンケートをとることにしました。
目的は「現状の社員・会社の状況を把握する」ということで、いわゆる意識調査みたいな感じのことがしたいわけです。

2.一部の委員会メンバーで設問を用意してみたものの…

設問が多くて、アンケート答えるのメッチャ重い

…ということが課題になりました。みんな聞きたいこと多すぎです。
よって我々DADメンバーは、一部が答えたプレ実施の回答をもとに、これ聞いてもあんまり意味ないかもね？的な意見を出すことにしたんです。
※DADとは…https://note.com/cograph_data/n/nc225773be91d

3.DAD的なやってみた

この日本語文章の回答を 見える化 するために、今回はPythonで自然言語処理、テキストマイニングを行います。
※自然言語処理とは…https://club.informatix.co.jp/?p=922
※テキストマイニングとは…https://it-trend.jp/textmining/article/124-0019

日本語の処理でやっかいなのは、単語と単語の切れ目がないことです。
英：I am a teacher.
日：私は先生です。
英語なら、単純に半角スペースで区切れば単語になりますね。でも日本語は違います。判断しないといけないのが面倒。
よって今回は、janomeという形態素解析ライブラリを使って単語に分けます。
公式ドキュメント：https://mocobeta.github.io/janome/

それから、見える化するために必要なのがWordCloudというライブラリです。これを使うと、頻出単語が大きく、そうでないものは小さく表示することができます。
公式ドキュメント：https://amueller.github.io/word_cloud/

4.いよいよやってみた！

ガチャガチャとスクリプトを作成して、ついに見える化することができました！
「会社には技術力があると思いますか？その理由は？」のプレ実施回答を見える化した結果がこちら↓↓

技術力

「わから」「ない」…わからないんかーい！！！
ということで。まだプレ実施の段階ではありますが、この設問は自由記述で聞いても意味がなさそうですね。削除候補として報告します。

こんなことを駆使しつつ、出来たアンケートの全社実施はもう少し先の話。
それまでにもう少しスクリプトを充実させて、アンケート本番の結果を楽しみにしたいと思います！

この記事が気に入ったらサポートをしてみませんか？