これまでnoteに書いた記事をMeCabとPythonとWordCloudでまとめてみた
はじめに
今回はGWということで、ここまで書いてきた記事の振り返りという意味も込めて、ここまで書いた記事をWordCloudでまとめてみることにしました。
やりかた
テキストを用意
まず、自分のnote記事をローカルにダウンロードします。
noteの場合、自分の「記事」のページに入ると「エクスポート」できるのでこれを利用します。
落としてみると、ご覧の通りXMLになっているので、余計なタグを置換で取り除くのがよいです。
形態素解析エンジンMeCab
次に形態素解析を行います。
要するに、対象の文章中で使われている単語などを判別し、抽出する作業です。もちろん、これを人力で行うわけではなく、ツールを使います。
このツールの使い方については、note内外に無数にあるのでここでは割愛。
PythonでWordCloud
Pythonはプログラミング言語、WordCloudは
のことで、PythonでWordCloudを利用するためのライブラリはすでに提供されています。
pip install wordcloud
でインストールすればすぐ使えるし、これより詳しく書かれた記事もnote内外に無数にあるのでここでは割愛。
ビジュアル化
ここまで用意すれば後は色見を決めて、出力するだけ。色見はここにあるcolormapを参照ください。
その結果は以下のようになりました。今回は colormap="hot" としたので、赤ほどよく出てくる単語ということになります。
おわりに ~ 「一目でわかる」ということが大事
こうしてみると、「DX」や「Excel」が非常に目立ちます。また「開発」や「現場」なども目につきます。実際、以下のようにランキングにしてみると、やはりDXやExcelに関する記事を書いているのがわかります。
棒グラフはよくある形ですが、今回はキーワードの正確な個数が重要なのではなく、あくまで「このnoteに上げられている記事の傾向」がわかればよいので、このようなWordCloud形式は非常に有用です。このように、
目的に応じた見える化を、いかに手間をかけずに実現するか
が重要です。WordCloudは環境の構築も非常に簡単なので、皆さんも是非ご利用ください。
また、最後は宣伝となりますが、note・ビザスクなどで、主に製造業におけるデータ活用やソフトウェア開発の現場についてもご紹介しております。そちらもよろしくお願いいたします。
参考文献
今回はMeCab・Python・WordCloudの環境構築についてはほとんど触れませんでしたが、noteで書かれていた記事を一つ紹介します。
この記事が参加している募集
課金してくれるととても嬉しいです。シェアしてもらっても嬉しいです。「いいね」も嬉しいですし、フォローも嬉しいです。要するに、どんなことでも嬉しいです。