見出し画像

これまでnoteに書いた記事をMeCabとPythonとWordCloudでまとめてみた

はじめに

今回はGWということで、ここまで書いてきた記事の振り返りという意味も込めて、ここまで書いた記事をWordCloudでまとめてみることにしました。

やりかた

テキストを用意

まず、自分のnote記事をローカルにダウンロードします。

noteの場合、自分の「記事」のページに入ると「エクスポート」できるのでこれを利用します。

まるっとエクスポート

落としてみると、ご覧の通りXMLになっているので、余計なタグを置換で取り除くのがよいです。

正規表現の置換で一発削除

形態素解析エンジンMeCab

次に形態素解析を行います。

形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。

https://ja.wikipedia.org/wiki/形態素解析

要するに、対象の文章中で使われている単語などを判別し、抽出する作業です。もちろん、これを人力で行うわけではなく、ツールを使います。

MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。

https://ja.wikipedia.org/wiki/MeCab

このツールの使い方については、note内外に無数にあるのでここでは割愛。

PythonでWordCloud

Pythonはプログラミング言語、WordCloudは

文書から単語(動詞、名詞)を抜き出し、その登場回数に応じて文字を大きく描画することで、文書の内容やテーマを把握しやすくする手法

https://resanaplaza.com/2022/05/21/【実践】PythonでWordCloud(ワードクラウド)しようぜ!/

のことで、PythonでWordCloudを利用するためのライブラリはすでに提供されています。

pip install wordcloud

でインストールすればすぐ使えるし、これより詳しく書かれた記事もnote内外に無数にあるのでここでは割愛。

ビジュアル化

ここまで用意すれば後は色見を決めて、出力するだけ。色見はここにあるcolormapを参照ください。

その結果は以下のようになりました。今回は colormap="hot" としたので、赤ほどよく出てくる単語ということになります。

2023年4月までのnote記事のWordCloud

おわりに ~ 「一目でわかる」ということが大事

こうしてみると、「DX」や「Excel」が非常に目立ちます。また「開発」や「現場」なども目につきます。実際、以下のようにランキングにしてみると、やはりDXやExcelに関する記事を書いているのがわかります。

ランキングにしてみた

棒グラフはよくある形ですが、今回はキーワードの正確な個数が重要なのではなく、あくまで「このnoteに上げられている記事の傾向」がわかればよいので、このようなWordCloud形式は非常に有用です。このように、

目的に応じた見える化を、いかに手間をかけずに実現するか

が重要です。WordCloudは環境の構築も非常に簡単なので、皆さんも是非ご利用ください。

また、最後は宣伝となりますが、note・ビザスクなどで、主に製造業におけるデータ活用やソフトウェア開発の現場についてもご紹介しております。そちらもよろしくお願いいたします。

参考文献

今回はMeCab・Python・WordCloudの環境構築についてはほとんど触れませんでしたが、noteで書かれていた記事を一つ紹介します。


この記事が参加している募集

課金してくれるととても嬉しいです。シェアしてもらっても嬉しいです。「いいね」も嬉しいですし、フォローも嬉しいです。要するに、どんなことでも嬉しいです。