見出し画像

Pythonでワードクラウド

ちょっとテキストマイニングのまねごとをしてみます。
サンプルデータはこのようなものです。

病名がリスト化されたシンプルなテキストファイルです。

まずはこれをデータフレーム化します。このテキストにはHeaderがないのでヘッダーも指定してデータフレームを作成します。

import pandas as pd

headers = ['AE_Name']
df = pd.read_table('Adverse events.txt',names=headers)
df

headersというリストを作り、それをnamesで指定してあげることでheaderが作れます。

これを、最近ニュースでもよく見る「ワードクラウド」という視覚化の方法でVisualizeしてみます。
コードはとてもシンプルです。

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import pandas as pd

headers = ['AE_Name']
df = pd.read_table('Adverse events.txt',names=headers)

txt = " ".join(ae.lower() for ae in df["AE_Name"])
wordcloud = WordCloud().generate(txt)
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

WordCloud、matplotlibの2つのライブラリを追加し、対象データをtxtという変数にスペース区切りで格納、それをプロットするだけです。
結果は以下のとおりです。

本当はもう少し前処理をしなければいけないのですが、まずはPythonで簡単にワードクラウドが実現できることの紹介でした。

この記事が気に入ったらサポートをしてみませんか?