見出し画像

ワードクラウド 日本語化 Python Jupyter でやってみる。(別のリンクで追記あり)

「ワードクラウド 日本語 Python JupyterLab でやってみる。」

(追記ありの記事)https://note.com/bunnseki/n/n256ff3d21b3d

#参考にさせて頂いた主なHP  
# https://github.com/amueller/word_cloud/blob/master/examples/masked.py
# https://note.nkmk.me/python-janome-tutorial/
# https://quest.signate.jp/quests/10031 「データ前処理道場」

import matplotlib.pyplot as plt
import numpy as np
import os
import re
pip install wordcloud
from wordcloud import WordCloud, STOPWORDS

# Can be introduced only with pip.Use "janome"
from janome.tokenizer import Tokenizer

# get data directory (using getcwd() is needed to support running example in generated IPython notebook)
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()

text_wakati = open(path.join(d, 'chumonno_oi_ryoriten.txt'), encoding='shift_jis').read()
t = Tokenizer()
s = text_wakati

print(type(t.tokenize(s)))

text_wakati=[token.surface for token in t.tokenize(s)
if token.part_of_speech.startswith('名詞')]
text_wakati =" ".join(map(str, text_wakati))
text_wakati = re.sub("字", ' ', text_wakati)
text_wakati = re.sub("下げ", ' ', text_wakati)
text_wakati = re.sub("ここ", ' ', text_wakati)

alice_mask = np.array(Image.open(path.join(d, "alice_mask.png")))

stopwords = set(STOPWORDS)
stopwords.add("said")
font_patha_a = 'gomarice_mukasi_mukasi.ttf'
wc = WordCloud(background_color="white", max_words=2000, mask=alice_mask,
stopwords=stopwords, contour_width=3, contour_color='steelblue',font_path=font_patha_a)

wc.generate(text_wakati)
wc.to_file(path.join(d, "alice.png"))

plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis("off")
plt.show()


画像1

画像2

画像3

#<サンプルとの主な変更点>
#同一階層に 、「テキストファイル」「イメージファイル」「フォントファイル」を用意
#テキストファイル  : 「青空文庫」より、注文の多い料理店 のデータを使用 保存名「chumonno_oi_ryoriten.txt」同一階層に配置。
#import re : 文字列の入れ替えを行うために使用
#文字の分類  :pipのみで導入可能であるため、「janome」を使用 文字列から名詞のみを抜き出すために使用

#<フォント> gomarice_mukasi_mukasi.ttf はフリーフォントを用意。)
# 日本語が表示出来るフォントが使用できないと、□□□□という表記になる。
#今回 、dockerでインストールしたPythonを使用しているため、フォントをフォルダに入れるのが手間であったので同一階層にフォントファイルを配置する。
#「font_path=font_patha_a」を追加。


# https://github.com/amueller/word_cloud/blob/master/examples/masked.py
# https://note.nkmk.me/python-janome-tutorial/
# https://quest.signate.jp/quests/10031 「データ前処理道場」


短い時間でサッと学習記録を確認!

https://twitter.com/Tora_UP

(追記のある記事)https://note.com/bunnseki/n/n256ff3d21b3d

この記事が参加している募集

#最近の学び

182,249件

この記事が気に入ったらサポートをしてみませんか?