テキスト分析の大通り#21: Janomeでの形態素解析

2023年2月18日 14:27

補記その2。Janomeでの処理。ユーザー辞書の利用方法がカジュアルで良いなと思う反面、Sudachi同様複数の文書を扱う際にループをしなければならないのは面倒。Mecabのようにデータフレームそのまま複数文書を突っ込めるとありがたいのですが、できないため(もしくは単にやり方を知らないため)、データフレームの格子を外し、for文を書いて処理をしてます。以下にスクリプトを。

ユーザー辞書は以下2つの方式に対応しており、それぞれに以下のような感じで単語登録し、UTF8のcsvで作業ディレクトリに置いておきます。スクリプト側では関数をmwakati, swakatiに変えて処理を行っています。ぼる塾、山里亮太がまとまっているのがお分かりいただけるかと。

MeCab IPADICフォーマットjanomedic1.csvへの記載

ぼる塾,-1,-1,1000,名詞,固有名詞,一般,,,*,ぼる塾,ぼる塾,ぼる塾

簡略辞書フォーマットjanomedic2.csvへの記載

山里亮太,カスタム名詞,ヤマサトリョウタ

(TeradataやPython、およびPythonライブラリのインストールや環境構築、辞書登録、参考にしたページ等は以下にまとめています)

///

#analytics #pyhon #janome #形態素解析 #text #nlp #データ #分析 #teradata #sql

この記事が気に入ったらサポートをしてみませんか？