MeCabにユーザー辞書を追加するまでの備忘録

数年前にユーザー辞書の導入を試みるも、あえなく挫折。
新しい言葉などの分析に不便を感じ、MeCabの利用を諦めたが、
Pythonへの再チャレンジを機に、再びチャレンジしてみた。

OSはWindows10(64bit)。
どん底から這い上がるまでの記録を参考に作業した。

mecab-ipadic-NEologdのダウンロード

このサイトの右上の方にある緑のボタンから「Download ZIP」を選択して、
mecab-ipadic-NEologdをダウンロードした。

画像1

辞書データとなるCSVの解凍

ダウンロードしたファイルを解凍後、「seed」フォルダを開くと、
CSVファイルがXZ形式で圧縮されていた。
調べてみると、この形式は7-ZIPで解凍できるようなので、
ダウンロードサイトから7-ZIPをダウンロードして使用した。

解凍されたCSVファイルの文字コードはUTF-8のようなので、
「user_dic.csv」というファイルを作成して、中身をまとめた。

バッチファイルの作成

どん底から這い上がるまでの記録の『4. 辞書のコンパイル』を参考に、
バッチファイルを作成した。

バッチファイルとは?
 バッチファイルとは、windows環境下で動作するバッチ処理(複数の処理をまとめて順次実行する処理のこと)を記述するファイルのこと。
 分かりやすく言うと、たくさんの処理を自動で実行してくれるファイル。
(引用:https://qiita.com/sawa_tsuka/items/4703a9743777d4ea30de)

user_custom.bat(バッチファイル名)

メモ帳などに下記のコードをコピー後、
ファイル名を「user_custom.bat」に変更し、「seed」フォルダに移動した。

echo on
"フォルダ1" -d "フォルダ2" -u user.dic -f utf-8 -t utf-8 user_dic.csv
pause

フォルダ1:「mecab-dict-index.exe」があるフォルダの場所
フォルダ2:システム辞書があるフォルダ(C:\Program Files (x86)\MeCab\dic\ipadic)
user.dic:作成するユーザーファイルのファイル名
user_dic.csv:辞書作成に使用するデータファイル名

フォルダの場所は、該当するファイルを右クリックし、
「プロパティ」を選択すれば分かる。

画像2

該当する個所をマウスで選択し、Ctrl+Cでこの部分がコピーできる。

辞書のコンパイル

コマンドプロンプトでバッチファイルがある場所に移動してから、
バッチファイルを実行して、辞書を作成した。

コマンドプロンプトの立ち上げ方がわからなければ、
「Cortana」や「プログラム名を指定して実行」などで
「cmd」と入力すれば出てくると思う。

作成された辞書ファイル(user.dic)を、
システム辞書があるフォルダと同じ場所(C:\Program Files \MeCab\dic)に移動した。

mecabrcにパスを設定するには管理者権限が必要だったけど、
管理者権限での開き方がわからなかったので、

mecabrcファイルをデスクトップにコピー

userdicのパスを変更

変更したmecabrcファイルを、元の場所に上書きコピー

という手順で処理した。

感想

数年前と比べると、
Windows環境でのPython3の事例もだいぶ増えたためか、
大きなトラブルもなくユーザー辞書を導入することができた。

この記事が気に入ったらサポートをしてみませんか?