MeCabにユーザー辞書を追加するまでの備忘録
数年前にユーザー辞書の導入を試みるも、あえなく挫折。
新しい言葉などの分析に不便を感じ、MeCabの利用を諦めたが、
Pythonへの再チャレンジを機に、再びチャレンジしてみた。
OSはWindows10(64bit)。
どん底から這い上がるまでの記録を参考に作業した。
mecab-ipadic-NEologdのダウンロード
このサイトの右上の方にある緑のボタンから「Download ZIP」を選択して、
mecab-ipadic-NEologdをダウンロードした。
辞書データとなるCSVの解凍
ダウンロードしたファイルを解凍後、「seed」フォルダを開くと、
CSVファイルがXZ形式で圧縮されていた。
調べてみると、この形式は7-ZIPで解凍できるようなので、
ダウンロードサイトから7-ZIPをダウンロードして使用した。
解凍されたCSVファイルの文字コードはUTF-8のようなので、
「user_dic.csv」というファイルを作成して、中身をまとめた。
バッチファイルの作成
どん底から這い上がるまでの記録の『4. 辞書のコンパイル』を参考に、
バッチファイルを作成した。
バッチファイルとは?
バッチファイルとは、windows環境下で動作するバッチ処理(複数の処理をまとめて順次実行する処理のこと)を記述するファイルのこと。
分かりやすく言うと、たくさんの処理を自動で実行してくれるファイル。
(引用:https://qiita.com/sawa_tsuka/items/4703a9743777d4ea30de)
user_custom.bat(バッチファイル名)
メモ帳などに下記のコードをコピー後、
ファイル名を「user_custom.bat」に変更し、「seed」フォルダに移動した。
echo on
"フォルダ1" -d "フォルダ2" -u user.dic -f utf-8 -t utf-8 user_dic.csv
pause
フォルダ1:「mecab-dict-index.exe」があるフォルダの場所
フォルダ2:システム辞書があるフォルダ(C:\Program Files (x86)\MeCab\dic\ipadic)
user.dic:作成するユーザーファイルのファイル名
user_dic.csv:辞書作成に使用するデータファイル名
フォルダの場所は、該当するファイルを右クリックし、
「プロパティ」を選択すれば分かる。
該当する個所をマウスで選択し、Ctrl+Cでこの部分がコピーできる。
辞書のコンパイル
コマンドプロンプトでバッチファイルがある場所に移動してから、
バッチファイルを実行して、辞書を作成した。
コマンドプロンプトの立ち上げ方がわからなければ、
「Cortana」や「プログラム名を指定して実行」などで
「cmd」と入力すれば出てくると思う。
作成された辞書ファイル(user.dic)を、
システム辞書があるフォルダと同じ場所(C:\Program Files \MeCab\dic)に移動した。
mecabrcにパスを設定するには管理者権限が必要だったけど、
管理者権限での開き方がわからなかったので、
mecabrcファイルをデスクトップにコピー
↓
userdicのパスを変更
↓
変更したmecabrcファイルを、元の場所に上書きコピー
という手順で処理した。
感想
数年前と比べると、
Windows環境でのPython3の事例もだいぶ増えたためか、
大きなトラブルもなくユーザー辞書を導入することができた。
この記事が気に入ったらサポートをしてみませんか?