Python向け日本語自然言語処理ライブラリ「GiNZA」を使ってみた

2019年4月24日 13:32

■始めに
先日、リクルートから日本語の自然言語処理ライブラリ「GiNZA」を公開したというプレスリリースがあった。

リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開

これまでは MeCab を使用してきたけど、「試しに使ってみようかな」という軽い気持ちで「GiNZA」を導入してみることにした。

※あくまで初心者の備忘録的なメモなので、読んでくださる方はそのつもりでお願いします。

■環境
・Windows10 64 bit
・Python3.7 がインストール済

■実行環境のセットアップ
「GiNZA」の公開ページにインストール手順が記載されていたので、その通りに作業してみる。

1. GiNZA NLPライブラリと日本語Universal Dependenciesモデルのインストール

「『コンソール』って何？」と思いながら、コマンドプロンプトを開き、下記の記載されているコマンドを入力。

pip install "https://github.com/megagonlabs/ginza/releases/download/v1.0.2/ja_ginza_nopn-1.0.2.tgz"

多分成功したっぽい。

2. 試し方
続けて、記載されている下記のコマンドを入力。

python -m spacy.lang.ja_ginza.cli

OKなのかな？

『日本語の文に続けてEnterを入力すると、conllu形式で解析結果が出力されます』とあるので、そのまま適当にテストしてみる。

をを～。

ふむふむ。
割と綺麗に分けられている印象。

このままコーディング例を試してみよう。

3.コーディング例
同様に、記載されている下記のコードを試してみる。

import spacy
nlp = spacy.load('ja_ginza_nopn')
doc = nlp('依存構造解析の実験を行っています。')
for sent in doc.sents:
   for token in sent:
       print(token.i, token.orth_, token.lemma_, token.pos_, token.dep_, token.head.i)
   print('EOS')

このコードをテキストファイルにコピーし、ファイル名を「test」で保存。
拡張子を「.py」に変更して、ファイルをデスクトップに移動。

私のデスクトップは E ドライブに設定されているので、「～>e:」で作業するドライブを C から E に変更。
「cd E:～デスクトップ」で、作業する場所をデスクトップに変更。
「test.py」（ファイル名）を入力して実行。

こんな感じ。
「print('EOS')」の前にある print 内を修正すると、出力する情報を選べそう。

不慣れな人にとっては、Python のみで準備が整うのは手軽でいいと思う。
現時点では MeCab との差がわからないけど、しばらく色々と試してみようと思う。

この記事が気に入ったらサポートをしてみませんか？