Python向け日本語自然言語処理ライブラリ「GiNZA」を使ってみた

■始めに
先日、リクルートから日本語の自然言語処理ライブラリ「GiNZA」を公開したというプレスリリースがあった。

リクルートのAI研究機関、国立国語研究所との共同研究成果を用いた日本語の自然言語処理ライブラリ「GiNZA」を公開

これまでは MeCab を使用してきたけど、「試しに使ってみようかな」という軽い気持ちで「GiNZA」を導入してみることにした。

※あくまで初心者の備忘録的なメモなので、読んでくださる方はそのつもりでお願いします。

■環境
・Windows10 64 bit
・Python3.7 がインストール済

■実行環境のセットアップ
「GiNZA」の公開ページ にインストール手順が記載されていたので、その通りに作業してみる。

1. GiNZA NLPライブラリと日本語Universal Dependenciesモデルのインストール

「『コンソール』って何?」と思いながら、コマンドプロンプトを開き、下記の記載されているコマンドを入力。

pip install "https://github.com/megagonlabs/ginza/releases/download/v1.0.2/ja_ginza_nopn-1.0.2.tgz"

多分成功したっぽい。

画像1


2. 試し方
続けて、記載されている下記のコマンドを入力。

python -m spacy.lang.ja_ginza.cli

OKなのかな?

画像2

『日本語の文に続けてEnterを入力すると、conllu形式で解析結果が出力されます』とあるので、そのまま適当にテストしてみる。

画像3

をを~。

画像4

ふむふむ。
割と綺麗に分けられている印象。

このままコーディング例を試してみよう。

3.コーディング例
同様に、記載されている下記のコードを試してみる。

import spacy
nlp = spacy.load('ja_ginza_nopn')
doc = nlp('依存構造解析の実験を行っています。')
for sent in doc.sents:
   for token in sent:
       print(token.i, token.orth_, token.lemma_, token.pos_, token.dep_, token.head.i)
   print('EOS')

このコードをテキストファイルにコピーし、ファイル名を「test」で保存。
拡張子を「.py」に変更して、ファイルをデスクトップに移動。

私のデスクトップは E ドライブに設定されているので、「~>e:」で作業するドライブを C から E に変更。
「cd E:~デスクトップ」で、作業する場所をデスクトップに変更。
「test.py」(ファイル名)を入力して実行。

画像5

こんな感じ。
「print('EOS')」の前にある print 内を修正すると、出力する情報を選べそう。

不慣れな人にとっては、Python のみで準備が整うのは手軽でいいと思う。
現時点では MeCab との差がわからないけど、しばらく色々と試してみようと思う。

この記事が気に入ったらサポートをしてみませんか?