見出し画像

GiNZA入門 (6) - Universal Dependencies

「GiNZA」の「Universal Dependencies」についてまとめました。

前回

1. Universal Dependencies

Universal Dependencies」(UD)は、構文解析の後処理の共通化や、
多言語の横断的な学習、言語間の定量的な比較などを可能にするために定義された、多言語で一貫して利用する構文構造とタグセットになります。


2. 日本語UDデータセット

主な「日本語UDデータセット」は、次の3つです。

◎ UD_Japanese-GSD - 約8,000文
「spaCy v2 日本語版」の構文解析モデルの学習データセットです。ライセンスは、商用利用可能な「CC BY-SA 4.0」です。

◎ UD_Japanese-BCCWJ - 約57,000文 (新聞由来の約16,000文を含む)

「GiNZA v4」の構文解析モデルの学習データセットです。ライセンスは有償で、GiNZAは国語研の許諾を受けて学習済みモデルを配布しています。

◎ UD_Japanese-PUD - 1,000文

全言語で共通の内容を持つパラレルコーパスです。

3. 係り受け解析

係り受け解析」は、単語または文節のか係り先の判定を行う処理です。

日本語の「文節係り受け」は、非交差かつ後方への単方向参照になります。

画像2

多言語対応の「単語係り受け」は、非交差制約を前提に解析を行います。

画像1

4.  依存関係ラベリング

依存関係ラベリング」は、係り受けの依存関係を、nsubj(主語名詞)やobj(目的語)などの37種類のタグに分類する処理です。

・acl : 名詞の節修飾子
・advcl : 副詞節修飾子
・advmod : 副詞修飾子
・amod : 形容詞修飾子
・appos : 同格
・aux : 助動詞
・case : 格表示
・cc : 等位接続詞
・ccomp : 補文
・clf : 類別詞
・compound : 複合名詞
・conj : 結合詞
・cop : 連結詞
・csubj : 主部
・dep : 不明な依存関係
・det : 限定詞
・discourse : 談話要素
・dislocated : 転置
・expl : 嘘辞
・fixed : 固定複数単語表現
・flat : 同格複数単語表現
・goeswith : 1単語分割表現
・iobj : 関節目的語
・list : リスト表現
・mark : 接続詞
・nmod : 名詞修飾子
・nsubj : 主語名詞
・nummod : 数詞修飾子
・obj : 目的語
・obl : 斜格名詞
・orphan : 独立関係
・parataxis : 並列
・punct : 句読点
・reparandum : 単語として認識されない単語表現
・root : ルート
・vocative : 発声関係
・xcomp : 補体

詳しくは、以下を参照。

5. 参考

次回



この記事が気に入ったらサポートをしてみませんか?