GiNZA入門 (6) - Universal Dependencies
「GiNZA」の「Universal Dependencies」についてまとめました。
前回
1. Universal Dependencies
「Universal Dependencies」(UD)は、構文解析の後処理の共通化や、
多言語の横断的な学習、言語間の定量的な比較などを可能にするために定義された、多言語で一貫して利用する構文構造とタグセットになります。
2. 日本語UDデータセット
主な「日本語UDデータセット」は、次の3つです。
◎ UD_Japanese-GSD - 約8,000文
「spaCy v2 日本語版」の構文解析モデルの学習データセットです。ライセンスは、商用利用可能な「CC BY-SA 4.0」です。
◎ UD_Japanese-BCCWJ - 約57,000文 (新聞由来の約16,000文を含む)
「GiNZA v4」の構文解析モデルの学習データセットです。ライセンスは有償で、GiNZAは国語研の許諾を受けて学習済みモデルを配布しています。
◎ UD_Japanese-PUD - 1,000文
全言語で共通の内容を持つパラレルコーパスです。
3. 係り受け解析
「係り受け解析」は、単語または文節のか係り先の判定を行う処理です。
日本語の「文節係り受け」は、非交差かつ後方への単方向参照になります。
多言語対応の「単語係り受け」は、非交差制約を前提に解析を行います。
4. 依存関係ラベリング
「依存関係ラベリング」は、係り受けの依存関係を、nsubj(主語名詞)やobj(目的語)などの37種類のタグに分類する処理です。
・acl : 名詞の節修飾子
・advcl : 副詞節修飾子
・advmod : 副詞修飾子
・amod : 形容詞修飾子
・appos : 同格
・aux : 助動詞
・case : 格表示
・cc : 等位接続詞
・ccomp : 補文
・clf : 類別詞
・compound : 複合名詞
・conj : 結合詞
・cop : 連結詞
・csubj : 主部
・dep : 不明な依存関係
・det : 限定詞
・discourse : 談話要素
・dislocated : 転置
・expl : 嘘辞
・fixed : 固定複数単語表現
・flat : 同格複数単語表現
・goeswith : 1単語分割表現
・iobj : 関節目的語
・list : リスト表現
・mark : 接続詞
・nmod : 名詞修飾子
・nsubj : 主語名詞
・nummod : 数詞修飾子
・obj : 目的語
・obl : 斜格名詞
・orphan : 独立関係
・parataxis : 並列
・punct : 句読点
・reparandum : 単語として認識されない単語表現
・root : ルート
・vocative : 発声関係
・xcomp : 補体
詳しくは、以下を参照。
5. 参考
次回
この記事が気に入ったらサポートをしてみませんか?