見出し画像

ドメイン特化型の自然言語処理製品を生み出すデータ構築の現場から

CLM(契約書管理システム)のための自然言語処理

こんにちは。MNTSQ(モンテスキュー)株式会社でアルゴリズムエンジニアをしている坂本です。今回はリーガル職とアルゴリズムエンジニア向けの採用ブログをお届けします。

自然言語処理技術の開発に携わっていますが、搭載先がCLM(契約書管理システム)であるため、UXの設計や開発用データの構築、作成において、法務や契約のドメイン知識を持つドメインエキスパートとの協業をしながら開発、改善サイクルを運用しています。

法務・契約のドメイン知識が必要な分野で、現場のデータを狙った精度で処理できる自然言語処理技術をつくるために、MNTSQのアルゴリズムエンジニアが、どのように法務・契約のドメインエキスパートと協業しているかについてご紹介し、リーガル職もしくはアルゴリズムエンジニアで入社を検討されている方向けに、入社後の様子の一端をお伝えできればと思います。

人間しかできない仕事に注力するための自然言語処理

MNTSQでは、「すべての合意をフェアにする」という目的のもと、企業の法務部や事業部、法律事務所の現場向けのSaaS製品を開発しています。(最近公開されたこちらの記事もご覧ください。)

MNTSQ CLMに契約書をアップロードすると、契約書が自動で解析され、契約書の検索や管理を容易にするための様々なメタデータが付与されます。このような検索UXを向上させるメタデータの一例として、下記のような処理をする部品を開発しています。

固有表現抽出
契約書タイトル、契約当事者、契約締結日、契約期間といった基本的な情報を抽出します。

文書分類:契約書の分類
「秘密保持契約」や「業務委託契約」といった契約類型の分類を行います。

これらの情報を検索用のメタデータとして文書に付与しておくことにより、ユーザーが目的の契約書やナレッジを効率よく見つけられるようにし、法務のエキスパートが人間ならではの判断が必要な業務に対してより多くの時間とエネルギーを使える製品にすることを目指しています。

自然言語処理技術の改善サイクル

製品ユーザーの視点を持つリーガルのドメインエキスパート達は、セールス、導入時のサポート、プロダクト全体のUX設計、契約書検索のUX設計、個別の自然言語処理技術向けの開発といった社内の幅広い分野に携わっています。

その中の一つとして、自然言語処理モジュール作成の場面においても、法務・契約のドメインエキスパート達は、データ構築の過程で重要な役割を果たしています。
(機械学習や自然言語処理におけるデータ構築の重要性については、こちらの動画もご覧ください)

自然言語処理技術の具体的な開発段階では、下記の3つを繰り返すことによって精度を向上させていきます。よって、このサイクルを楽に回せたほうが、開発が楽になります。

1、開発用データ作成:いわゆるアノテーションと呼ばれる工程です。契約書の中で機械に自動抽出させたい部分に印をつけたり、契約書に対して分類ラベルを付けたりします。ドメインエキスパートが担当します。

2、モデル開発:機械学習や規則作成を行います。アルゴリズムエンジニアが担当します。

3、評価と誤り分析:機械の出力の正誤を評価したり、誤りをなくすための対策を立てます。

ドメインエキスパートが社内に在籍することの強み

法務と契約のドメインエキスパートが社内に在籍していることの強みは2つあると思います。

  • 改善サイクルを回しやすい

  • より実践的な場面を想定したデータを構築できる

以下は細かい話になりますが、ドメインエキスパートとのやりとりの具体的なエピソードとしていくつかご紹介します。

概念体系の設計思想
契約書は契約類型という体系で大まかに分類することができる。個別の契約書である「秘密保持契約」や「ライセンス契約」、一連の契約を束ねる役割を持つ「取引基本契約」など、異なる概念の軸に基づくバリエーションが沢山ある。言語処理の観点から見るとオントロジーの一種に見えるが、法律の勉強を専門にしたことがない者にとってはコンテンツの内容が専門的なために、全容を掴むのに苦労する。偶然、六法の元編集長が在籍しており、六法が条文の分類・検索・参照に特化した作りになっていることを習い、その体系化の例を通じて、MNTSQ独自の契約類型体系についてどう考えればよいのかのヒントを頂いた。設計思想から個別具体的な類型の違いの話になってきたときには、企業法務の実務経験者に、実際の使い勝手などを教えて頂きながら、製品のどの部分で使うと製品の価値を上げられるのか検討している。

現場の経験に基づいた勘
「実務経験の中でよく見たタイプのデータを、出る順に、ほどよいバリエーションで作ってください」といった、ドメインエキスパートがこれまでの経験で培った、ドメイン特化の言語直感によるデータ作成を依頼できるのも、現場で精度を出せる自然言語処理技術を作成する上で助かる。企業法務の経験者の方にお願いする時に多い。

販売店と代理店の違い
販売店の方は、卸先から直接商品を仕入れ、小売店が契約当事者(売主)として消費者に直接販売するが、代理店のほうは、販売代理店が販売元の代理人として販売するため、代理店自身は契約当事者としては登場しない。確かに後から書店で探した本に書いてあるのだが、前提知識なしで、いきなり書店でその本に辿り着くことは難しい。
また、このように、厳密には代理店と販売店は異なるのだが、それは権利関係の法的なスキーム(立て付け)が異なるに過ぎず、社会的実態としてはさほど変わらない。実務上、検索UXの向上のために、両者を分けるか、似たものとしてまとめておくかは、別途検討している。
社内にこのような概念について語ってくれるメンバーがいて、外界の知識へつないでもらえるのがとてもありがたい。企業法務の経験者の方に教えて頂いた。

「遅延利息」と「遅延損害金」
厳密には使用場面が違う。原則として、「利息」はお金を貸したときにしか使わないし、「損害金」のほうは物品の納入が遅れた時などにしか使わないが、この両者が契約書上で混同されて使われることがある。人間であれば、近い概念を表す語として理解できるが、機械の場合には文字が違うと違う言葉として認識する傾向があるので、このような、現場での用語の使い方を教えてもらえると、その用法に基づいて、処理の挙動を調節することも可能になる。弁護士に教えて頂いた例。

まとめ

ドメイン特化の自然言語処理技術においては、ドメインエキスパートとアルゴリズムエンジニアの協業が行われています。

ドメインエキスパートと共にドメイン特化型の自然言語処理技術を作成して世の中に役立てたい!というリーガル職の方と自然言語処理や機械学習エンジニアの方、お気軽にカジュアル面談をリクエストしてください!


この記事が気に入ったらサポートをしてみませんか?