見出し画像

特許情報解析において生成AI(大規模言語モデル)が可能にしたこと

ChatGPTが登場してから1年以上経ち、様々な領域で活用が進んでいます。特許読解支援アシスタントサービス「サマリア」も、もうすぐリリースから1年が経とうとしています。

ここで、特許情報解析において生成AI(大規模言語モデル)が可能にしたこと(実現したこと)について、「従来できなかったこと」と対比して説明したいと思います。知財業界でもまだまだ生成AIを活用していない人が多いと思うので、良ければこの記事を読んでいただき、生成AIが「従来、人間でなければできなかったどのようなこと」をどのように可能にしたのかご理解いただけると幸いです。

特許読解AIアシスタント・サマリア

なお、「サマリア」を用いた特許文書の分類作業や特許情報解析については、以下の記事に詳しく解説しています。

この記事では、生成AI(大規模言語モデル)が特許情報解析において可能にしたことを、サマリアの各機能の解説を交えつつ紹介します。


可能としたことその1:観点(用途とか構成)ごとに用語切り出しができるようになった

従来、特許文書からの用語切り出しは様々な形態素解析器を用いることで行うことができました。複数の特許文書に対してKH Coderなどを用いてクラスタリングを行うことにより、重要な用語抽出も可能でした(以下の文献参照)。

しかし、切り出した用語に関して抽出できる情報はせいぜい「品詞(名詞とか動詞とか)」にすぎず、その用語がどのような技術的な概念・観点を指し示すのかは機械的に扱うことは困難でした。もう少し具体的に言うと、技術解析においては、「どの会社が、どの時期に、何を行っているか?」を知りたいところ、「何を行っているか?」を「観点単位」で解析することは人手によらず行うことはできませんでした
観点単位とは、「用途(用途Aは、α社、用途Bは、β社といった解析)」「構成・手段(方式Aは、α社、方式Bは、β社といった解析)」「機能(機能Aは、α社、機能Bは、β社といった解析)」のような解析になり、特許庁の技術動向調査報告を含め、特許情報解析においてはごく一般的に(従来は、人手により)行われてきた解析作業になります。

川上成年, テキストマイニングを使用した特許マップ作成手法の開発
https://jpaa-patent.info/patent/viewPdf/3246

上村侑太郎, テキストマイニングによる効率的な技術課題・解決手段の抽出手法の検討
https://www.jstage.jst.go.jp/article/jkg/72/1/72_29/_pdf/-char/ja

KH Coderによる抽出語の共起ネットワーク分析(川上成年より)

今回、ChatGPTに代表される実用的な生成AI(大規模言語モデル)が実現されることにより、特許文書から「観点」ごとに「用語」を切り出すことができるようになりました。例えば、サマリアの「分類作成機能」にあたります。例えば、以下のように、サマリアでは、特許文書ごとに「用途」や、「構成」「機能」などの「観点」ごとに用語を切り出すことができます。これは、従来の形態素解析器では絶対できなかったことといえます。

観点ごとに用語(分類ラベル)を切り出すことができる

今回、生成AIにより観点ごとの用語切り出しが機械的に行うことができるようになりました。これにより、従来の人手による作業による技術動向調査報告では、「課題」「解決手段」といった固定的な2次元での出願動向解析しかせいぜい行えなかった(軸を増やすことは工数的を飛躍的に増やすため、人手による作業では非常に困難であることは容易にわかると思います)が、生成AIを利用すると特許を、様々な観点(目的や用途などの軸、さらにそれらの複合的な組み合わせ)に沿って解析を行うことができるようになることが期待されます。

可能としたことその2:切り出した用語を大括り化することによる分類体系の構築

観点ごとに切り出した用語を大括り化(クラスタリング)することにより、分類体系も生成AIにより構築することができるようになりました。例えば、サマリアの「分類構築ツール」により用語から体系的な分類を機械的に構築することができます。なお、生成AIを用いた分類体系の構築については、以下の論文において詳しく説明されています。

この分類体系の構築も従来の形態素解析器や、KH Coderなどによる単なる定量解析では決して実現することができなかったものです。というのも、特許文書の用語を形態素解析したり、クラスタリングを行ったとしても「それぞれの用語の意義や類義語・同義語」といった情報は存在しないから、従来手法では「複数の用語」の「大括り化」といったことは絶対にできませんでした(つまり、従来手法では用語は単に、記号であり、それ以上の意味は持ち得なかったのに対して、大規模言語モデルでは用語自体に意味を持たせる点が大きな相違点といえます)

サマリアの分類構築ツールにより構築された分類体系(「用途」の観点)

今回、実用的な生成AI(大規模言語モデル)が開発されたことにより、人間がこれまで行ってきたような分類体系の構築も機械的に行うことができるようになってきたといえます。実際、サマリアの「分類構築ツール」の出力結果は、下手な知財担当者よりも優れた粒度の分類体系を出力可能としたと考えています。

可能としたことその3:教師データなしでの特許文書への自動分類付与

次に、生成AI(大規模言語モデル)を用いることにより、「教師データ」なしで特許文書に対する独自分類を付与できるようになった点があげられます。

従来、特許文書(を形態素解析器により適用した用語セット)に基づいて、特定の「分類」を教師データとして深層学習モデルを学習させることにより、未知の特許文書を分類する技術は知られていました。しかし、特許文書の分類にあたっては、未知の特許文書の母集団の1〜2割程度の教師データが必要と一般に考えられており、比較的大規模な検索集合では教師データの作成が非常に手間がかかる作業として知られていました。

今回、生成(AI)を用いることにより、構築した観点ごとの分類体系に沿って、教師データなしに特許文書を機械的に分類することができるようになりました。例えば、サマリアの「分類付与機能」によりこれを実現することができます。これにより、従来、難易度が高いと考えられてきた「観点に沿った特許情報解析」を、従来手法の数分の1〜数十分の1のコストで行うことができるようになってきたといえます。

特許情報解析の今後の展望

本記事では、実用的な生成AI(大規模言語モデル)の実現が、従来人手でなければ決して行うことができなかった「観点」に沿った特許情報解析を機械的に実現することができるようにしたことを説明しました。

特許情報解析において、生成AIの活用により大きな効率化・負荷低減が期待されます。一方、特許情報解析において一番重要なのは、解析結果からどのような情報を読み解くかという点です。

従来、特許情報解析においては、「用語切り出し」「タグ付け」などの作業的な部分に大きな作業時間を消費していました。一方、今後はそのような業務の多くは、生成AIにより代替されていくことが予想されます。

人間は、「解析結果を読み解く」といった業務や、どのような「観点」で情報を解析するとか、より本質的な業務に時間をかけるようになっていくでしょう。生成AIが、知財実務へどのような影響を与えるのかはまだまだ不透明な部分が多いです。弊社では引き続き、革新的な機能開発を進めてまいります。

この記事が気に入ったらサポートをしてみませんか?