Lens.org の API を使ってみる

Lens.org という特許と学術文献の検索サイトがあります。

どうやら DOCDB と WIPO のデータがベースとなっているらしく、日中韓の官庁に出願された特許は特許請求の範囲で検索できず、PCT出願を含めて全文検索ができません(収録状況は下表参照)。

収録状況(抜粋)

したがって、検索システムとしてはさほど有用とは言えません。
しかし役に立つケースがあります。このケースは検索数が多くなるため、自動化したいものです。そこで API が使えると助かるのです。

役に立つケース1:地道に統計を取る場合

特許に携わられる方は、特許は出願日(または優先日)から18か月で公開されると知っています。ところが、中国では事情が異なります。円グラフをご覧ください。

中国特許は4分の3以上が半年以内に公開される

2022年のデータですが、中国で公開された特許のうち実に4分の3以上が出願(または優先)日から半年以内に公開されています。
このデータを取るにはどのような検索式を立てるでしょうか。

中国に優先権の基礎出願がある場合、ある公開日において、(最も早い)優先日が公開日より前のある特定期間の範囲で、公報種別が A(公開公報)
 もしくは
中国に優先権の基礎出願がない場合、ある公開日において、出願日が公開日より前のある特定期間の範囲で、公報種別が A(公開公報)
である

検索概念

1年間の統計データを取るのに、公開日より前のある特定期間の範囲が
[0~1か月、3~6か月・・・48か月以上]の9種類、優先日での検索と出願日での検索の2種類、そして中国特許の公開日が年間約103回、の1854の検索を行っています。
これは自動化しなければなりません。

そして意外にも、特許データベースでは優先日 AND 出願日 の検索ができないケースがあります。
[優先日、出願日、公開日]からの選択が一般的なケースです。

Lens.org の API では、次の検索式を用いることができます。

query ='(priority_claim.jurisdiction:'+nat+ \
        ' AND earliest_priority_claim_date:['+pridate_st+' TO '+pridate_ed+']'+ \
        ' AND date_published:'+pubdate+ \
        ' AND kind:'+kind+ \
        ') OR (jurisdiction:'+nat+ \
        ' AND application_reference.date:['+pridate_st+' TO '+pridate_ed+']'+ \
        ' AND date_published:'+pubdate+ \
        ' AND kind:'+kind+ \
        ' NOT priority_claim.jurisdiction:'+nat+ \
        ')'

ここで nat は出願国(CN)、pridate_st と pridate_ed は優先日(または出願日)の範囲、pubdate は公開日、kind は出願種別(A)が入る変数です。

役に立つケース2:言語を超えて技術用語を取得する場合

中国特許調査を行う場合、ネックとなるのが中国語の技術用語の獲得です。
この時よく用いられるのが、辞書を用いることですが、どうしても語彙が少なくなります。
そこで中国特許調査でお勧めしているのは、日本語(または英語)で中国特許の検索ができる環境で、日本語(または英語)の技術用語で特許検索の範囲を検索します。そうすると中国語の発明の名称が得られるので、その中から中国語の技術用語を拾う作業です。

中国語の技術用語で「すべて検索」し、セルを着色

検索結果を Excel でダウンロードしたら、中国語の技術用語で「すべて検索」し、セルを着色します。そうすると、着色していないセルに未知の技術用語が隠れています。
これも大変な作業です。Lens.org は発明の名称(英語と中国語)で検索できるので、検索母集団から技術用語を拾っていく作業を半自動化できます。

Excel を使わずに、つぎのように not 検索で絞り込むこともできます。

step1 title:(日本語kw-1 or 日本語kw-2 or 日本語kw-3)
             not title:(中国語kw-1)
step2   title:(日本語kw-1 or 日本語kw-2 or 日本語kw-3)
             not title:(中国語kw-1 or 中国語kw-2)
step3    title:(日本語kw-1 or 日本語kw-2 or 日本語kw-3)
             not title(中国語kw-1 or 中国語kw-2 or 中国語kw-3)

検索概念です。実際のクエリではありません。

Lens.org で API を使うには

まず、特許 API &データのページで無料トライアルを申し込みましょう。数日すると API access enabled というタイトルのメールが来るので、 subscription のページから API キーを取得できます。

以下、python のコード例を掲載します。API キーは変数 access_token の中に収納して用います。

import requests
import urllib.parse
import json

url = r'https://api.lens.org/patent/search'
headers = {'accept': 'application/json', 
           'Content-Type': 'application/json',
           'Authorization': 'Bearer {}'.format(access_token)}

query = 'ここに検索式を書きます'

response = requests.post(url, headers=headers, json={'query':query})

あとは response.text(json 形式)からデータを取り出します。

おわりに

これまで、JPO、USPTO、EPO、KIPO、TIPO、Lens.org の特許APIを対象にデータの取得方法を解説しましたが、今回で終了です。
特許以外でも Chat GPT など、大規模言語モデルの API も特許実務で使われ始めています。
ご意見・質問は info@sasiapi.org までメールでお寄せください。

アジア特許情報研究会 西尾 潤