見出し画像

Google Patents の出力機能 (2023)

こちらの記事は 「Google Patentsのユニークな検索機能(2023)」の続きで、出力機能について書きます。

Google Patentsはこちらです   patents.google.com

Google Patentsの「出力」

この記事では「画面上の結果表示」と「ダウンロード機能」を扱います。
画面上の結果表示は、特に最近変わったわけではない(と思う)のですが、お読み頂くとちょっとした発見があるかもしれませんよ!

一覧表示

一見何の変哲もなさそうなGoogle Patentsの一覧表示ですが
みなさん!図面表示の切り替えは使ってますか?

初期表示の図面にカーソルを乗せると [ > ] 記号が現れて・・・

クリックすると全図のサムネイル表示に変わります。

図面を手がかりに公報を読む機会の多い方には
便利な機能ではないでしょうか?
サムネイルにカーソルを乗せると、拡大表示もしてくれますよ!

片付けたい(1図面表示に戻したい)時は、図面の最後についている
[ < ] 記号をクリックでどうぞ。

[化合物等] AIによるアノテーション(タグ付け)

上記の図面表示に似ている機能として、化合物の表示があります。
下記は検索機能(2023)の記事でも紹介している、化合物のSimilar検索後の状態です。検索している物質は「アセトアミノフェン」。消炎鎮痛剤として有名で、タイレノール等の商品名で市販されている成分です。

類似化合物検索なので、1件の公報に複数の類似化合物があった場合には
検出した構造式をサムネイルで並べてくれます。(通常の化合物検索の場合は1個だけ表示します)
サムネイルにカーソルを乗せると拡大されるのは、図面表示と同じです。
こちらの拡大表示を取りだしてみましょう。

① 物質のコード (InChIKey)
② この物質を対象に新規検索をする
③ この物質を現在の検索式に加える(And検索になります)
④ PubChemへのリンク(化合物データベース)
⑤ 機械的アノテーションによるものである旨の表示

■PubChem

「機械的アノテーション(from machine annotation)」は
「AIを使って化合物にタグ付けをしている」という意味です。

専門的に調査をする方にとっては
アノテーションの対象も気になるところではないでしょうか?
「本文中のテキストを対象としたアノテーションか?」「図面(構造式)は対象になっているか?」「マーカッシュ形式の記載はアノテーション対象か?」といった事です。

こちら、今回調べた範囲では詳細不明でした。(残念・・・)但し、検索の挙動を見る限りでは、全文テキストは確実にアノテーション対象となっているようです。

なお、Googleでは「Fluid Annotation」という機能が開発されていまして

5年前、2018年の時点で画像へのラベリングができていたそうなので、
構造式等もアノテーション対象になっているかも?ですね。(←推測です)

詳細表示と化合物の類似度

結果の詳細表示は、Google Patentsを使ったことある方、
ほぼ全員が見てる「おなじみ」の表示ですよね。

画面右側の書誌表示もおなじみですが・・・

書誌表示の下側、色々な外部リンク(External links)は
たまに、新しいリンク先が追加されると嬉しかったりします。
上記例だと、昨年リニューアルされた「USPTO PatentCenter」が
ちゃんとリンク先になっているんですよね!

化合物の類似度検索を使った時は
詳細表示の一番下まで見るのもおすすめです。

ページ下には、公報中に登場した化合物等が出現回数順に表示されます。
登場した化合物は「とにかく全部」表示されるので、検索条件に関係しないものは 表の色が「白」で、Query match=0.000なのですが・・・

検索条件に関連した化合物等にはスコアがつきます。

そして、化合物”等”の結果表示には、もうひとつ特有の機能があります。

フィルターテーブルと上位概念/下位概念

ここまで「化合物等」と、あえて曖昧な表現をしてきましたが
実際には化合物以外のいろいろな技術用語が AIによるアノテーション対象になっています。そして、詳細表示ページ下の「フィルターテーブル」で、用語の種類をフィルタリングする事もできます。

複数項目のフィルタもできます。
下記は「疾患/薬/ヒトの遺伝子」を選択した様子です。

また、リスト左側の見出し語を選択すると
上位概念(Broader)、下位概念(Narrower)の関連語まで出てきます。

ここまでの表示でも驚いている方、いらっしゃるかも?ですが
まだ驚くには早いです。
それは、ダウンロード機能の事なんですが・・・一度、結果一覧に戻りますね

ダウンロード機能と「Concepts」

結果一覧、右上の「ダウンロード」機能。
ダウンロードの種類はご存知でしたか?今は4種類あるんですよ!

以前からあったのは、一番上の「Download(CSV)」相当の機能ですが
この記事では 2番目の  with Concepts を取り上げたいと思います。
こちら、ダウンロードして開こうとすると・・・

この例では525件のヒットなのに

「Excelに対してデータセット(リスト)が大きすぎる」と
不可解な事😂を言い出します。

仕方なく[OK]して開くと、105万行弱(!)のリストが出てきます。
そして、勘の良いみなさんは既に気付かれていると思いますが・・・

これ、先ほどの「フィルターテーブル」に含まれる全データを
出力しているのです。

改めて表の先頭に戻ってみると、
出力項目は下記のようになっています。

項目名に和訳をつけると、こんな感じです。
InChIKeyとSMILESは、それぞれ化合物コードを指します。

わずか500件程度の公報で100万行を超える、というのが
ある意味欠点(?)で、
大量の公報を出力して分析するのは難しそうだな、と感じたのですが、

一方、これだけの技術用語が整理済み状態で出力される、というのも
他の特許庁データ等では見たことがないな、とびっくりしました。
(自分が知らないだけで、商用データには存在するかもしれませんが)

何か新しい使い方が見いだせそうでわくわくします!

そして、全体的に「化合物」関連の説明が多くなりましたが
最近の機能追加では、化合物やライフサイエンス系の強化が目立つのも事実で、Google Patentsとしても力を入れているのかもしれません。

EPOは長らくGoogle(Google Patents)と協力関係にある、ということで

Google Patents の機能強化、
今後、Espacenetの機能拡充にも何らかの影響があると嬉しいですね!

この記事が気に入ったらサポートをしてみませんか?