Google Patents の出力機能 (2023)
こちらの記事は 「Google Patentsのユニークな検索機能(2023)」の続きで、出力機能について書きます。
Google Patentsはこちらです patents.google.com
Google Patentsの「出力」
この記事では「画面上の結果表示」と「ダウンロード機能」を扱います。
画面上の結果表示は、特に最近変わったわけではない(と思う)のですが、お読み頂くとちょっとした発見があるかもしれませんよ!
一覧表示
一見何の変哲もなさそうなGoogle Patentsの一覧表示ですが
みなさん!図面表示の切り替えは使ってますか?
初期表示の図面にカーソルを乗せると [ > ] 記号が現れて・・・
クリックすると全図のサムネイル表示に変わります。
図面を手がかりに公報を読む機会の多い方には
便利な機能ではないでしょうか?
サムネイルにカーソルを乗せると、拡大表示もしてくれますよ!
片付けたい(1図面表示に戻したい)時は、図面の最後についている
[ < ] 記号をクリックでどうぞ。
[化合物等] AIによるアノテーション(タグ付け)
上記の図面表示に似ている機能として、化合物の表示があります。
下記は検索機能(2023)の記事でも紹介している、化合物のSimilar検索後の状態です。検索している物質は「アセトアミノフェン」。消炎鎮痛剤として有名で、タイレノール等の商品名で市販されている成分です。
類似化合物検索なので、1件の公報に複数の類似化合物があった場合には
検出した構造式をサムネイルで並べてくれます。(通常の化合物検索の場合は1個だけ表示します)
サムネイルにカーソルを乗せると拡大されるのは、図面表示と同じです。
こちらの拡大表示を取りだしてみましょう。
① 物質のコード (InChIKey)
② この物質を対象に新規検索をする
③ この物質を現在の検索式に加える(And検索になります)
④ PubChemへのリンク(化合物データベース)
⑤ 機械的アノテーションによるものである旨の表示
■PubChem
「機械的アノテーション(from machine annotation)」は
「AIを使って化合物にタグ付けをしている」という意味です。
専門的に調査をする方にとっては
アノテーションの対象も気になるところではないでしょうか?
「本文中のテキストを対象としたアノテーションか?」「図面(構造式)は対象になっているか?」「マーカッシュ形式の記載はアノテーション対象か?」といった事です。
こちら、今回調べた範囲では詳細不明でした。(残念・・・)但し、検索の挙動を見る限りでは、全文テキストは確実にアノテーション対象となっているようです。
なお、Googleでは「Fluid Annotation」という機能が開発されていまして
5年前、2018年の時点で画像へのラベリングができていたそうなので、
構造式等もアノテーション対象になっているかも?ですね。(←推測です)
詳細表示と化合物の類似度
結果の詳細表示は、Google Patentsを使ったことある方、
ほぼ全員が見てる「おなじみ」の表示ですよね。
画面右側の書誌表示もおなじみですが・・・
書誌表示の下側、色々な外部リンク(External links)は
たまに、新しいリンク先が追加されると嬉しかったりします。
上記例だと、昨年リニューアルされた「USPTO PatentCenter」が
ちゃんとリンク先になっているんですよね!
化合物の類似度検索を使った時は
詳細表示の一番下まで見るのもおすすめです。
ページ下には、公報中に登場した化合物等が出現回数順に表示されます。
登場した化合物は「とにかく全部」表示されるので、検索条件に関係しないものは 表の色が「白」で、Query match=0.000なのですが・・・
検索条件に関連した化合物等にはスコアがつきます。
そして、化合物”等”の結果表示には、もうひとつ特有の機能があります。
フィルターテーブルと上位概念/下位概念
ここまで「化合物等」と、あえて曖昧な表現をしてきましたが
実際には化合物以外のいろいろな技術用語が AIによるアノテーション対象になっています。そして、詳細表示ページ下の「フィルターテーブル」で、用語の種類をフィルタリングする事もできます。
複数項目のフィルタもできます。
下記は「疾患/薬/ヒトの遺伝子」を選択した様子です。
また、リスト左側の見出し語を選択すると
上位概念(Broader)、下位概念(Narrower)の関連語まで出てきます。
ここまでの表示でも驚いている方、いらっしゃるかも?ですが
まだ驚くには早いです。
それは、ダウンロード機能の事なんですが・・・一度、結果一覧に戻りますね
ダウンロード機能と「Concepts」
結果一覧、右上の「ダウンロード」機能。
ダウンロードの種類はご存知でしたか?今は4種類あるんですよ!
以前からあったのは、一番上の「Download(CSV)」相当の機能ですが
この記事では 2番目の with Concepts を取り上げたいと思います。
こちら、ダウンロードして開こうとすると・・・
この例では525件のヒットなのに
「Excelに対してデータセット(リスト)が大きすぎる」と
不可解な事😂を言い出します。
仕方なく[OK]して開くと、105万行弱(!)のリストが出てきます。
そして、勘の良いみなさんは既に気付かれていると思いますが・・・
これ、先ほどの「フィルターテーブル」に含まれる全データを
出力しているのです。
改めて表の先頭に戻ってみると、
出力項目は下記のようになっています。
項目名に和訳をつけると、こんな感じです。
InChIKeyとSMILESは、それぞれ化合物コードを指します。
わずか500件程度の公報で100万行を超える、というのが
ある意味欠点(?)で、
大量の公報を出力して分析するのは難しそうだな、と感じたのですが、
一方、これだけの技術用語が整理済み状態で出力される、というのも
他の特許庁データ等では見たことがないな、とびっくりしました。
(自分が知らないだけで、商用データには存在するかもしれませんが)
何か新しい使い方が見いだせそうでわくわくします!
そして、全体的に「化合物」関連の説明が多くなりましたが
最近の機能追加では、化合物やライフサイエンス系の強化が目立つのも事実で、Google Patentsとしても力を入れているのかもしれません。
EPOは長らくGoogle(Google Patents)と協力関係にある、ということで
Google Patents の機能強化、
今後、Espacenetの機能拡充にも何らかの影響があると嬉しいですね!
この記事が気に入ったらサポートをしてみませんか?