インド特許データベースMCPaIRSを使ってみました:キーワード検索編

前回は公開特許がレコードとして収録されているかどうかを調査した結果をご紹介しました。これは、言わば出願番号情報が収録されているかどうかだけを比較したものです。本来ならば、各書誌情報やIPCコード、さらにテキスト情報等々のコンテンツそれぞれが正しく収録されているかどうかを比較すべきところなのですが、MCPaIRSの試用期間は短期間であり、さらに収録された全案件をダウンロードしてコンテンツを解析することが許されていないため、詳細なコンテンツの収録率までは調査できていません。

今回はInPASSデータベースの検索上で大きな障害が見つかっている、「発明の名称」文字列の検索機能について3つのデータベースを比較してみました。

■   発明の名称:単語検索

□   InPASS

まずはInPASSでの検索結果を紹介します。出願番号201721018533~201837030897の5件の特許について、「発明の名称」で使用されたCOMPUTERの派生語を図のように検索してみました。

下各案件の発明の名称を表のTitle列に記し、COMPUTERの派生語を赤字で色付けしました。この5件を、表の第1行第3~9列に記した用語を検索した時に、ヒットする案件を〇、ヒットしない案件を×と、検索用語と出願番号の交点に記してあります。

COMPUTER列~COMPUTATIONAL列の結果をご覧ください。InPASSでは単語単位の完全一致検索が実行されているようです。完全一致検索であるため、201747016903をCOMPUTERで検索してもヒットさせることができません。単数形も複数形も共にヒットさせたいと思って、ワイルドカードを使用してCOMPUTER*を検索してみたのですが、ヒットしたのは201721018533だけです。

COMPUTER関連の派生語を漏れなく網にかけようと考えて、COMPUTを検索してみました。しかし表に記したように、どの案件もヒットしてくれません。InPASSのHELP画面ではワイルドカードが使用できると書いてあるのですが、実際には文字の存在が無視されているようです。

これでは思いつく限りの派生語をひとつずつ漏れなく検索しないと、COMPUTER関連の案件を抽出できないということになります。InPASSでキーワード検索の網羅性を求めるには無理がありそうです。

□   PATENTSCOPE

PATENTSCOPEの検索に移ります。PATENTSCOPEでも同じ5件について、それぞれのキーワードを検索してみました。Field Combination 画面での検索方法は下図のとおりです。

PATENTSCOPEの英文文字列検索では、ステミング機能のON/OFFを設定できます。ステミングとは、語形が変化する単語の語幹だけでマッチングを行う機能です。まずはステミングOFF時の検索結果です。

ワイルドカードを使用しないときに単語単位の完全一致検索を行うのはInPASSと同様です。ただPATENTSCOPEではワイルドカードが正しく機能していることが表でおわかりかと思います。COMPUT*を検索するとCOMPUTER関連の用語が一網打尽です。このように動いてくれないと網羅性のあるキーワード検索はできません。

続いてステミングON設定時の検索結果です。

ワイルドカードを使わない場合には、COMPUTER・COMPUTERS・COMPUTING・COMPUTATIONALの検索が全て同じ結果が得られました。これは、この4個の単語がいずれもステミング用辞書に登録され、どの単語を選んでも同じ結果になるように仕掛けられているからです。COMPUTERIZEDは、このステミング辞書から外れているようです。ステミング設定をONにしても、この単語は検索されません。

ステミングかつワイルドカードとなると、何を検索して良いのか意味不明になるためか、ワイルドカードを使用すると強制的にステミングOFF設定に戻されて検索が行われるようです。

このようにステミング機能も完璧ではありません。全ての派生語を、もれなく網にかけたい場合はワイルドカードの使用を推奨します。

□   MCPaIRS

最後にMCPaIRSです。MCPaIRSでも同じ5件について、それぞれのキーワードを図のように検索してみました。

検索結果を表に記します。

MCPaIRSもワイルドカードを使用しない場合には単語単位の完全一致検索です。ワイルドカードも正しく動いています。

MCPaIRSを短期間試用させていただいているため十分な検証ができていませんが、発明の名称だけでなく、要約・請求の範囲・詳細な説明等の文字列検索も、同様だと思われます。

■  発明の名称(TITLE):フレーズ検索


□  InPASS

ここからはひとつの単語ではなく、複数の単語で構成されるフレーズの検索について紹介します。InPASSで出願番号201721018533の案件の発明の名称フィールドを検索してみました。


InPASSの検索結果をご紹介します。

このようにInPASSにはフレーズを検索する機能が用意されていません。上表は「発明の名称:Title」フィールドを検索した結果ですが、AbstractやComplete Specification等のテキスト系フィールドも同じアルゴリズムで動作しているようです。

さらにApplicant Nameもフレーズ検索ができません。たとえば、NIPPON STEEL(日本製鉄)を検索すると、NIPPONとSTEELのOR検索になってしまうため、NIPPON TELEGRAPH AND TELEPHONE(日本電信電話)出願の202347003633もヒットしてしまいます。これでは査読すべき案件を適格に検索することが困難と言わざるを得ません。

□   PATENTSCOPE

続いて同じ案件の発明の名称フィールドを、PATENTSCOPEで検索してみました。InPASSの場合は2個の単語を列記するとOR検索されたのですが、PATENTSCOPEではAND検索が実行されるようです。また2個の単語をダブルコーテーションで挟むと、フレーズとして検索されます。

□   MCPaIRS

2個の単語を列記した場合の動作は、MCPaIRSはInPASSと同様にOR検索になるようです。またMCPaIRSでも2個の単語をダブルコーテーションで挟むと、フレーズ検索を行うことが可能です。

■   発明の名称(TITLE):フィールド内論理演算

□   InPASS

COMPUTERとPROGRAMの単語を含む案件を色々な形式で検索した結果を表にまとめました。この中にはCOMPUTERとPROGRAMのAND・ORといった論理演算検索も含まれています。InPASSでは別の行を使用して、それぞれCOMPUTERとPROGRAMを検索し、2個の検索結果集合を論理演算することでも論理演算検索が可能ですが、この表でご紹介するのは図のように1行の検索項目内で論理演算したものです。

実際のレコード数を推定すると次のベン図の件数になっているようです。

HELP画面によると同一の行内でANDやOR演算子を使えることになっているのですが、実際には前表のような状態で正しく動作しません。

検索ターム入力画面上で2行を使用して、それぞれCOMPUTERとPROGRAMを検索させ、この2個の検索結果集合をAND・OR・NOT演算させたときにはベン図どおりの結果が得られました。同一行内で、すなわちひとつのフィールド内での論理演算は過信しない方が無難なようです。

□   PATENTSCOPE

PATENTSCOPEでもInPASSと同じ条件で検索してみた結果を紹介します。PATENTSCOPEではAdvanced Search画面を使用すると、複数の検索結果集合を論理演算することができます。しかし、ここでご紹介するのは、図のようにひとつの検索フィールドの中で複数の単語を検索させた結果です。

検索結果は次のようになりました。全てベン図どおりの検索結果数が得られました。

□ MCPaIRS

最後にMCPaIRSです。下図のようにひとつの「TL:」に対して複数の単語を列記、あるいは論理演算子で結合したクエリーで検索動作を検証してみました。MCPaIRSでは、単語列記・AND演算・OR演算・NOT演算ともにベン図とはかけ離れた件数数字が表示されました。

MCPaIRSではひとつの検索フィールド内での演算はサポートされていないようです。しかし下図のように、それぞれの単語の検索を行い、それぞれの検索結果集合を論理演算させる方法では、ベン図どおりの検索結果数字が得られました。複数の単語の論理演算検索を行う際には、こちらの方法を使用してください。

■□■□■□■□■□■□■□■□■□

以上、3種のデータベースのキーワード検索についてご紹介しました。ワイルドカードも使用できず、フレーズ検索もできないInPASSでは網羅性の高いキーワード検索は期待できません。

無償データベースで調査したい場合にはPATENTSCOPEの使用を推奨します。

有償データベースのMCPaIRSでもキーワード検索が問題なく行えることを確認済みです。ただ試用期間内で、発明の名称以外のテキストフィールドについて同様の動作確認を行うことはできませんでした。おそらく問題ないとは思いますが、検索にあたってはご自分での動作確認をお願いします。

次回はIPC検索について触れたいと思います。

アジア特許情報研究会/アイ・ピー・ファイン 中西 昌弘