見出し画像

調査の網羅性と自然言語と「自分の脳の外側」

今日は「特許調査の網羅性を上げる方法論」について書きます。

もくじ
1)網羅性とは?
2)  日本語表現と同義語・類義語・異表記
3)データベースの特徴と検索キーワード攻略法
4)特許調査の網羅性を上げる方法論

1)網羅性とは?

情報検索するときの考え方として、
「広く もれ無く網羅的にヒットさせる」点 ≓ 再現率 を重視するか
それとも
「適切な情報のみをヒットさせる」点 ≓ 適合率 を重視するのか
という、2つの方向性、戦略があります。
(適合率・再現率は「三月うさぎのティールーム」内や「検索結果の適合率と再現率」などに解説があります。)

一般的に「網羅的に・漏れなく調査したい」という場合は、「再現率を重視した検索戦略」をとることになります。

2)日本語表現と同義語・類義語・異表記

網羅性の話をする前に「フライドポテト」の事を思い浮かべてください。

次に・・・フライドポテトの「原料」となる芋、あれ、何て言いましたっけ?
はい!ここでストップ!

じゃがいも、ジャガイモ
ばれいしょ、馬鈴薯
男爵芋、ポテト、メークイン ・・・・・・

「じゃがいも」を表す書き言葉、たくさんありますよね!
「じゃがいも」と「ジャガイモ」のように、耳で聞くと同じだが、文字列が異なるのは「異表記」。「じゃがいも」と「ばれいしょ」のように、(ほぼ)同じ物を指し示すが表現が異なるのは「同義語(類義語)」です。

特許に限らず、調査の網羅性を上げるポイントのひとつは「同義語・類義語・異表記」の攻略だったりします。検索キーワード攻略法、です。

3)データベースの特徴と検索キーワード攻略法

現在、世の中にあるデータベースで、最も知名度が高いのは「Google」ではないでしょうか。この記事でも「Google」と「(古典的な)特許データベース」を比較して、攻略法を説明します。

Googleの場合

検索技術者(サーチャー)の目から見たGoogleは「検索エンジン+強力な辞書」という感じに見えます。検索エンジンが速くてパワフルなのも間違いないけど、それ以上に辞書がすごい!です。

「ひらがなで検索して、カタカナがヒットする」というのは、当たり前のように使っていますが、実はすごいこと。内部的に「じゃがいも」「ジャガイモ」が紐付けられているんですよね。(=辞書化)
個人的に、Googleの凄さと強さは「辞書を自動生成している事」だと思います。

(一般的な)特許データベースの場合

Googleと違って、一般的な特許データベースには辞書がなかったり、辞書を搭載していても「辞書をON」のような手動設定を要するもの、が多いです。「辞書なし状態」で「じゃがいも」を検索してみました。

「辞書なし状態」では、検索者がキーボードから入力できた単語しかヒットしません。これ、鉄則です。「網羅性を上げる」と言ったら、同義語・異表記のバリエーションを可能な限りすべて入力する。これは、辞書が使えないデータベースにおける キーワード攻略法の基本形です。

4)特許調査の網羅性を上げる方法論

特許出願をする(特許明細書を作成する)際、使用する技術用語には特に制限がありません。「当業者(≓同業者)が容易に理解でき、実施も可能なレベル」で技術を説明していればよい、とされています。そのため、特許に出てくる表現にはとても多様性があります。言い換えると、特許の表現はとても自然言語です。(これに対して、表現をある程度統一しているのは「統制語」と言うことがあります。近年はあまり聞かなくなった気がするけど。)

先ほどの「じゃがいも」の例に、ジャガイモの学名「 Solanum tuberosum」を加えてみますと、少数ながら(41件)特許がヒットします。また、既に見つかっている特許(式#12)を除去(NOT演算)してみると、「学名で検索しないと見つからない公報」が、現時点で29件ある、という事もわかります。

私は上記例の学名を「自分の脳の外側(にある表現)」と呼んでいます。学名って、農業の研究者ならば頭に入っている方も多そうですが、一般の技術者や私達サーチャーで「ジャガイモ= Solanum tuberosum」って即座に思い出せる人は限られると思います。

また、検索に限っていえば「一応聞けばわかる」とか「そういえば知ってた!でも忘れてた」ではダメで 「検索時に、実際にキーボード入力」ができる語でないと、網羅性向上には寄与しないことになります。

その点では「無限に単語・技術用語を覚えないと、網羅性は上がらないの・・・?」と思ってしまいそうですが、実際はそうでもなくて、同義語・類義語・異表記を調べる方法を知っている+面倒がらずに調べる、が大切なんですよね。

書けていないリスト
 同義語・類義語・異表記を確認する方法(特許の世界で)
 単語の共起関係と言語差とGoogleの画像検索、について思ったこと。


この記事が気に入ったらサポートをしてみませんか?