Ｆターム「正解率と検索漏れ」の話

2022年5月10日 16:35

こんにちは！特許調査の仕事をしてます、酒井といいます。
今日は「Ｆタームには正解率が設定されている」「ＡＮＤ検索する数でおよそのヒット率、検索漏れ率が計算できるよ！」という話を書きます。

まず、質問ＢＯＸに頂いた、こちらのおたよりをご紹介しますね。

こんにちは。
（今年配信の）検索式と検索漏れのお話、関心があります。（2項目で81%ヒット, 19%検索漏れ...）オリジナルの文献を読んでみたいので、文献情報（図書、論文タイトル）のご教示をお願いします。どうぞよろしくお願いいたします。
#特に急ぎません。
#こちらでも情報検索の文献、探してみます。

おたよりありがとうございます！
「オリジナルの文献」
うーん。文献だと思って探すと、見つけにくいかもしれないです😅

ちなみに私はどうやって知ったか？というと･･･

一番最初は、人から聞きました。
たまぁに私のコラムに登場する「検索の師匠」からです。
日本特許庁がＦタームシステムを作った時、作業に参加されていた
"生きている歴史書"みたいな方で･･･
その人から「Ｆタームの設計値」として習ったのが最初だったんですよ。

「人から聞いたのだったら、明確な数字の根拠は示せないのですよね？」
って話になりそうですが

実はあるんです。数字の根拠。
それは、文献に書いてあるのではなくて･･･

「特許庁の業務仕様書」に書かれてます。

ＦＩ記号／Ｆタームの付与は
特許庁業務として外注委託されるケースが大半なので「仕様書」がある。
Ｆタームの分類付与の質が揃っていないと、先行文献サーチに影響するので
仕様の中で「合格水準」が明記されている。
ということなんですね。

分類付与の仕様書

実際に、比較的近年の「Ｆターム付与の外注仕様書」を見てみましょう。

https://www.jpo.go.jp/news/chotatsu/kobo/document/20211202_shinsa_kagaku/shiyo.pdf

こちらは化学分野の分類付与業務（約５万件）の仕様書になります。

そして、要求品質（19ページ）を見ると
文献解析（＝分類付与）の正解率が、80%ないし85％と示されています。

※「校閲者」と「校閲者ごと」の違いは何か？等の説明は、本コラムでは省略します。
詳しく確認されたい方は仕様書の本編でご確認ください。（謝)

分類（Ｆターム）と「正解率」

自分が以前、検索の師匠から聞いた話も上記の数字と概ね一致しています。
ちなみに自分の聞いた範囲では（かなり昔に聞いた話なんですが･･･）

・分類付与者となる際に試験がある
・合格の最低ラインが正解率85％　（上記「校閲者の正解率」と一緒）
・通常、解析業務（分類付与業務）を続けていると習熟度が上がり
　正解率もこれに伴って上昇していく
・MAXの正解率は、技術分野や担当者によるバラツキもあるが
　だいたい93～94％ではないか？と見ている。
　全体の平均値として　正解率＝90%前後　を念頭においている。

という話でした。

そもそも「分類付与の正解率」って？

正解率で作業の合否を判定している、ということで
数字の定義もちゃんと「仕様書」にあります。
こちらです。

箇条書きで書いてみると･･･

1）受注したい人が任意の公報にＦタームを付与する
　　＝サンプルチェック前　（以下「サンプル」とします）
2）特許庁に1）を持ち込み、チェックを受ける
　　＝サンプルチェック後　（以下「正解」とします）
3）「サンプル」と「正解」とを比較
・サンプルと正解とが一致している　＝　一致数
・サンプルには付与なし／正解では付与　＝　モレ数
・サンプルには付与／正解には付与されない　＝　ノイズ数

ということになります。
また、正解率の計算では「モレ」と「ノイズ」両方が加味されており（下記）

一致率(%) ＝一致数合計／(一致数合計＋モレ数合計)×１００
ノイズ率(%)＝ノイズ数合計／(一致数合計＋モレ数合計＋ノイズ数合計)×１００
正解率(%) ＝一致率－(ノイズ率×０．５)

･･･ということで、「正解率」には
「付与すべき項目がキチンと付与されているのは勿論、
　余分な分類付与がなされない、という点も評価に入っている」と言えます。

そして「正解率と検索漏れ」

上記の仕様書、また、作業者の習熟度などからみて
Ｆタームの「正解率」は約90％前後に設計されている、と考えられます。

そして、Ｆｍ型のＦタームでは

観点ＡＡ×ＢＢ×ＣＣ

のような絞り込みをするケースが多いですが
（というか、そのように使うと
　効率的に先行例を探せるように設計されています）

正解率＝90％＝0.9、と見ると
全公報内に「当たり公報」（調査内容に合致した公報）が100件あったとして

３つのＦタームで絞り込むと

ＡＡ×ＢＢ×ＣＣ　=　0.9 × 0.9 × 0.9　≓　0.72　

となるので
「３つのタームをAND検索した場合、
　理論値では正解100件中、72件の公報が探せるよ！（3割弱は漏れるよ！）」
という設計値になっている、という事になります。

ところで皆さん、
J-PlatPat等の「経過書類」で
「検索報告書」を細かく見た経験はありますか？

検索上の工夫いろいろ

こちらは「検索報告書」から論理式冒頭の抜粋です。
キーワードと組み合わせて検索している、比較的よく見かけるタイプです。

https://www.j-platpat.inpit.go.jp/c1800/PU/JP-2004-219996/4F7B5D04CE873EB937C098FCE146F145D7F82B5EB322140F2C0CF2F181265505/11/ja

冒頭　「(MA01+BA01)*(MA12+BA12)*（半透過･･･）」の部分が
0.9 × 0.9 × （半透過）　の構造になってます。

これで良い先行例（≓新規性を否定しうる）が見つかればサーチ終了。
見つからなければ、Fタームを順次減らして

0.9 × （半透過）
（半透過）×（垂直配向）

という感じに、順次＆少しずつ検索範囲をずらしていく。
それによって、効率良く調査を進めていく、というスタイルをとっている、
と考えられます。

上記の方法は、小集合を作り順次公報をチェックしていく、という手順から見ても、限られた時間内で先行技術を探したい場合に有効です。
（一挙にドカン！と500件とか集合を作ると、仮にその中に当たり公報があっても、当たり公報に出会うまでに時間を要する可能性があるので･･･）

また、先行技術調査以外、かつある程度持ち時間に余裕があるケースでは、
「そもそも、Fタームをたくさん掛け算をすると一定確率で漏れ率が上昇する」
と分かっているので
「最初から掛け算の数を控えめにする」
というのも、良い作戦なのではないかと思います。

ライブ配信をほぼ毎週、火曜日の朝に行っています。
（録画も残してます）

ご質問は質問BOXフォーム、または
Twitterの質問機能（Peing）からどうぞ。

https://www.youtube.com/channel/UCuH1A5B04ZoG04RWIc3w5zg　　
https://peing.net/ja/s_misato?　　
https://pro.form-mailer.jp/fms/ada69f1e192184　　

この記事が気に入ったらサポートをしてみませんか？