見出し画像

Fターム「正解率と検索漏れ」の話

こんにちは!特許調査の仕事をしてます、酒井といいます。
今日は「Fタームには正解率が設定されている」「AND検索する数でおよそのヒット率、検索漏れ率が計算できるよ!」という話を書きます。

まず、質問BOXに頂いた、こちらのおたよりをご紹介しますね。

こんにちは。
(今年配信の)検索式と検索漏れのお話、関心があります。(2項目で81%ヒット, 19%検索漏れ...)オリジナルの文献を読んでみたいので、文献情報(図書、論文タイトル)のご教示をお願いします。どうぞよろしくお願いいたします。
#特に急ぎません。
#こちらでも情報検索の文献、探してみます。

おたよりありがとうございます!
「オリジナルの文献」
うーん。文献だと思って探すと、見つけにくいかもしれないです😅

ちなみに私はどうやって知ったか?というと・・・

一番最初は、人から聞きました。
たまぁに私のコラムに登場する「検索の師匠」からです。
日本特許庁がFタームシステムを作った時、作業に参加されていた
"生きている歴史書"みたいな方で・・・
その人から「Fタームの設計値」として習ったのが最初だったんですよ。

「人から聞いたのだったら、明確な数字の根拠は示せないのですよね?」
って話になりそうですが

実はあるんです。数字の根拠。
それは、文献に書いてあるのではなくて・・・

「特許庁の業務仕様書」に書かれてます。

FI記号/Fタームの付与は
特許庁業務として外注委託されるケースが大半なので「仕様書」がある。
Fタームの分類付与の質が揃っていないと、先行文献サーチに影響するので
仕様の中で「合格水準」が明記されている。
ということなんですね。

分類付与の仕様書

実際に、比較的近年の「Fターム付与の外注仕様書」を見てみましょう。

https://www.jpo.go.jp/news/chotatsu/kobo/document/20211202_shinsa_kagaku/shiyo.pdf

こちらは化学分野の分類付与業務(約5万件)の仕様書になります。

そして、要求品質(19ページ)を見ると
文献解析(=分類付与)の正解率が、80%ないし85%と示されています。

※「校閲者」と「校閲者ごと」の違いは何か?等の説明は、本コラムでは省略します。
詳しく確認されたい方は仕様書の本編でご確認ください。(謝)

分類(Fターム)と「正解率」

自分が以前、検索の師匠から聞いた話も上記の数字と概ね一致しています。
ちなみに自分の聞いた範囲では(かなり昔に聞いた話なんですが・・・)

・分類付与者となる際に試験がある
・合格の最低ラインが 正解率85% (上記「校閲者の正解率」と一緒)
・通常、解析業務(分類付与業務)を続けていると習熟度が上がり
 正解率もこれに伴って上昇していく
・MAXの正解率は、技術分野や担当者によるバラツキもあるが
 だいたい93~94%ではないか?と見ている。
 全体の平均値として 正解率=90%前後 を念頭においている。

という話でした。

そもそも「分類付与の正解率」って?

正解率で作業の合否を判定している、ということで
数字の定義もちゃんと「仕様書」にあります。
こちらです。

仕様書29ページ

箇条書きで書いてみると・・・

1)受注したい人が任意の公報にFタームを付与する
  =サンプルチェック前 (以下「サンプル」とします)
2)特許庁に1)を持ち込み、チェックを受ける
  =サンプルチェック後 (以下「正解」とします)
3)「サンプル」と「正解」とを比較
・サンプルと正解とが一致している = 一致数
・サンプルには付与なし/正解では付与 = モレ数
・サンプルには付与/正解には付与されない = ノイズ数

ということになります。
また、正解率の計算では「モレ」と「ノイズ」両方が加味されており(下記)

一致率(%) =一致数合計/(一致数合計+モレ数合計)×100
ノイズ率(%)=ノイズ数合計/(一致数合計+モレ数合計+ノイズ数合計)×100
正解率(%) =一致率-(ノイズ率×0.5)

・・・ということで、「正解率」には
「付与すべき項目がキチンと付与されているのは勿論、
 余分な分類付与がなされない、という点も評価に入っている」と言えます。

そして「正解率と検索漏れ」

上記の仕様書、また、作業者の習熟度などからみて
Fタームの「正解率」は 約90%前後に設計されている、と考えられます。

そして、Fm型のFタームでは

観点AA×BB×CC

のような絞り込みをするケースが多いですが
(というか、そのように使うと
 効率的に先行例を探せるように設計されています)

正解率=90%=0.9、と見ると
全公報内に「当たり公報」(調査内容に合致した公報)が100件あったとして

3つのFタームで絞り込むと

AA×BB×CC = 0.9 × 0.9 × 0.9 ≓ 0.72 

となるので
3つのタームをAND検索した場合、
 理論値では正解100件中、72件の公報が探せるよ!(3割弱は漏れるよ!)

という設計値になっている、という事になります。

ところで皆さん、
J-PlatPat等の「経過書類」で
「検索報告書」を細かく見た経験はありますか?

検索上の工夫いろいろ

こちらは「検索報告書」から論理式冒頭の抜粋です。
キーワードと組み合わせて検索している、比較的よく見かけるタイプです。

https://www.j-platpat.inpit.go.jp/c1800/PU/JP-2004-219996/4F7B5D04CE873EB937C098FCE146F145D7F82B5EB322140F2C0CF2F181265505/11/ja

冒頭 「(MA01+BA01)*(MA12+BA12)*(半透過・・・)」の部分が
0.9 × 0.9 × (半透過) の構造になってます。

これで良い先行例(≓新規性を否定しうる)が見つかればサーチ終了。
見つからなければ、Fタームを順次減らして

0.9 × (半透過)
(半透過)×(垂直配向)

という感じに、順次&少しずつ検索範囲をずらしていく。
それによって、効率良く調査を進めていく、というスタイルをとっている、
と考えられます。

上記の方法は、小集合を作り順次公報をチェックしていく、という手順から見ても、限られた時間内で先行技術を探したい場合に有効です。
(一挙にドカン!と500件とか集合を作ると、仮にその中に当たり公報があっても、当たり公報に出会うまでに時間を要する可能性があるので・・・)

--

また、先行技術調査以外、かつある程度持ち時間に余裕があるケースでは、
「そもそも、Fタームをたくさん掛け算をすると 一定確率で漏れ率が上昇する」
と分かっているので
「最初から掛け算の数を控えめにする」
というのも、良い作戦なのではないかと思います。


--

ライブ配信をほぼ毎週、火曜日の朝に行っています。
(録画も残してます)

ご質問は  質問BOXフォーム、または
Twitterの質問機能(Peing)からどうぞ。

https://www.youtube.com/channel/UCuH1A5B04ZoG04RWIc3w5zg  
https://peing.net/ja/s_misato?  
https://pro.form-mailer.jp/fms/ada69f1e192184  



この記事が気に入ったらサポートをしてみませんか?