![見出し画像](https://assets.st-note.com/production/uploads/images/78250455/rectangle_large_type_2_44656c94893dd7ecb8e6379df9b172b2.png?width=1200)
Fターム「正解率と検索漏れ」の話
こんにちは!特許調査の仕事をしてます、酒井といいます。
今日は「Fタームには正解率が設定されている」「AND検索する数でおよそのヒット率、検索漏れ率が計算できるよ!」という話を書きます。
まず、質問BOXに頂いた、こちらのおたよりをご紹介しますね。
こんにちは。
(今年配信の)検索式と検索漏れのお話、関心があります。(2項目で81%ヒット, 19%検索漏れ...)オリジナルの文献を読んでみたいので、文献情報(図書、論文タイトル)のご教示をお願いします。どうぞよろしくお願いいたします。
#特に急ぎません。
#こちらでも情報検索の文献、探してみます。
おたよりありがとうございます!
「オリジナルの文献」
うーん。文献だと思って探すと、見つけにくいかもしれないです😅
ちなみに私はどうやって知ったか?というと・・・
一番最初は、人から聞きました。
たまぁに私のコラムに登場する「検索の師匠」からです。
日本特許庁がFタームシステムを作った時、作業に参加されていた
"生きている歴史書"みたいな方で・・・
その人から「Fタームの設計値」として習ったのが最初だったんですよ。
「人から聞いたのだったら、明確な数字の根拠は示せないのですよね?」
って話になりそうですが
実はあるんです。数字の根拠。
それは、文献に書いてあるのではなくて・・・
「特許庁の業務仕様書」に書かれてます。
![](https://assets.st-note.com/img/1652164374695-qDZn2X2K90.jpg?width=1200)
FI記号/Fタームの付与は
特許庁業務として外注委託されるケースが大半なので「仕様書」がある。
Fタームの分類付与の質が揃っていないと、先行文献サーチに影響するので
仕様の中で「合格水準」が明記されている。
ということなんですね。
分類付与の仕様書
実際に、比較的近年の「Fターム付与の外注仕様書」を見てみましょう。
https://www.jpo.go.jp/news/chotatsu/kobo/document/20211202_shinsa_kagaku/shiyo.pdf
こちらは化学分野の分類付与業務(約5万件)の仕様書になります。
![](https://assets.st-note.com/img/1652164603645-Jh13XBM0gy.png?width=1200)
そして、要求品質(19ページ)を見ると
文献解析(=分類付与)の正解率が、80%ないし85%と示されています。
![](https://assets.st-note.com/img/1652164758918-n713D3bEdH.png?width=1200)
詳しく確認されたい方は仕様書の本編でご確認ください。(謝)
分類(Fターム)と「正解率」
自分が以前、検索の師匠から聞いた話も上記の数字と概ね一致しています。
ちなみに自分の聞いた範囲では(かなり昔に聞いた話なんですが・・・)
・分類付与者となる際に試験がある
・合格の最低ラインが 正解率85% (上記「校閲者の正解率」と一緒)
・通常、解析業務(分類付与業務)を続けていると習熟度が上がり
正解率もこれに伴って上昇していく
・MAXの正解率は、技術分野や担当者によるバラツキもあるが
だいたい93~94%ではないか?と見ている。
全体の平均値として 正解率=90%前後 を念頭においている。
という話でした。
そもそも「分類付与の正解率」って?
正解率で作業の合否を判定している、ということで
数字の定義もちゃんと「仕様書」にあります。
こちらです。
![](https://assets.st-note.com/img/1652165462563-Wfd6qESHRw.png?width=1200)
箇条書きで書いてみると・・・
1)受注したい人が任意の公報にFタームを付与する
=サンプルチェック前 (以下「サンプル」とします)
2)特許庁に1)を持ち込み、チェックを受ける
=サンプルチェック後 (以下「正解」とします)
3)「サンプル」と「正解」とを比較
・サンプルと正解とが一致している = 一致数
・サンプルには付与なし/正解では付与 = モレ数
・サンプルには付与/正解には付与されない = ノイズ数
ということになります。
また、正解率の計算では「モレ」と「ノイズ」両方が加味されており(下記)
一致率(%) =一致数合計/(一致数合計+モレ数合計)×100
ノイズ率(%)=ノイズ数合計/(一致数合計+モレ数合計+ノイズ数合計)×100
正解率(%) =一致率-(ノイズ率×0.5)
・・・ということで、「正解率」には
「付与すべき項目がキチンと付与されているのは勿論、
余分な分類付与がなされない、という点も評価に入っている」と言えます。
そして「正解率と検索漏れ」
上記の仕様書、また、作業者の習熟度などからみて
Fタームの「正解率」は 約90%前後に設計されている、と考えられます。
そして、Fm型のFタームでは
観点AA×BB×CC
のような絞り込みをするケースが多いですが
(というか、そのように使うと
効率的に先行例を探せるように設計されています)
正解率=90%=0.9、と見ると
全公報内に「当たり公報」(調査内容に合致した公報)が100件あったとして
3つのFタームで絞り込むと
AA×BB×CC = 0.9 × 0.9 × 0.9 ≓ 0.72
となるので
「3つのタームをAND検索した場合、
理論値では正解100件中、72件の公報が探せるよ!(3割弱は漏れるよ!)」
という設計値になっている、という事になります。
ところで皆さん、
J-PlatPat等の「経過書類」で
「検索報告書」を細かく見た経験はありますか?
検索上の工夫いろいろ
こちらは「検索報告書」から論理式冒頭の抜粋です。
キーワードと組み合わせて検索している、比較的よく見かけるタイプです。
![](https://assets.st-note.com/img/1652167404061-z9csxRhLNH.png?width=1200)
冒頭 「(MA01+BA01)*(MA12+BA12)*(半透過・・・)」の部分が
0.9 × 0.9 × (半透過) の構造になってます。
これで良い先行例(≓新規性を否定しうる)が見つかればサーチ終了。
見つからなければ、Fタームを順次減らして
0.9 × (半透過)
(半透過)×(垂直配向)
という感じに、順次&少しずつ検索範囲をずらしていく。
それによって、効率良く調査を進めていく、というスタイルをとっている、
と考えられます。
上記の方法は、小集合を作り順次公報をチェックしていく、という手順から見ても、限られた時間内で先行技術を探したい場合に有効です。
(一挙にドカン!と500件とか集合を作ると、仮にその中に当たり公報があっても、当たり公報に出会うまでに時間を要する可能性があるので・・・)
--
また、先行技術調査以外、かつある程度持ち時間に余裕があるケースでは、
「そもそも、Fタームをたくさん掛け算をすると 一定確率で漏れ率が上昇する」
と分かっているので
「最初から掛け算の数を控えめにする」
というのも、良い作戦なのではないかと思います。
--
ライブ配信をほぼ毎週、火曜日の朝に行っています。
(録画も残してます)
ご質問は 質問BOXフォーム、または
Twitterの質問機能(Peing)からどうぞ。
https://www.youtube.com/channel/UCuH1A5B04ZoG04RWIc3w5zg
https://peing.net/ja/s_misato?
https://pro.form-mailer.jp/fms/ada69f1e192184
この記事が気に入ったらサポートをしてみませんか?