要約課題・要約手段を自動抽出したい

下図は2024年2月に公開された、アップルインコーポレイテッド出願の特開2024-059748の公報フロントページの抜粋です。ほぼすべての公開特許では、図のように(57)【要約】段落の文章が【課題】や【解決手段】の「小段落」に分かれて記されています。

ところで下図はTHE調査力の「特許データ全件出力」メニューを選択した時の、出力フィールド選択画面です。

図のようにTHE調査力には「要約課題」・「要約手段」といったフィールドが標準で用意されています。名称から推測すると、おそらくこれらのフィールドは、【要約】内の【課題】や【解決手段】の文字列を保存するためのフィールドだと思われます。

THE調査力の背後には、Hypat-i2(発明通信社)・GPG/FX(日本特許情報機構)・CyberPatent Desk(サイバーパテント社)の商用特許データベース(検索システム)が配置され、各種の書誌情報やテキスト情報がTHE調査力の各フィールドに自動入力される仕掛けを備えています。

しかしHypat-i2の「特許データを自動取得」操作を行っても、GPG/FXの「Japio GPG/FX自動取得」メニューから「番号で取得」操作を行っても、CyberPatent Deskで検索結果の「THE調査力連携」操作を行っても、「要約課題」・「要約手段」フィールドには何のテキストも入りません。

どうも「要約課題」・「要約手段」フィールドは、ユーザが「能動的に」テキストを保存することを想定したフィールドのようです。

そこで、このフィールドに自動的にテキスト情報を入力するための仕掛けを考えてみました。とは言っても、公報テキストの「要約」フィールドに単なるベタ書き文が入っている場合にも、課題や手段に該当する内容を自動抽出するほどの優れた仕掛けではありません。「要約」フィールド内に「要約課題」・「要約手段」のことを想定させるような「小段落名」が付与されている場合に、小段落の内容を抽出する仕掛けです。

まずは次の文書から「THE調査力要約課題手段抽出ツール.xlsm」をダウンロードしておいてください。

続いてTHE調査力に日本特許の書誌情報を収録したタイトルを作りましょう。日本特許タイトルを作成する場合は、タイトルのメニューボタンをクリックし表示されたサブメニューから「特許データを自動取得」操作を行うのが最も簡単です。この操作により、THE調査力の裏に控えるHypat-i2から出願番号を入力した全案件の書誌情報が入力され、「要約」フィールドにも自動的にテキストが保存されます。

もちろんHypat-i2からの「特許データを自動取得」機能を使用せずに、普段お使いの検索システムからダウンロードした書誌・テキスト情報を「特許データの保存」を行っても構いません。「要約」フィールドに要約テキスト情報が入ってさえいれば、情報源は問いません。

続いて同じくタイトルのサブメニューから「特許データ全件出力」を選択し、図に記した6個のフィールドをExcelファイルに出力します。

THE調査力からExcelファイルのダウンロードが終了したら、「THE調査力要約課題手段抽出ツール.xlsm」をExcelで開いて、Ctrl+F8を入力して図のようにマクロ「要約課題_要約手段抽出」を「実行」してください。

マクロが起動されると、ファイルを選択するためのダイアログボックスが表示されます。このダイアログボックスを操作して、THE調査力から「特許データ全件出力」したXLSXファイルを選択してください。

ファイルが選択されると、「要約」フィールドのテキストから「要約課題」・「要約手段」のテキストが順次抽出されます。

ファイルの全レコードについて「要約課題」・「要約手段」フィールドの生成が終了すると、ダイアログボックスで選択したファイルと同じフォルダ内に、先頭に「課題手段抽出_」が付与されたファイル名で、文字列生成後のファイルが生成されます。

THE調査力のMENUボタンをクリックして「特許データの保存」を起動し、表示された画面から「要約課題」・「要約手段」が抽出されたファイルをインポートしてください。

この操作を実行すると、指定したタイトルの「要約」フィールドの文章から、「要約課題」・「要約手段」小段落がフィールドに抽出されます。

サブメニュー画面から、このタイトルを「用語自動抽出保存」しておくと、ハイライトソート画面内で、「要約課題」・「要約手段」フィールド内で使用されている専門用語を知ることができます。この情報を元に、各特許群が解決しようとしている課題や、解決手段を分類するための手助けになるかと思います。

単なる用語リストだけでなく、「要約課題」・「要約手段」フィールドで使用される用語をグラフィカルに表示させてみようと思ったのですが、ワードクラウド・ワードチャート表示では、この2個のフィールドは対象外のようでした。残念!!

ほとんどの公開特許案件では、(57)【要約】段落文章を分割する際には、【課題】や【解決手段】の小段落名が使用されていますが、中には色々な方言も存在するようです。旨く抽出できない等の不具合を見つけたら、その公報番号をページ下部の「クリエータへのお問合せ」から連絡してください。

2024/05/06 作成

この記事が気に入ったらサポートをしてみませんか?