見出し画像

特許ベクトルデータベースで検索してみる



はじめに


文章のベクトル化は文書検索に多用されているそうですので、今回は特許検索の真似事をしたいと思います。

前回、要約をベクトル化しましたので、これを使用して、特定の出願の要約に類似する出願をChatGPTを使用して検索してみます。

使用するベクトル化データは以下です。このデータをChatGPTにアップロードして、プロンプトにより、検索させてみたいと思います。


ChatGPTを使用した検索

まずは、適当に選んだ、特開2024-039759に類似する特許を検索したいと思います。

プロンプト

・Abstract_vecには、Abstractをembeddingsでベクトル化した数値が格納されています。
・このAbstract_vecを使用して類似する特許を検索したいです。
・Document Number 特開2024-039759に類似する特許出願を類似度の上位5件検索してください。

ChatGPTの出力


以下は、特許番号「特開2024-039759」に類似する特許出願の上位5件です。

この結果を基に、類似する特許の詳細を確認することができます。 ​

コメント

一番上は、特開2024-039759ですので、類似度は当然1となっております。以下4件が類似する特許となりますがほぼ0.9以上ですので類似した発明が多そうです。

試しにもう1件やってみます。

プロンプト

Document Number 特開2020-137470に類似する特許出願を類似度の上位5件検索してください。

ChatGPTの出力

以下は、特許番号「特開2020-137470」に類似する特許出願の上位5件です。

この結果を基に、類似する特許の詳細を確認することができます。 ​

コメント


類似度"1"が2件ありますが、特開2023-126640は特開2020-137470の分割出願でした。

プロンプト


特許の詳細情報を提供してください。

ChatGPTの出力


以下は、特許番号「特開2020-137470」に類似する特許の詳細情報です。

  1. 特許番号: 特開2023-126640

    • 出願番号: 特願2023-118740

    • 出願日: 2023-07-21

    • 発明の名称: ビールテイスト飲料

    • FI: C12C5/02,A23L2/00@T,C12G3/04,A23L2/52,A23L2/38...

    • 出願人: Suntory Beer

    • 課題: 本発明の課題は、雑味が少ないビールテイスト飲料を提供することである。

    • 解決手段: プリン体を含むビールテイスト飲料であって、プリン体中に占めるヌクレオシドの割合が50質量%以上であることを特徴とする。

  2. 特許番号: 特開2020-137470

    • 出願番号: 特願2019-036314

    • 出願日: 2019-02-28

    • 発明の名称: ビールテイスト飲料

    • FI: C12G3/04

    • 出願人: Suntory Beer

    • 課題: 本発明の課題は、雑味が少ないビールテイスト飲料を提供することである。

    • 解決手段: プリン体を含むビールテイスト飲料であって、プリン体中に占めるヌクレオシドの割合が50質量%以上であることを特徴とする。

  3. 特許番号: 特開2024-040620

    • 出願番号: 特願2022-145080

    • 出願日: 2022-09-13

    • 発明の名称: ビールテイスト飲料

    • FI: C12C12/00,A23L2/00@B,A23L2/00@F,A23L2/52,C12C1...

    • 出願人: Sapporo Beer

    • 課題: 本発明は、麦芽比率が高く、かつプリン体含有量が低いビールテイスト飲料においても、蒸留酒様の香味が得られる飲料を提供する。

    • 解決手段: 麦芽比率が50質量%以上であり、プリン体含有量が2.7mg/100mL未満であり、全窒素含有量が0.7mg/100mL以上であることを特徴とする。

  4. 特許番号: 特開2024-039759

    • 出願番号: 特願2022-144357

    • 出願日: 2022-09-12

    • 発明の名称: ビールテイスト飲料

    • FI: C12C12/00,A23L2/00@B,A23L2/00@F,A23L2/52,C12C1...

    • 出願人: Sapporo Beer

    • 課題: 本発明は、麦芽比率が高く、かつプリン体含有量が低いビールテイスト飲料においても、清酒様の香味が得られる飲料を提供する。

    • 解決手段: 麦芽比率が50質量%以上であり、プリン体含有量が2.7mg/100mL未満であり、総ポリフェノール含有量が100mg/L以上であることを特徴とする。

  5. 特許番号: 特開2021-141837

    • 出願番号: 特願2020-042201

    • 出願日: 2020-03-11

    • 発明の名称: ビールテイスト飲料およびその製造方法

    • FI: C12C7/00@B,C12H1/02,C12C11/11,C12C12/00,C12C7/...

    • 出願人: Suntory Beer

    • 課題: 本発明は、プリン体を効率的に低減できるビールテイスト飲料の製造方法、及び当該製造方法によりプリン体が低減されたビールテイスト飲料を提供する。

    • 解決手段: ヌクレオシダーゼ処理を行う酵素処理工程を有するビールテイスト飲料の製造方法であって、前記酵素処理工程においてプリン体を分解し、プリン体含有量を低減することを特徴とする。 ​

コメント


Pythonのみではこのような処理は難しいと思いますので、ChatGPTと組み合わせることより、使い道も広がります。

次に類似の妥当性について検証してもらいました。

プロンプト

類似度の妥当性を検討してください。

ChatGPTの出力


類似度の妥当性を検討するためには、以下の要素を考慮する必要があります。

1. コサイン類似度の妥当性

コサイン類似度は、ベクトルの方向性を基に類似度を測定するため、特許要約の意味的な類似度を捉えるのに有効です。しかし、特許の内容が非常に専門的で技術的な場合、コサイン類似度だけでは完全に妥当な類似性を評価できない場合があります。

2. 特許要約の内容

以下に、類似度の高い特許の要約を比較し、その内容の類似性を検討します。

特開2020-137470

  • 課題: 雑味が少ないビールテイスト飲料を提供する。

  • 解決手段: プリン体中に占めるヌクレオシドの割合が50質量%以上のビールテイスト飲料を提供。

特開2023-126640

  • 課題: 雑味が少ないビールテイスト飲料を提供する。

  • 解決手段: プリン体中に占めるヌクレオシドの割合が50質量%以上のビールテイスト飲料を提供。

特開2024-040620

  • 課題: 麦芽比率が高く、かつプリン体含有量が低いビールテイスト飲料においても、蒸留酒様の香味が得られる飲料を提供。

  • 解決手段: 麦芽比率が50質量%以上であり、プリン体含有量が2.7mg/100mL未満であり、全窒素含有量が0.7mg/100mL以上。

特開2024-039759

  • 課題: 麦芽比率が高く、かつプリン体含有量が低いビールテイスト飲料においても、清酒様の香味が得られる飲料を提供。

  • 解決手段: 麦芽比率が50質量%以上であり、プリン体含有量が2.7mg/100mL未満であり、総ポリフェノール含有量が100mg/L以上。

特開2021-141837

  • 課題: プリン体を効率的に低減できるビールテイスト飲料の製造方法、及び当該製造方法によりプリン体が低減されたビールテイスト飲料を提供。

  • 解決手段: ヌクレオシダーゼ処理を行う酵素処理工程を有するビールテイスト飲料の製造方法であって、プリン体含有量を低減する。

3. 要約の内容と類似度の関係

特開2020-137470と特開2023-126640は、課題と解決手段がほぼ同じであり、非常に高い類似度が見られます。一方、特開2024-040620と特開2024-039759も、麦芽比率とプリン体含有量に関する類似の課題と解決手段を持っており、これも類似度が高いことが妥当です。特開2021-141837も、プリン体に関連する技術であるため、ある程度の類似性があります。

結論

類似度の評価は、特許要約の内容に基づいており、コサイン類似度の結果は妥当であると言えます。ただし、特許の詳細な技術内容や、他の要素(例えば、特許の図面や詳細な説明)も考慮することで、より精度の高い類似度評価が可能となるでしょう。

コメント


コサイン類似度を信頼しすぎるのはよくないとのことです。やはり、面倒がらずに、最後は文章を読まないといけないようです。

最後に適当に視覚化してもらいます。

プロンプト


特許番号「特開2020-137470」と他の全件とのコサイン類似度を計算し、ヒストグラムで出力してください。

ChatGPTの出力


特許番号「特開2020-137470」と他の全件とのコサイン類似度のヒストグラムを出力しました。このヒストグラムにより、類似度の分布を視覚的に確認することができます。

類似度の多くが0.7未満であることがわかりますが、一部の特許はそれ以上の類似度を持っています。これは「特開2020-137470」と非常に類似した特許が少数存在することを示しています。

まとめ


特許情報をベクトル化することにより、こじんまりとした検索システムを作れました。

コサイン類似度を使用することにより、出願のスクリーニングにも使用できそうです。

この場合、データの分析や解釈をChatGPTに任せることにより、単なる数値に留まらない分析ができる可能性があります。

また、embeddingsはコストが安く、計算速度も速いので、大量のデータも無理なく処理できます。

このように便利なembeddingsですが、今のところ気楽に使えるアプリは無いようですので、使用するには、当面自分でプログラミングするしかなさそうです。OpenAIがアプリを出してくれればよいのですけれど。

この記事が気に入ったらサポートをしてみませんか?