見出し画像

文章の類似度を考える


1.はじめに

特許の仕事をしていると、明細書に書いてある技術の新規性が気になることがあります。

従来の技術との内容の類似度がわかれば、新規性の判断の参考になりそうです。

とはいえ、文章の類似度を簡単に判断する手法がありませんので、人間が読んで判断するしかありませんでした。

しかし、ChatGPTはそのようなプロンプトを与えると判断してくれるようですので、試してみました。

プロンプトの内容は、
・類似度を判断する文章を入力する
・比較対象の文章(今回は5つ)を入力する
・類似度の判定と、その理由を出力する指示を与える
のみです。それでは試してみましょう。

なお、類似度を判断する文章と比較対象の文章(5つ)は以下の通りです。

・類似度を判断する文章

・比較対象の文章(5つ)

2.ChatGPT4oによる処理

・プロンプト

・ChatGPT 4oの出力

上記のごとく、類似度とその説明が出力されました。

なお、再生成すると類似度の値は変化しますので、何回か生成して類似度の傾向を把握するのがよいと思います。

ChatGPTの良いところは、類似度の数値のみならず、その説明も出力されることです。これにより、類似度の妥当性を人間の方でも判断できます。

このように、文章の類似度は今では簡単に導くことができるのですが、以前は、ベクトル化により判断されてました。

こちらも、従来に比べれば、やりやすくなったようですので、試してみます。

ここから先は

1,233字 / 2画像

¥ 300

この記事が気に入ったらサポートをしてみませんか?