chroma dbでセマンティックサーチ

chromaとopenaiのチャットAPIだけで、シンプルにセマンティックサーチができるじゃないかと、実装してみた。
できた。
他のライブラリを使うよりも、すごくシンプル。
だが、
全体のデータ量がそれほど多くないといいけど、
300ページものPDFデータだと、抽出精度が低い低い。
エンべティングにデフォルトのchromaを利用しているからだろうか。

チャンクの方法もいろいろ試しているけど。
Llamaインデックスで、以前やったときの方が精度がいい。

セマンティックサーチも、やり方により、精度が違うなあ。
ベクトルの次元数は大きいほうがやはり、精度がいいのかな。
もう少しだけ、精度を求めて実験おきたいけど。

それにしても、
セマンティックサーチは、もう古いかも。一時のものだったかも。

この記事が気に入ったらサポートをしてみませんか?