類似画像検索にLLMを利用する。
画像の類似度って難しいですよね?
同じものを表しているのに、画像としては全然違うものだからEmbeddingしてコサイン類似度を測ると遠くなることがよくあります。
なので、商品や動物などの物体を比較する場合は画像の類似度はあてになるけど、スポーツやビジネスシーン等の状況や場面の類似度は難しいという課題がありました。
例としてスポーツを見てみましょう。
以下の4枚の画像の類似度を出します。
画像1~3は野球で、画像4はバスケの画像です。
とりあえずAugNetで類似度を出し