local llmでsentence embeddingどれ使えば良いんだっけ
最近の日本語喋れるLLMでそのままsentence embeddingしても良いんだっけ?そもそもどうやってsentence embeddingしてるんだっけ?と思っていたので調べてみた。
単語単位のembeding実装はsentence tranfomerが参考になる。
sentence transfomerでない場合やbertのclsトークンを持たない場合は、単語embeddingを足し合わせて、単語列の長さで平均をとるmean_poolingがよく使われる手法らしい