言語AIの進化史⑧埋め込みベクトル
前回は、トークン化とTF-IDFについて解説しました。TF-IDFは、Bag-of-Words(BoW)と同様に文章全体の特徴をベクトルで表現する手法です。その統計的特徴量の計算の仕方に特色がありました。
これで文書や文章の分類や類似性の計算することがある程度はできるようになりました。しかし、まだ前回に問題提起した課題が残っています。
前回からの再引用ですが、次の2つの文章を比べて下さい。
男は犬を撫でた。
男は犬を噛んだ。
この二つの文章は、BoWやTF-IDFでは同等です。なぜなら、トークンの前後関係などから生じる文脈を捉えられないからです。
この解決方法として、トークン間の関係を機械学習モデルで扱えるように数値化(ベクトル化)することが考えられます。
よって、今回はトークンの数値化、特に埋め込みベクトルについて解説します。
この記事が気に入ったらサポートをしてみませんか?