言語AIの進化史⑧埋め込みベクトル

2024年8月21日 14:07

前回は、トークン化とTF-IDFについて解説しました。TF-IDFは、Bag-of-Words（BoW）と同様に文章全体の特徴をベクトルで表現する手法です。その統計的特徴量の計算の仕方に特色がありました。

これで文書や文章の分類や類似性の計算することがある程度はできるようになりました。しかし、まだ前回に問題提起した課題が残っています。

前回からの再引用ですが、次の２つの文章を比べて下さい。

この二つの文章は、BoWやTF-IDFでは同等です。なぜなら、トークンの前後関係などから生じる文脈を捉えられないからです。

この解決方法として、トークン間の関係を機械学習モデルで扱えるように数値化（ベクトル化）することが考えられます。

よって、今回はトークンの数値化、特に埋め込みベクトルについて解説します。

ここから先は

6,786字 / 4画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング、量子コンピュータ関連の用語の解説、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？