マガジンのカバー画像

トランスフォーマーを理解する

23
2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー (Transformer)のアーキテクチャは、近年におけるディープラー…
運営しているクリエイター

#言語モデル

トランスフォーマーの自己アテンションの理解⑦エンコーダ・ブロックの詳細

本シリーズの記事リスト 第一弾 トークン数値化の歴史 第二弾 回帰による文脈伝搬 第三弾 レコメンダーと内積 第四弾 位置エンコーディング 第五弾 エンコーダ・デコーダ 第六弾 クエリとキーとバリュー 第七弾 エンコーダ・ブロックの詳細 第八弾 デコーダ・ブロックの詳細 この記事では、エンコーダ・ブロックの詳細を解説します。論文の図1の左側になります。 エンコーダ・ブロックの内部にある、マルチヘッド・アテンション(Multi-head Attention)

Beam Search(ビーム・サーチ)とは

言語モデルと言えば、「与えられた文章に対して次にくる言葉を確率的に予測する」というのが基本的な考え方です。この単純なアプローチは、次にくる言葉を予測するためのグリーディな手法として広く用いられています。しかし、さまざまな応用において、他の選択肢も存在します。今回の記事では、このグリーディな手法の一つの代替として、ビーム・サーチに焦点を当てます。 ビーム・サーチは機械翻訳や音声認識など、特定の問題において選択されることがある技術です。まずは、グリーディな手法を解説し、それと比

トランスフォーマーの自己アテンションの理解③レコメンダーと内積

本シリーズの記事リスト 第一弾 トークン数値化の歴史 第二弾 回帰による文脈伝搬 第三弾 レコメンダーと内積 第四弾 位置エンコーディング 第五弾 エンコーダ・デコーダ 第六弾 クエリとキーとバリュー 第七弾 エンコーダ・ブロックの詳細 第八弾 デコーダ・ブロックの詳細 この記事ではアテンションの計算で使われる内積(Dot Product)についてレコメンダーシステム(Recommender System)を例に解説します。ベクトルを使った内積の計算自体は簡