トランスフォーマーを理解する

本

2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー（Transformer）のアーキテクチャは、近年におけるディープラー…

運営しているクリエイター: 澁谷直樹

#transformer

トランスフォーマーの論文を読む②結論

今回は、トランスフォーマーの論文である「Attention Is All You Need」の結論から読んでいきます。まだ、要約を読んでいない方は前回の記事を参考にしてください。なお、論文のセクションを読む順番は、以前に紹介した論文の読み方に大体従っています。

BERTとViT、言語とビジョンモデルの比較

BERTとViT（Vision Transformer、ビジョン・トランスフォーマー）はそれぞれ言語とビジョンのモデルだが同じトランスフォーマーのエンコーダをベースにしています。この記事では、この二つのモデルを比較して共通点と違いを簡単に考察します。埋め込みベクトルの作り方相違点 BERTとViTとの１番の違いは埋め込みベクトルを文章から作るBERTに対してViTは画像のパッチから作ります。 BERT BERTは次の前処理を行い入力文章の埋め込みベクトルを準備し

ビジョン・トランスフォーマーとは

画像分類はコンピュータビジョンにおいて重要なタスクの1つです。従来の画像分類のアプローチとして、畳み込みニューラルネットワーク（CNN）があり、定番の手法として定着していました。 2020年、Google Brainチームは、CNNを使用しない画像分類モデルであるビジョン・トランスフォーマー（Vision Transformer、ViT）を開発しました。 ViTは、分類のために画像パッチのシーケンスに直接トランスフォーマーのエンコーダーを適用します。最近（2023年2月

トランスフォーマーの自己アテンションの理解⑥クエリとキーとバリュー

本シリーズの記事リスト第一弾トークン数値化の歴史第二弾回帰による文脈伝搬第三弾レコメンダーと内積第四弾位置エンコーディング第五弾エンコーダ・デコーダ第六弾クエリとキーとバリュー第七弾エンコーダ・ブロックの詳細第八弾デコーダ・ブロックの詳細この記事では、トランスフォーマーのアテンションの仕組みの中心となる概念、クエリ（Query）・キー（Key）・バリュー（Value）を見ていきます。ようやく自己アテンションの解説に手が届きま

トランスフォーマーの自己アテンションの理解③レコメンダーと内積

本シリーズの記事リスト第一弾トークン数値化の歴史第二弾回帰による文脈伝搬第三弾レコメンダーと内積第四弾位置エンコーディング第五弾エンコーダ・デコーダ第六弾クエリとキーとバリュー第七弾エンコーダ・ブロックの詳細第八弾デコーダ・ブロックの詳細この記事ではアテンションの計算で使われる内積（Dot Product）についてレコメンダーシステム（Recommender System）を例に解説します。ベクトルを使った内積の計算自体は簡

トランスフォーマーの自己アテンションの理解②回帰による文脈伝搬

本シリーズの記事リスト第一弾トークン数値化の歴史第二弾回帰による文脈伝搬第三弾レコメンダーと内積第四弾位置エンコーディング第五弾エンコーダ・デコーダ第六弾クエリとキーとバリュー第七弾エンコーダ・ブロックの詳細第八弾デコーダ・ブロックの詳細この記事ではあまり数式を使わずに、トランスフォーマー以前の言語モデル、RNN（リカレント・ニューラルネットワーク、回帰型ニューラルネットワーク）を文脈の伝搬の仕組みとして捉え解説します。RN

トランスフォーマーの自己アテンションの理解①トークン数値化の歴史

本シリーズの記事リスト第一弾トークン数値化の歴史第二弾回帰による文脈伝搬第三弾レコメンダーと内積第四弾位置エンコーディング第五弾エンコーダ・デコーダ第六弾クエリとキーとバリュー第七弾エンコーダ・ブロックの詳細第八弾デコーダ・ブロックの詳細 2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー（Transformer）のアーキテクチャは、近年におけるディープラーニングの進展