マガジンのカバー画像

トランスフォーマーを理解する

23
2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー (Transformer)のアーキテクチャは、近年におけるディープラー…
運営しているクリエイター

#GPT3

ビジョン・トランスフォーマーとは

画像分類はコンピュータビジョンにおいて重要なタスクの1つです。従来の画像分類のアプローチとして、畳み込みニューラルネットワーク(CNN)があり、定番の手法として定着していました。 2020年、Google Brainチームは、CNNを使用しない画像分類モデルであるビジョン・トランスフォーマー(Vision Transformer、ViT)を開発しました。 ViTは、分類のために画像パッチのシーケンスに直接トランスフォーマーのエンコーダーを適用します。 最近(2023年2月

トランスフォーマーの自己アテンションの理解①トークン数値化の歴史

本シリーズの記事リスト 第一弾 トークン数値化の歴史 第二弾 回帰による文脈伝搬 第三弾 レコメンダーと内積 第四弾 位置エンコーディング 第五弾 エンコーダ・デコーダ 第六弾 クエリとキーとバリュー 第七弾 エンコーダ・ブロックの詳細 第八弾 デコーダ・ブロックの詳細 2017年に、Googleの研究者であるAshish Vaswaniらのチームが発表したトランスフォーマー (Transformer)のアーキテクチャは、近年におけるディープラーニングの進展