マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

2023年4月の記事一覧

画像セグメンテーション技術 SEEMとは?~arxiv論文「Segment Everything Everywhere All at Once」を読む

上記論文で提案された、マルチモーダルな画像セグメンテーション技術である「SEEM」の概要をまとめてみました。数学的な定義などは専門家にお任せして図表メインで説明します。なお、デモは以下で公開されており、ソースコードも近日中に公開されるとのことです。楽しみですね。 実行サンプルまず、特徴的な実行サンプルの紹介から トラック形態のオプティマスプライム(映画トランスフォーマーに登場する主人公というか指揮官の機械生命体)のトラックヘッドの画像にざっくり印(黄緑の線)をつけておくと、

arxiv論文を読む:トランスフォーマーの入力トークン数をRMTで百万トークン以上にスケーリングする

Transformer技術の新たなブレイクスルーを予感する論文でしたので、再帰メモリトランスフォーマー拡張(RMT)による、Transformerの入力トークン数の拡張方法の論文の前半部分をまとめてみました。 なお、論文後半の記憶タスクでの使用例や実験結果については、論文本文を参照ください。 この技術は元の入力トークンをセグメント化して、別途保持するメモリーセグメントと合わせてトランスフォーマーの入力とすることで、入力トークンのサイズの制約を無くす画期的なアイデアのようで