記事一覧
[論文紹介] KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS (2024)
個別の機能と強みを持つを大規模言語モデル(以下,LLMとする)を一から学習することは,多大なコストがかかります.そのため,既存の事前学習済LLMを融合し,より強力なモデルを作るための手法が近年提案されています.しかし,事前学習済のモデルは(当然のことながら)モデルアーキテクチャがそれぞれ異なるため,単純に重みを混合する手法は現実的ではありません.そこで本研究では,ソースLLMの生成分布を利用し,単
もっとみる[論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました
一言でまとめると:時系列Transformerを自然言語処理のお作法で鍛えたら,ゼロショットで未来の系列を予測することができました
アブストラクトまずは翻訳にかけて,ポイントとなりそうなところを太字にします.
最も重要な点としては,自然言語処理の分野で提案された,既存のtransformerベースのモデルを時系列予測に用いている点です.一般的な利用可能な大規模なデータセットで学習されている点は
[論文紹介]NeRFのPositional Encidingをトモグラフィーに応用[ICCV21]
本日は,医療の現場で用いられるcomputed tomography(CT)技術に関する論文を紹介させていただこうと思います.
紹介する論文は,CT におけるill-posed inverse problemsを解消するための提案であり,NeRFのpositional encodingを取り入れていることが大きな特徴となります.
今日紹介する論文の詳細は以下になります.
本記事では,上記論文
[論文紹介]Transformerがうまくいっているのはなぜなのか? [ICML23]
Transformerがうまくいっているのはなぜなのか?
結論:入力に依存し,重要な単語(トークン)を選択し,意味のある情報を取捨選択できるため
本研究は東大の鈴木大慈先生の下で行われている研究であり、数学を用いてTransformerの根幹を理解することを目的としているようです.
さて,論文の詳細は以下になります.
arXivのリンクは以下になります.
本記事では,上記論文を初見で読みな
画面キャプチャを利用してなるべく簡単に動画からの物体検出を実現させる方法
深層学習の分野では、動画解析のためにRNN(Recurrent Neural Networks)や3D CNN(3D Convolutional Neural Networks)、Optical Flowなどの複雑なモデルや手法が用いられることが多いです。特に、動画データは時間的な連続性を持っているため、フレーム間の関係を考慮に入れる必要があり、これには特別な前処理やモデルの設計が求められます。し
もっとみるMulti-head Attentionの考え方
数式で理解しようとすると良くわからなくなるため,Multi-head Attentionの考え方をイラストにしてみた.
まずはSingle-head attentionについて,これはKeyとQueryの内積を計算することによって大域的な類似度を抽出している.次元数が高くなると,次元ごとの小さな特徴が無視されやすいという欠点をもつ.イラストにしてみると以下のようなものとなる.
一方,Multi
MLPでもTransformer並みの性能を出せるようだ
Transformerの構造を見直すことにより省メモリ化をしようという試みが流行している.
今年(2021年)だけでも4つの論文が報告されている.
MLP-Mixer [Tolstikhin+, 2021]
Do You Even Need Attention? [Melas-Kyriaze, 2021]
ResMLP [Touvron+, 2021]
Pay Attention to MLP
Transformer解説まとめ
自然言語処理の翻訳において,長い文の入力に耐えることを目的として提案されたモデルがTransformerだが,このモデルの汎用性の高さに目を付けた研究者が,その後,汎用言語モデル(BERT,GPT)を提案したり,画像処理への応用(ViT)したり,近年では生成モデル(DALL-E)への応用にも成功している.このように汎用性が高いTransformerは,自然言語処理以外の研究者も必ず押さえておかなけ
もっとみる言語横断型の画像-言語マルチモーダルモデルがゼロショットでSOTAを更新
世界中には約7,000の言語が存在していると言われており,これらすべての言語に対応した画像-言語(Vision-Language)モデルを構築するのはほぼ不可能である.自然言語処理(NLP)では,言語横断の問題を解決するための手段として,少量のアノテーション付きの学習データを用意し,転移学習により,多言語対応を試みる手法が提案されているが,たとえ少量のデータであってもアノテーションにはコストがかか
もっとみる強化学習における意思決定問題にTransformerを導入
近年の研究では,Transformerが意味的な概念の高次元分布を大規模にモデル化できることが示されており,Transformerを強化学習に利用できる可能性が出てきている.
本論文では,Transformerによる一連の状態,行動,報酬の共同分布のモデリングが従来の強化学習アルゴリズムの代替となるかを検討.提案されたフレームワークは,Atari,OpenAL Gym,key-to-Door