斑鳩イカリング

金融ドメインでAIの研究開発を行っています

斑鳩イカリング

金融ドメインでAIの研究開発を行っています

記事一覧

[論文紹介] KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS (2024)

個別の機能と強みを持つを大規模言語モデル(以下,LLMとする)を一から学習することは,多大なコストがかかります.そのため,既存の事前学習済LLMを融合し,より強力なモ…

[論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました

一言でまとめると:時系列Transformerを自然言語処理のお作法で鍛えたら,ゼロショットで未来の系列を予測することができました アブストラクトまずは翻訳にかけて,ポイ…

6

[論文紹介コード付き] Deep Isolation Forest for Anomaly Detection (2023)

アブストラクトまずは英文を翻訳にかけた結果を下記に示します. ポイントとなりそうなところを太字でハイライトしてみました.本研究が対処する課題は2つあり,(i) iFor…

1

[論文紹介コード付き] Isolation Forest (2008)

アブストラクトまずは論文のアブストラクトを日本語に訳します. 理解Isolation Forestは2008年に提案されたもので,技術解説が多く存在します.そのため,ここからは既存…

4

[論文紹介]LLMの人間ベースのフィードバックが安定しない問題を解決へ[ICLR24]

arXivへのリンクは以下です 本記事では,上記論文を初見で読みながら内容をまとめていくスタイルをとっています.このため,論文を精読してまとめたというよりは流し読み…

1

[論文紹介]NeRFのPositional Encidingをトモグラフィーに応用[ICCV21]

本日は,医療の現場で用いられるcomputed tomography(CT)技術に関する論文を紹介させていただこうと思います. 紹介する論文は,CT におけるill-posed inverse problems…

[論文紹介]Transformerがうまくいっているのはなぜなのか? [ICML23]

Transformerがうまくいっているのはなぜなのか? 結論:入力に依存し,重要な単語(トークン)を選択し,意味のある情報を取捨選択できるため 本研究は東大の鈴木大慈先生…

1

画面キャプチャを利用してなるべく簡単に動画からの物体検出を実現させる方法

深層学習の分野では、動画解析のためにRNN(Recurrent Neural Networks)や3D CNN(3D Convolutional Neural Networks)、Optical Flowなどの複雑なモデルや手法が用いられ…

2

Multi-head Attentionの考え方

数式で理解しようとすると良くわからなくなるため,Multi-head Attentionの考え方をイラストにしてみた. まずはSingle-head attentionについて,これはKeyとQueryの内積…

MLPでもTransformer並みの性能を出せるようだ

Transformerの構造を見直すことにより省メモリ化をしようという試みが流行している. 今年(2021年)だけでも4つの論文が報告されている. MLP-Mixer [Tolstikhin+, 2021]…

Transformer解説まとめ

自然言語処理の翻訳において,長い文の入力に耐えることを目的として提案されたモデルがTransformerだが,このモデルの汎用性の高さに目を付けた研究者が,その後,汎用言…

言語横断型の画像-言語マルチモーダルモデルがゼロショットでSOTAを更新

世界中には約7,000の言語が存在していると言われており,これらすべての言語に対応した画像-言語(Vision-Language)モデルを構築するのはほぼ不可能である.自然言語処理…

強化学習における意思決定問題にTransformerを導入

近年の研究では,Transformerが意味的な概念の高次元分布を大規模にモデル化できることが示されており,Transformerを強化学習に利用できる可能性が出てきている. 本論…

[論文紹介] KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS (2024)

[論文紹介] KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS (2024)

個別の機能と強みを持つを大規模言語モデル(以下,LLMとする)を一から学習することは,多大なコストがかかります.そのため,既存の事前学習済LLMを融合し,より強力なモデルを作るための手法が近年提案されています.しかし,事前学習済のモデルは(当然のことながら)モデルアーキテクチャがそれぞれ異なるため,単純に重みを混合する手法は現実的ではありません.そこで本研究では,ソースLLMの生成分布を利用し,単

もっとみる
[論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました

[論文紹介コード付] 時系列Transformerを自然言語処理のお作法で鍛えたらゼロショットで未来の系列を予測することができました

一言でまとめると:時系列Transformerを自然言語処理のお作法で鍛えたら,ゼロショットで未来の系列を予測することができました

アブストラクトまずは翻訳にかけて,ポイントとなりそうなところを太字にします.

最も重要な点としては,自然言語処理の分野で提案された,既存のtransformerベースのモデルを時系列予測に用いている点です.一般的な利用可能な大規模なデータセットで学習されている点は

もっとみる
[論文紹介コード付き] Deep Isolation Forest for Anomaly Detection (2023)

[論文紹介コード付き] Deep Isolation Forest for Anomaly Detection (2023)

アブストラクトまずは英文を翻訳にかけた結果を下記に示します.

ポイントとなりそうなところを太字でハイライトしてみました.本研究が対処する課題は2つあり,(i) iForestの非線形なデータ空間で異常を検出できない,(ii) 人工的な領域(おそらく人工的に生成した偽データのこと)で異常を異常と判断する能力が低いことが挙げられています.本質的な課題として,iForestが線形データ分割を採用してい

もっとみる
[論文紹介コード付き] Isolation Forest (2008)

[論文紹介コード付き] Isolation Forest (2008)

アブストラクトまずは論文のアブストラクトを日本語に訳します.

理解Isolation Forestは2008年に提案されたもので,技術解説が多く存在します.そのため,ここからは既存の解説ブログをベースに理解していきます.

上記により,iForestは異常検出に特化したモデルであり,「何が正常か」を定義せずに異常を特定していくのが特徴のようです.これは,論文のアブストラクトに「正常点のプロファイ

もっとみる
[論文紹介]LLMの人間ベースのフィードバックが安定しない問題を解決へ[ICLR24]

[論文紹介]LLMの人間ベースのフィードバックが安定しない問題を解決へ[ICLR24]

arXivへのリンクは以下です

本記事では,上記論文を初見で読みながら内容をまとめていくスタイルをとっています.このため,論文を精読してまとめたというよりは流し読みしながらメモ程度にまとめた記事になっています.このため,より詳細を知りたい方は他のブログを漁ってみるか,ご自身で論文をご確認いただければと思います.

アブストラクトLanguage Models(LMs)では,人間フィードバックによ

もっとみる
[論文紹介]NeRFのPositional Encidingをトモグラフィーに応用[ICCV21]

[論文紹介]NeRFのPositional Encidingをトモグラフィーに応用[ICCV21]

本日は,医療の現場で用いられるcomputed tomography(CT)技術に関する論文を紹介させていただこうと思います.

紹介する論文は,CT におけるill-posed inverse problemsを解消するための提案であり,NeRFのpositional encodingを取り入れていることが大きな特徴となります.

今日紹介する論文の詳細は以下になります.

本記事では,上記論文

もっとみる
[論文紹介]Transformerがうまくいっているのはなぜなのか? [ICML23]

[論文紹介]Transformerがうまくいっているのはなぜなのか? [ICML23]

Transformerがうまくいっているのはなぜなのか?
結論:入力に依存し,重要な単語(トークン)を選択し,意味のある情報を取捨選択できるため

本研究は東大の鈴木大慈先生の下で行われている研究であり、数学を用いてTransformerの根幹を理解することを目的としているようです.

さて,論文の詳細は以下になります.

arXivのリンクは以下になります.

本記事では,上記論文を初見で読みな

もっとみる
画面キャプチャを利用してなるべく簡単に動画からの物体検出を実現させる方法

画面キャプチャを利用してなるべく簡単に動画からの物体検出を実現させる方法

深層学習の分野では、動画解析のためにRNN(Recurrent Neural Networks)や3D CNN(3D Convolutional Neural Networks)、Optical Flowなどの複雑なモデルや手法が用いられることが多いです。特に、動画データは時間的な連続性を持っているため、フレーム間の関係を考慮に入れる必要があり、これには特別な前処理やモデルの設計が求められます。し

もっとみる
Multi-head Attentionの考え方

Multi-head Attentionの考え方

数式で理解しようとすると良くわからなくなるため,Multi-head Attentionの考え方をイラストにしてみた.

まずはSingle-head attentionについて,これはKeyとQueryの内積を計算することによって大域的な類似度を抽出している.次元数が高くなると,次元ごとの小さな特徴が無視されやすいという欠点をもつ.イラストにしてみると以下のようなものとなる.

一方,Multi

もっとみる
MLPでもTransformer並みの性能を出せるようだ

MLPでもTransformer並みの性能を出せるようだ

Transformerの構造を見直すことにより省メモリ化をしようという試みが流行している.

今年(2021年)だけでも4つの論文が報告されている.

MLP-Mixer [Tolstikhin+, 2021]
Do You Even Need Attention? [Melas-Kyriaze, 2021]
ResMLP [Touvron+, 2021]
Pay Attention to MLP

もっとみる
Transformer解説まとめ

Transformer解説まとめ

自然言語処理の翻訳において,長い文の入力に耐えることを目的として提案されたモデルがTransformerだが,このモデルの汎用性の高さに目を付けた研究者が,その後,汎用言語モデル(BERT,GPT)を提案したり,画像処理への応用(ViT)したり,近年では生成モデル(DALL-E)への応用にも成功している.このように汎用性が高いTransformerは,自然言語処理以外の研究者も必ず押さえておかなけ

もっとみる
言語横断型の画像-言語マルチモーダルモデルがゼロショットでSOTAを更新

言語横断型の画像-言語マルチモーダルモデルがゼロショットでSOTAを更新

世界中には約7,000の言語が存在していると言われており,これらすべての言語に対応した画像-言語(Vision-Language)モデルを構築するのはほぼ不可能である.自然言語処理(NLP)では,言語横断の問題を解決するための手段として,少量のアノテーション付きの学習データを用意し,転移学習により,多言語対応を試みる手法が提案されているが,たとえ少量のデータであってもアノテーションにはコストがかか

もっとみる
強化学習における意思決定問題にTransformerを導入

強化学習における意思決定問題にTransformerを導入



近年の研究では,Transformerが意味的な概念の高次元分布を大規模にモデル化できることが示されており,Transformerを強化学習に利用できる可能性が出てきている.

本論文では,Transformerによる一連の状態,行動,報酬の共同分布のモデリングが従来の強化学習アルゴリズムの代替となるかを検討.提案されたフレームワークは,Atari,OpenAL Gym,key-to-Door

もっとみる