マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

2023年5月の記事一覧

Meta 「ImageBind」公開! 百聞は一見に如かずを実装した マルチモーダルAIの概要

Meta社がオープンソースとして公開した、マルチモーダルなAIモデル「ImageBind」が、どんなアイデアで作られたのか調べてみました。 ImageBindとは「テキスト」、「画像および動画」、「音声」、「深度(3D)」、「熱(赤外線)」、「慣性測定装置(IMU)のデータ」の6種類のモダリティ情報を単一の結合埋め込み空間へ統合した、いわゆるマルチモーダルAIの実現に向けた技術デモンストレーションのモデルです。 ここがポイント!今までの常識 多数のモーダルを含むマルチモ

RNNとTransformerの要素を組み合わせた新しいアーキテクチャ: RWKVとは?

自分の勉強のために、RWKVの論文前半の仕組みの解説部分を、要約してみました。Transformerの考え方を踏襲しつつ、RNNのアイデアを取り入れたRWKVについて雰囲気をお伝えできれば幸いです。 なお、大事な論点の書き忘れ、認識間違いなどぜひコメントください。 背景・概要トランスフォーマー技術は、ほぼ全ての自然言語処理(NLP)タスクを革新しましたが、取り扱うトークン数が長くなるほど、計算量・メモリへの負担が二乗に比例して急増する問題点がありました。 これに対して、従

Arxiv論文:Tree of Thoughts 🌳🌲🌴🌿🍃

論文概要(Abstractを要約)言語モデルはさまざまなタスクに対応するための問題解決ツールとして利用されています。しかし、その推論過程は、現状では個々の単語(トークン)レベルで、左から右へ順序に沿って決定が行われることに限定されています。この制限は、全体を見渡した探索や戦略的な先読みが必要なタスク、または初期の決定が結果に大きな影響を及ぼすタスクにおいて、言語モデルの能力を制約しています。 この問題を解決するために、「Tree of Thoughts(ToT)」という新し

Arxiv論文:自分でツールを作って再利用するLLMのコンセプト(LATM)

以下論文が面白げでした。 論文で提案されたコンセプトをデモするノートブックも用意されているので、興味がある方は実際に動かしてみても面白いと思います。 論文の概要大規模言語モデル(LLM)の問題解決能力を向上させるための新しいフレームワーク、LLMs As Tool Makers(LATM)を提案する。このフレームワークは、LLM自体が問題解決のための再利用可能なツールを作成する。 LATMのアプローチは「ツール作成」フェーズと「ツール使用」フェーズの2つから成り立ち、それ