そら

モータースポーツエンスージアスト&AI大好き人間

そら

モータースポーツエンスージアスト&AI大好き人間

マガジン

  • LLM論文記録

    大規模言語モデル関連の論文をGPT-4やClaude3 Opusに読みこませ、壁打ちした記録をまとめたものです。

  • FIA F3まとめ

最近の記事

【論文要約】PointTransformer【自分用メモ】

イントロダクション今回は点群処理の手法であるPointTransformerを提案している論文について要約する。今回はGemini-1.5-pro-exp-0801を用いている。 研究の目的と背景研究の目的 本研究の目的は、自然言語処理や画像解析において目覚ましい成果を上げている Self-attention network(セルフアテンションネットワーク) を3次元点群処理に応用し、点群処理のための新しい深層学習手法を開発することです。具体的には、点群に適したセルフアテ

    • 【論文要約】LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs【Claude3.5 Sonnet】

      イントロダクション今回はRAG手法を改良し、従来の手法より長い検索ユニットを構築し、精度を向上させたLongRAG手法を提案している論文について要約する。今回もClaude3.5 Sonnetを用いている。 TL;DRLongRAGは、従来のRAGシステムより長い検索ユニット(平均6,000トークン)を使用し、検索性能を大幅に向上させました。 コーパスサイズを30倍圧縮(22Mから600Kへ)しながら、トップ1回答再現率を20ポイント向上(52.24%から71.69%へ)

      • 【論文要約】Mamba: Linear-Time Sequence Modeling with Selective State Spaces【自分用メモ】

        イントロダクション今回は『Mamba: Linear-Time Sequence Modeling with Selective State Spaces』という以下の論文を要約する。論文のpdfをClaude3.5 Sonnetに渡して要約させた。 研究の目的と背景<purpose> 本研究の主な目的は、長いシーケンスを効率的にモデリングできる新しいディープラーニングアーキテクチャ「Mamba」を提案することです。具体的には以下の目標の達成を目指しています: 線形時間

        • 【論文要約】Ad Auctions for LLMs via Retrieval Augmented Generation【Claude3.5 Sonnet】

          イントロダクション今回は2024/6/20に発表されたばかりのClaude3.5 Sonnetを使用して論文要約を行った。前回の記事までのGemini1.5 proやClaude3 Opusを用いた論文要約との差を感じてみてほしい。 今回の論文要約には以下のRAGを用いたAd Auctionの手法を提案した論文を用いた。 TL;DRLLMの出力に広告を統合するための新しいオークションメカニズム「セグメントオークション」を提案 RAG(検索拡張生成)フレームワークを活用し、

        【論文要約】PointTransformer【自分用メモ】

        • 【論文要約】LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs【Claude3.5 Sonnet】

        • 【論文要約】Mamba: Linear-Time Sequence Modeling with Selective State Spaces【自分用メモ】

        • 【論文要約】Ad Auctions for LLMs via Retrieval Augmented Generation【Claude3.5 Sonnet】

        マガジン

        • LLM論文記録
          20本
        • FIA F3まとめ
          0本

        記事

          https://arxiv.org/html/2406.09459v1 面白そうな論文、あとでまとめます

          https://arxiv.org/html/2406.09459v1 面白そうな論文、あとでまとめます

          【論文要約】MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning【自分用メモ】

          今回は『MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning』というLoRAを発展させた手法を提案した以下の論文を要約する。論文のpdfをGemini Advanced(Gemini 1.5 pro)に渡して要約させた。 研究の目的と背景目的 本研究の目的は、大規模言語モデル(LLM)の効率的なファインチューニング手法であるLoRAの限界を分析し、その問題点を克服する新しい手法MoRAを提案することです。

          【論文要約】MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning【自分用メモ】

          【LLM比較】GPT-4oとClaude3 Opus,Gemini1.5 proを論文要約タスクで比較【RGAR論文】

          イントロダクション今回はGPT-4o,Claude3 Opus, Gemini1.5 pro(Gemini Advanced)のそれぞれに下記の論文と同一のプロンプトリストを与え、それぞれのモデルの生成結果を比較する。 今回は下記のRAGの評価についてのサーベイおよび包括的な分析フレームワークであるRGARを提案した論文を使用した。 プロンプトリストとしては筆者考案の論文要約用プロンプトリストを使用する。プロンプトリストは以下の記事に書いてあるプロンプトをそのまま使用する。

          【LLM比較】GPT-4oとClaude3 Opus,Gemini1.5 proを論文要約タスクで比較【RGAR論文】

          GPT-4oに論文を読ませるためのプロンプト【自分用メモ】

          GPT-4oに論文を読ませて、いい結果を得るために試行錯誤した末に生み出したプロンプトを残します。 研究の目的と背景<research_purpose_and_background>研究の目的と背景を2000文字以上でまとめてください。<purpose>本研究の目的について、以下の観点を踏まえて詳細に説明してください:- 研究で解決しようとしている問題や達成しようとしている目標- 研究の意義や重要性- 研究の新規性や独自性</purpose><background>本研究の

          GPT-4oに論文を読ませるためのプロンプト【自分用メモ】

          【論文要約】Direct Preference Optimization: Your Language Model is Secretly a Reward Model【メモ】

          イントロダクション今回は『Direct Preference Optimization: Your Language Model is Secretly a Reward Model』というDPO手法を提案した以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。 研究の目的と背景<purpose> 本研究の目的は、人間の好みに沿うようにニューラル言語モデル(LM)を効率的に微調整する新しいアルゴリズム「Direct Preference Op

          【論文要約】Direct Preference Optimization: Your Language Model is Secretly a Reward Model【メモ】

          【モデル作成】ChatVector手法を用いて日本語モデルのNSFW能力とRP能力を強化した【備忘録】

          イントロダクション今回はAratakoさん作成のAntler-RP-v1とJapanese-Starling-RPをそれぞれWestLakeでchatvectorを0.5の係数で強化した2つのモデルをそれぞれマージさせたNSFW方向とRP方向に強化したモデルを作成した。 またそのモデルをELYZA-tasks-100で評価したところ平均スコアが3.67という高いスコアを出した。 以下に作成したモデルのhfリンクを示す。 手法今回は以下の2つのモデルをベースに用いた htt

          【モデル作成】ChatVector手法を用いて日本語モデルのNSFW能力とRP能力を強化した【備忘録】

          【論文要約】Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length【自分用メモ】

          イントロダクション今回は『Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。 研究の目的と背景<purpose> 本研究の目的は、大規模言語モデル(LLM)の事前学習と推論の効率を改善し、無制限の文脈長に対応できる新しいニューラルアーキテクチャMEGALODONを開発すること

          【論文要約】Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length【自分用メモ】

          【論文要約】Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages【自分用メモ】

          イントロダクション今回は『Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。 研究の目的と背景<purpose> 本研究の目的は、大規模言語モデル(LLM)に対し、新しい言語での会話能力と人間の価値観に沿ったモデルアライ

          【論文要約】Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages【自分用メモ】

          【Claude3】VTube Studio との連携を実現する Python コードの解説【丸投げ】

          イントロダクションClaude3 Opusに丸投げして書かせたプログラムがなかなかのものだったので共有しておきます。以下のライブラリ2つのソースコードを全てコンテキストに投げたうえで書かせたプログラムです。 TL;DR本記事では、VTube Studio と連携してバーチャルキャラクターの動作を制御するための一連の Python プログラムについて解説します。これらのプログラムは、vts_client.py、vts_control.py、vts_actions.py の3つ

          【Claude3】VTube Studio との連携を実現する Python コードの解説【丸投げ】

          【論文要約】RoFormer: Enhanced Transformer with Rotary Position Embedding【メモ】

          イントロダクション今回は『RoFormer: Enhanced Transformer with Rotary Position Embedding』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。 研究の目的と背景<purpose> 本研究の目的は、Transformer言語モデルにおいて、相対位置情報を利用した新しい位置エンコーディング手法Rotary Position Embedding (RoPE)を提案し、性能を向上させる

          【論文要約】RoFormer: Enhanced Transformer with Rotary Position Embedding【メモ】

          【論文要約】Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models【メモ】

          イントロダクション今回は『Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models』という以下の論文を要約する。論文のpdfをClaude 3 Opusに渡して要約させた。 研究の目的と背景<purpose> 本研究の目的は、より効率的で高性能な言語モデルを開発することである。具体的には、以下の2つの新しいモデルアーキテクチャを提案している。 H

          【論文要約】Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models【メモ】

          【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】

          イントロダクション今回は以下のJambaアーキテクチャの論文を要約する。Mamba論文も同様に要約した記事を今後書こうと思う。(順序逆なのはすいません。) 研究の目的と背景<purpose> 本研究の目的は、「Jamba」と名付けられた新しい大規模言語モデルを開発し、提案することである。Jambaは、Transformerレイヤーと「Mamba」と呼ばれる最新のstate-spaceモデルのレイヤーを組み合わせたハイブリッドアーキテクチャと、mixture-of-expe

          【論文要約】Jamba: A Hybrid Transformer-Mamba Language Model【メモ】