sergicalsix

エンジニアをやっています。

sergicalsix

エンジニアをやっています。

最近の記事

  • 固定された記事

層に着目したLLMの口調の学習について

こちらは【第3回】生成AIなんでもLT会の登壇内容のnoteです。 👇【第3回】生成AIなんでもLT会のリンクはこちら 👇登壇資料はこちら(PDF化した時にサイズ変更があり、少しバグっているようです。) はじめにLLMのファインチューニングをしていると、ふと「学習した情報ってどこに保存されているんだろう?」と思うことはありませんか? LLMの知識がどこに保存されているのかというお話は、議論されていて「全結合層に知識が保存されている」という仮説などあります。 またZe

    • LLMニュースまとめ[2024年8月12日~8月18日]

      2024年8月12日~8月18日のLLM関連のニュースとして有名なもの、個人的に刺さったもの12点を以下にまとめる。 1. The AI Scientist AIエージェントが、独自の研究実施、研究結果整理、論文執筆を一貫して実施。 2. Grok-2 LMSYS Chatbot ArenaでClaude 3.5 SonnetとGPT-4-Turboを凌駕 3. LongWriter 20Kの単語以上の一貫した出力が可能なAgentWriteを提案。AgentWr

      • AQUILA2のテクニカルレポート紹介[BAAI]

        タイトルAQUILA2 TECHNICAL REPORT リンクhttps://arxiv.org/pdf/2408.07410 ひとこと要約英語、中国語のバイリンガルモデルであるAquila2のテクニカルレポート。独自のHeuriMentor(HM)を採用し、効率的な訓練に成功。 メモAquila2とは 7B、34B、70Bパラメータの二言語(中国語・英語)モデルシリーズ HeuriMentor(HM)フレームワークを用いることで、従来の学習に比べて効率的な学習を

        • LLMの内部理解に役立つTransformer Explainerの紹介

          タイトルTRANSFORMER EXPLAINER: Interactive Learning of Text-Generative Models リンクhttps://arxiv.org/pdf/2408.04619 ひとこと要約LLMの内部計算を可視化するツールであるTransformer Explainerを開発。 メモTransformer Explainerの特徴 ブラウザで直接実行可能 リアルタイムでGPT-2モデルを操作 複数の抽象化レベルを提供(構

        • 固定された記事

        層に着目したLLMの口調の学習について

          詳細かつ包括的な検索手法:MindSearchの紹介

          タイトルMindSearch 思·索: Mimicking Human Minds Elicits Deep AI Searcher リンクhttps://arxiv.org/pdf/2407.20183 ひとこと要約情報検索の新たなフレームワークとしてMindSearchを提案。Perplexity.aiやChatGPTよりもより詳細で包括的な回答を生成可能。 メモMindSearch 基本概念 大きな問題を小さな部分に分けて、それぞれを解決し、最後に全体をまとめ

          詳細かつ包括的な検索手法:MindSearchの紹介

          効率的なモデル圧縮と知識蒸留に関する論文紹介[NVIDIA]

          タイトルCompact Language Models via Pruning and Knowledge Distillation リンクhttps://arxiv.org/pdf/2407.14679 ひとこと要約高性能な小型モデル作成のための、LLMの効率的な圧縮並びに再学習のための包括的な手法を提案。 メモ方法 重要度分析 小さなキャリブレーションデータセット(1024サンプル)を用意して順伝播 幅(Width)の重要度計算 MHA、MLP、LayerN

          効率的なモデル圧縮と知識蒸留に関する論文紹介[NVIDIA]

          データの影響度を逆学習を用いて追跡する論文紹介[NLPコロキウム]

          論文名 Unlearning Traces the Influential Training Data of Language Models arXivリンク https://arxiv.org/pdf/2401.15241 ひとこと要約 学習済みモデルから学習データ/評価データを逆学習して、データの影響を測る手法を提案。 情報 https://nlp-colloquium-jp.github.io/schedule/2024-07-03_masaru-ison

          データの影響度を逆学習を用いて追跡する論文紹介[NLPコロキウム]

          Instruction Pre-Training:事前学習の新手法に関する論文紹介

          タイトルInstruction Pre-Training: Language Models are Supervised Multitask Learners リンクhttps://arxiv.org/pdf/2406.14491 ひとこと要約学習データに対してインストラクションとレスポンスのペアを加えて事前学習を行うInstruction Pre-Trainingを提案。 メモ手法 Instruction Pre-Training 通常の生テキストの学習データに

          Instruction Pre-Training:事前学習の新手法に関する論文紹介

          LLMのハルシネーション抑制と新規手法Laminiに関する論文紹介[Lamini No.1]

          タイトルBanishing LLM Hallucinations Requires Rethinking Generalization リンクhttps://github.com/lamini-ai/Lamini-Memory-Tuning/blob/main/research-paper.pdf ひとこと要約LLMのハルシネーションについて検証。LLMのハルシネーション抑制しつつ、事実を記憶できる手法であるMoME並びにアーキテクチャLamini-1を提案(評価はなし)

          LLMのハルシネーション抑制と新規手法Laminiに関する論文紹介[Lamini No.1]

          複数LLMを協調させるMoAの論文紹介

          論文名 Mixture-of-Agents Enhances Large Language Model Capabilities arXivリンク https://arxiv.org/pdf/2406.04692 ひとこと要約 LLMのマルチエージェント化して協調させる手法:Mixture-of-Agents (MoA)を提案。単体のモデルでは到達できない性能を引き出すことに成功 メモ MoA概要 複数の層から構成 各層には複数のLLMエージェントを配置

          複数LLMを協調させるMoAの論文紹介

          MBR decodingのサンプリングの性能調査に関する論文紹介[NLPコロキウム]

          論文名 On the True Distribution Approximation of Minimum Bayes-Risk Decoding arXivリンク https://arxiv.org/pdf/2404.00752 ひとこと要約 MBR decodingの擬似参照サンプリングの性能調査。疑似参照が真の分布に似ているほど、COMET22のスコアが高いことを確認。 情報 NLPコロキウムで紹介されています。 メモ 前提: MBR decoding

          MBR decodingのサンプリングの性能調査に関する論文紹介[NLPコロキウム]

          LLMの評価システムの一つであるイロレーティングに関する論文紹介[Cohere論文紹介No.6]

          論文名 Elo Uncovered: Robustness and Best Practices in Language Model Evaluation arXivリンク https://arxiv.org/pdf/2311.17295 ひとこと要約 Large Language Models (LLMs)の評価に使われるイロレーティングシステムについて実験的に調査 メモ 事前知識:イロレーティングについて 以下のnoteがわかりやすいです。 実験方法

          LLMの評価システムの一つであるイロレーティングに関する論文紹介[Cohere論文紹介No.6]

          LLMのプルーニングに関する論文紹介[ICLR2024]

          論文名 DYNAMIC SPARSE NO TRAINING : TRAINING-FREE FINE-TUNING FOR SPARSE LLMS arXivリンク https://arxiv.org/pdf/2310.08915 ひとこと要約 プルーニングの手法としてDynamic Sparse No Trainingを提案。LLMのプルーニングにおいて、既存手法よりも高精度を達成 メモ プルーニングの先行研究 Magnitude 絶対値が小さい重みを削

          LLMのプルーニングに関する論文紹介[ICLR2024]

          言語モデルの編集に関する論文紹介

          論文名 Is Bigger Edit Batch Size Always Better? - An Empirical Study on Model Editing with Llama-3 arXivリンク https://arxiv.org/pdf/2405.00664 ひとこと要約 Llama-3を用いた言語モデルの編集と層の位置やバッチサイズの関係を調査 メモ 編集手法 前提知識: 編集では、新しい事実を記憶させる「memorization」と、既存の

          言語モデルの編集に関する論文紹介

          NNの枝刈り&対照学習に関する論文紹介[Cohere論文紹介No.5]

          論文名 Studying the impact of magnitude pruning on contrastive learning methods arXivリンク https://arxiv.org/pdf/2207.00200 ひとこと要約 NNの枝刈り&対照学習に関して調査した論文。教師あり学習と比較して対照学習の方が枝刈りの影響を受けやすく、特に学習の早期から枝刈りを行うと悪影響が大きい。 メモ NNの枝刈りに関する先行研究 枝刈りの問題 枝刈り

          NNの枝刈り&対照学習に関する論文紹介[Cohere論文紹介No.5]

          NNの低ランク学習の論文紹介[Cohere論文紹介No.4]

          論文名 Exploring Low Rank Training of Deep Neural Networks arXivリンク https://arxiv.org/pdf/2209.13569 ひとこと要約 NNの低ランク学習において、スペクトル初期化、L2正則化などの調査を行なった。 メモ タスクとモデル CIFAR-100やImageNetなどの画像認識タスク モデル:Wide ResNet、ResNet-50 言語モデリングタスク(One Bill

          NNの低ランク学習の論文紹介[Cohere論文紹介No.4]