記事一覧
LLMのプルーニングに関する論文紹介[ICLR2024]
論文名 DYNAMIC SPARSE NO TRAINING : TRAINING-FREE FINE-TUNING FOR SPARSE LLMS arXivリンク https://arxiv.org/pdf/2310.08915 ひとこと要約 プルーニングの手法…
言語モデルの編集に関する論文紹介
論文名 Is Bigger Edit Batch Size Always Better? - An Empirical Study on Model Editing with Llama-3 arXivリンク https://arxiv.org/pdf/2405.00664 ひとこと要約…
NNの枝刈り&対照学習に関する論文紹介[Cohere論文紹介No.5]
論文名 Studying the impact of magnitude pruning on contrastive learning methods arXivリンク https://arxiv.org/pdf/2207.00200 ひとこと要約 NNの枝刈り&対照学…
NNの低ランク学習の論文紹介[Cohere論文紹介No.4]
論文名 Exploring Low Rank Training of Deep Neural Networks arXivリンク https://arxiv.org/pdf/2209.13569 ひとこと要約 NNの低ランク学習において、スペクトル初…
自然言語処理における効率的な手法のサーベイ論文紹介[Cohere論文紹介No.3]
論文名 Efficient Methods for Natural Language Processing: A Survey arXivリンク https://arxiv.org/pdf/2209.00099.pdf ひとこと要約 自然言語処理における効率的…
LLMの強化学習における新手法:TR-DPOの論文紹介
論文名 Learn Your Reference Model for Real Good Alignment arXivリンク https://arxiv.org/pdf/2404.09656.pdf ひとこと要約 Direct Preference Optimization (DPO…
LLMの学習データの刈り込みに関する論文紹介[Cohere論文紹介No.2]
論文名 When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale arXivリンク https://arxiv.org/pdf/2309.04564.pdf ひとこと要約 LLMの学習…
LLMの継続学習における論文紹介[Cohere論文紹介No.1]
論文名 Investigating Continual Pretraining in Large Language Models: Insights and Implications arXivリンク https://arxiv.org/pdf/2402.17400.pdf ひとこと要約…
In-context Learningの性能調査の論文紹介
論文名 Long-context LLMs Struggle with Long In-context Learning arXivリンク https://arxiv.org/pdf/2404.02060.pdf ひとこと要約 長いIn-context Learningの性能…
LLMのアルゴリズム的推論能力向上の論文紹介
論文名 Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models arXivリンク https://arxiv.org/pdf/2404…
言語モデルの記憶のメカニズムについての論文紹介
論文名 Localizing Paragraph Memorization in Language Models arXivリンク https://arxiv.org/pdf/2403.19851.pdf ひとこと要約 言語モデルの記憶のメカニズムにつ…
携帯のGPUでLLMを効率的に実行する論文紹介
論文名 Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs arXivリンク https://arxiv.org/pdf/2403.20041.pdf ひとこと…
AIの有害発言の検閲に関する論文紹介
論文名 Recourse for reclamation: Chatting with generative language models arXivリンク https://arxiv.org/pdf/2403.14467.pdf ひとこと要約 AIチャットボットに…
パーソナライズされたVLMの論文紹介
論文名 MyVLM: Personalizing VLMs for User-Specific Queries arXivリンク https://arxiv.org/pdf/2403.14599.pdf ひとこと要約 パーソナライズされたVLMであるMyVLM…
層に着目したLLMの口調の学習について
こちらは【第3回】生成AIなんでもLT会の登壇内容のnoteです。
👇【第3回】生成AIなんでもLT会のリンクはこちら
👇登壇資料はこちら(PDF化した時にサイズ変更があり、少しバグっているようです。)
はじめにLLMのファインチューニングをしていると、ふと「学習した情報ってどこに保存されているんだろう?」と思うことはありませんか?
LLMの知識がどこに保存されているのかというお話は、
LLMのプルーニングに関する論文紹介[ICLR2024]
論文名
DYNAMIC SPARSE NO TRAINING : TRAINING-FREE FINE-TUNING FOR SPARSE LLMS
arXivリンク
https://arxiv.org/pdf/2310.08915
ひとこと要約
プルーニングの手法としてDynamic Sparse No Trainingを提案。LLMのプルーニングにおいて、既存手法よりも高精度を達成
言語モデルの編集に関する論文紹介
論文名
Is Bigger Edit Batch Size Always Better? - An Empirical Study on Model Editing with Llama-3
arXivリンク
https://arxiv.org/pdf/2405.00664
ひとこと要約
Llama-3を用いた言語モデルの編集と層の位置やバッチサイズの関係を調査
メモ
編集手法
前
NNの枝刈り&対照学習に関する論文紹介[Cohere論文紹介No.5]
論文名
Studying the impact of magnitude pruning on contrastive learning methods
arXivリンク
https://arxiv.org/pdf/2207.00200
ひとこと要約
NNの枝刈り&対照学習に関して調査した論文。教師あり学習と比較して対照学習の方が枝刈りの影響を受けやすく、特に学習の早期から枝刈りを行うと
NNの低ランク学習の論文紹介[Cohere論文紹介No.4]
論文名
Exploring Low Rank Training of Deep Neural Networks
arXivリンク
https://arxiv.org/pdf/2209.13569
ひとこと要約
NNの低ランク学習において、スペクトル初期化、L2正則化などの調査を行なった。
メモ
タスクとモデル
CIFAR-100やImageNetなどの画像認識タスク
モデル:Wi
自然言語処理における効率的な手法のサーベイ論文紹介[Cohere論文紹介No.3]
論文名
Efficient Methods for Natural Language Processing: A Survey
arXivリンク
https://arxiv.org/pdf/2209.00099.pdf
ひとこと要約
自然言語処理における効率的な手法について包括的にサーベイしている。データ、モデル設計、事前学習、ファインチューニング、推論と圧縮、ハードウェア活用、評価、モ
LLMの強化学習における新手法:TR-DPOの論文紹介
論文名
Learn Your Reference Model for Real Good Alignment
arXivリンク
https://arxiv.org/pdf/2404.09656.pdf
ひとこと要約
Direct Preference Optimization (DPO)を改良したTrust Region DPO (TR-DPO)を提案。
メモ
背景
従来のアライン
LLMの学習データの刈り込みに関する論文紹介[Cohere論文紹介No.2]
論文名
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
arXivリンク
https://arxiv.org/pdf/2309.04564.pdf
ひとこと要約
LLMの学習データの質を3つの評価指標で評価し、データを刈り込むことでLLMの性能を上げられることを明らかにした。またシンプ
LLMの継続学習における論文紹介[Cohere論文紹介No.1]
論文名
Investigating Continual Pretraining in Large Language Models: Insights and Implications
arXivリンク
https://arxiv.org/pdf/2402.17400.pdf
ひとこと要約
LLMの継続学習においてドメインの内容や順序などについて調査。ドメインを類似度順で継続学習した方がド
Cohere関連の論文について
はじめに以下のQiitaで宣言した通り、これからCohere関連の論文を紹介させていただければと思います。Cohere関連の全40件精読して紹介するのは少し大変ので、興味があるものだけピックアップしていきます。
論文のソースはこちら。
内容まずはClaude 3 Opusに40の論文を入れて2,3行で要約させて概観を理解し、論文のグループ分けしてみます。ここでは筆者が興味を持った論文のみを記載
In-context Learningの性能調査の論文紹介
論文名
Long-context LLMs Struggle with Long In-context Learning
arXivリンク
https://arxiv.org/pdf/2404.02060.pdf
ひとこと要約
長いIn-context Learningの性能についてベンチマークを作成して調査した。長いIn-context Learningにおいてタスクの難易度が上がるに
LLMのアルゴリズム的推論能力向上の論文紹介
論文名
Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models
arXivリンク
https://arxiv.org/pdf/2404.02575.pdf
ひとこと要約
LLMのアルゴリズム的推論能力を向上させるための新し
言語モデルの記憶のメカニズムについての論文紹介
論文名
Localizing Paragraph Memorization in Language Models
arXivリンク
https://arxiv.org/pdf/2403.19851.pdf
ひとこと要約
言語モデルの記憶のメカニズムについて調査。125Mの言語モデルの記憶には第一層の特定のアテンションヘッド(memorization head)が重要な役割を持っている可能
携帯のGPUでLLMを効率的に実行する論文紹介
論文名
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
arXivリンク
https://arxiv.org/pdf/2403.20041.pdf
ひとこと要約
モバイル端末のGPUで大規模言語モデル(LLM)を効率的に実行するTransformer-Li
AIの有害発言の検閲に関する論文紹介
論文名
Recourse for reclamation: Chatting with generative language models
arXivリンク
https://arxiv.org/pdf/2403.14467.pdf
ひとこと要約
AIチャットボットによる有害発言の検閲に対して、ユーザーが有害さの閾値を調整できる仕組みを提案。30人の参加者を対象とした小規模な実験で提案手
パーソナライズされたVLMの論文紹介
論文名
MyVLM: Personalizing VLMs for User-Specific Queries
arXivリンク
https://arxiv.org/pdf/2403.14599.pdf
ひとこと要約
パーソナライズされたVLMであるMyVLMを提案。少数の学習データ(3-5枚)で特定の個人の情報をVLMに統合可能。
メモ
VLMの課題
現在のVLMは一般的な知識を