Cohere関連の論文について
はじめに
以下のQiitaで宣言した通り、これからCohere関連の論文を紹介させていただければと思います。Cohere関連の全40件精読して紹介するのは少し大変ので、興味があるものだけピックアップしていきます。
論文のソースはこちら。
内容
まずはClaude 3 Opusに40の論文を入れて2,3行で要約させて概観を理解し、論文のグループ分けしてみます。ここでは筆者が興味を持った論文のみを記載します。詳細な要約とグループ分けの出力は末尾に載せます。
大規模言語モデルの効率的な学習と最適化(16件)
(I):"Investigating Continual Pretraining Strategies for Large Language Models" LLMの継続学習においてドメインの内容や順序などについて調査。ドメインを類似度順で継続学習した方がドメイン特化させやすく、ドメインをランダムな順序で継続学習した方がLLMの性能・知識の蓄積が改善する。
(II):"When Less is More: Investigating Data Pruning for Large Language Model Pretraining" 大規模言語モデルの事前学習のためのデータ枝刈りを調査。単純な枝刈り手法であるパープレキシティによる刈り込みが、より複雑な手法(EL2N(Error L2-Norm)、Memorization)を上回ることを発見。
(III):"Efficient Methods for Natural Language Processing: A Survey" 自然言語処理における効率的な手法に関するサーベイ。限られたリソースでのNLPの実施に関するガイダンスと、より効率的な手法の開発に向けた有望な研究方向性を提示。
(IV):"Exploring Low Rank Training of Deep Neural Networks" 低ランクで深層ニューラルネットワークを学習することの利点を分析。GPT2などのモデルでの広範な消失実験を通じて、この分野の一般的な信念を否定する証拠を提示。
(V):"Studying the Impact of Magnitude Pruning on Representations Learned via Contrastive Learning" 対照学習で学習した表現に対する、異なる枝刈り手法の影響を調査。高いスパース性レベルでは、対照学習は誤分類の例が増加することを発見。
言語モデルの応用(3件)
(VI):"Lifting the Veil on Hyper-parameters in Value-based Deep Reinforcement Learning" 価値ベースの深層強化学習における、しばしば見過ごされるハイパーパラメータの重要性を実証。古典的制御環境の多様なセットでハイパーパラメータの感度を調査。
言語モデルの評価(4件)
(VII):"Elo Uncovered: Investigating the Suitability of Elo Rating System for Language Model Evaluation" 言語モデル評価におけるEloレーティングシステムの適合性を調査。個々のElo計算がボラティリティを示し、信頼性と推移性の公理を満たさない場合があることを明らかにした。
(VIII):"Large Language Models are not Zero Shot Communicators: Investigating Implicature Ability" 大規模言語モデル(LLM)が含意(implicature)を行う能力を調査するためのシンプルなタスクを設計し、一連のモデルを評価。ほとんどのモデルがランダムに近い性能しか示さないことを発見。
マルチリンガル(4件)
(IX):"BigScience: A Case Study of Large-Scale Participatory Research in AI" 大規模多言語データセットROOTSと言語モデルBLOOMの構築に至った、1年半に及ぶ学際的な共同研究ワークショップBigScienceのケーススタディ。大規模参加型研究の課題と教訓を共有。
データセットの品質(3件)
(X):"No News is Good News: Why the One Billion Word Benchmark is Ill-suited for Measuring Language Modeling Ability"
One Billion Word Benchmarkは、ニュースの時間的性質と時間経過に伴う分布のシフトにより、言語モデリング能力の測定に不向きであると指摘。有害なテキストや時事ネタの陳腐化した参照を含むことを明らかに。
安全性(4件)
(XI):"Goodtriever: An Adaptive Toxicity Mitigation Method using Retrieval-Augmented Models" 検索拡張型モデルを用いた適応型毒性軽減手法Goodtrieverを提案。既存手法と同等の性能を維持しつつ、推論時の遅延を43%削減し、計算効率を向上。
(XII):"From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models from Single to Multilingual Settings" 言語モデルにおける毒性軽減の適用範囲を、単一言語から多言語設定に拡大する手法を提案。翻訳データを用いて評価・改善し、検索拡張型手法と微調整型手法を比較。
責任ある開発(3件)
(XIII):"Language Models Don't Always Say What They Think: Demonstrating Misleading Explanations in Chain-of-Thought Prompting" 思考連鎖プロンプティングにおいて、言語モデルの説明が真の予測理由を体系的に誤表現する可能性を実証。偏向要素の影響を説明に述べないなど、説明が説得力があっても誤解を招く可能性がある。
プライバシーと公平性(3件)
(XIV):"On the Fairness Impacts of Hardware Selection in Machine Learning" 機械学習におけるハードウェア選択がモデルの性能と公平性に与える影響を調査。ハードウェア選択が既存の不均衡を悪化させる可能性を実証。
いい感じに興味がある論文は14件セレクトできました。どれも面白そうなので、精読が楽しみです。
おわりに
ということで以下14の論文をこれから紹介していきます。ただ普段から行っている最新論文の紹介も並行して行っていくので全て終わるのは時間がかかるかもしれません。
"Investigating Continual Pretraining Strategies for Large Language Models"
"When Less is More: Investigating Data Pruning for Large Language Model Pretraining"
"Efficient Methods for Natural Language Processing: A Survey"
"Exploring Low Rank Training of Deep Neural Networks"
"Studying the Impact of Magnitude Pruning on Representations Learned via Contrastive Learning"
"Lifting the Veil on Hyper-parameters in Value-based Deep Reinforcement Learning"
"Elo Uncovered: Investigating the Suitability of Elo Rating System for Language Model Evaluation"
"Large Language Models are not Zero Shot Communicators: Investigating Implicature Ability"
"BigScience: A Case Study of Large-Scale Participatory Research in AI"
"No News is Good News: Why the One Billion Word Benchmark is Ill-suited for Measuring Language Modeling Ability"
"Goodtriever: An Adaptive Toxicity Mitigation Method using Retrieval-Augmented Models"
"From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models from Single to Multilingual Settings"
"Language Models Don't Always Say What They Think: Demonstrating Misleading Explanations in Chain-of-Thought Prompting"
"On the Fairness Impacts of Hardware Selection in Machine Learning"
(補足)40の論文のひとこと要約(Claude 3 Opus作成)
"From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models from Single to Multilingual Settings" 言語モデルにおける毒性軽減の適用範囲を、単一言語から多言語設定に拡大する手法を提案。翻訳データを用いて評価・改善し、検索拡張型手法と微調整型手法を比較。
"Investigating Continual Pretraining Strategies for Large Language Models" 大規模言語モデルの継続的事前学習戦略を研究。ドメイン適応型事前学習に焦点を当て、適応性評価のための新ベンチマークを導入。
"Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback" 人間からのフィードバック学習のためのREINFORCEスタイル最適化を再検討。PPOの多くの要素が不要であり、より単純な手法がPPOやDPO、RAFTを上回ることを示す。
"Aya Dataset: A Large-Scale Multilingual Dataset for Instruction Tuning" 65言語に及ぶマルチリンガルな指示チューニング用のオープンアクセスデータセットを構築。自然な指示と完了例を収集し、最大規模の多言語コレクションを作成。
"Aya: A Large Multilingual Instruction-following Model outperforming mT0 and BLOOMZ" 101言語で指示に従う大規模マルチリンガル生成言語モデルAyaを導入。mT0やBLOOMZを上回る性能を示し、99言語での評価を拡張。
"On the Fairness Impacts of Hardware Selection in Machine Learning" 機械学習におけるハードウェア選択がモデルの性能と公平性に与える影響を調査。ハードウェア選択が既存の不均衡を悪化させる可能性を実証。
"Elo Uncovered: Investigating the Suitability of Elo Rating System for Language Model Evaluation" 言語モデル評価におけるEloレーティングシステムの適合性を調査。個々のElo計算がボラティリティを示し、信頼性と推移性の公理を満たさない場合があることを明らかにした。
"The Data Provenance Initiative: A Systematic Audit of Over 1800 Text Datasets" 1800以上のテキストデータセットの系統的監査を行い、出所、作成者、ライセンス条件などをトレース。商用オープンデータセットと非公開データセットの構成の違いを強調。
"Locally Differentially Private Document Generation via DP-Prompt" 事前学習済み大規模言語モデルとゼロショットプロンプティングを活用し、ローカル差分プライバシーを実現するDP-Promptを提案。下流タスクへの影響を最小限に抑えつつ、匿名化攻撃を軽減。
"Which Prompts Make The Difference? Efficient Human Evaluation of LLMs by Prioritizing Discriminative Instances" 複数のモデルを最も効果的に区別するデータインスタンスを優先することで、人間によるLLM評価の効率を最小限の注釈で向上させる手法を評価。
"Goodtriever: An Adaptive Toxicity Mitigation Method using Retrieval-Augmented Models" 検索拡張型モデルを用いた適応型毒性軽減手法Goodtrieverを提案。既存手法と同等の性能を維持しつつ、推論時の遅延を43%削減し、計算効率を向上。
"The Grand Illusion: Examining the Myth of Software Portability in Machine Learning Progress" 機械学習の進歩におけるソフトウェアの移植性の神話を調査。主要なMLフレームワークの移植性を大規模に調査し、特定のハードウェアソフトウェアの組み合わせから逸脱することのコストを明らかにした。
"Pushing Mixture of Experts to the Limit with Lightweight Experts" 専門家の混合(MoE)アーキテクチャと軽量な専門家を組み合わせた、極めてパラメータ効率の良いMoEを提案。厳しいパラメータ制約下でも堅牢な性能を発揮。
"When Less is More: Investigating Data Pruning for Large Language Model Pretraining" 大規模言語モデルの事前学習のためのデータ枝刈りを調査。単純な枝刈り手法であるパープレキシティが、より複雑な手法を上回ることを発見。
"The Presidio Recommendations on Responsible Generative AI Leadership" 2023年4月に開催された「生成型AIに関する責任あるリーダーシップのためのグローバルサミット」での、生成型AIシステムを責任を持って開発・管理するための30の行動指向の提言。
"Evaluating the Social Impact of Generative AI Systems: A Standardized Approach" 生成型AIシステムの社会的影響を評価するための標準的なアプローチを提案。基本システムと社会の両方で評価可能な特定のカテゴリーと方法を提示。
"Intriguing Properties of Quantization at Scale: Dependence on Optimization Conditions" 量子化によるパフォーマンスの低下は、スケールだけでなく最適化条件にも依存することを発見。量子化に適した学習レシピを最適化することで、大規模モデルの効率的な量子化が可能に。
"Language Models Don't Always Say What They Think: Demonstrating Misleading Explanations in Chain-of-Thought Prompting" 思考連鎖プロンプティングにおいて、言語モデルの説明が真の予測理由を体系的に誤表現する可能性を実証。偏向要素の影響を説明に述べないなど、説明が説得力があっても誤解を招く可能性がある。
"BigScience: A Case Study of Large-Scale Participatory Research in AI" 大規模多言語データセットROOTSと言語モデルBLOOMの構築に至った、1年半に及ぶ学際的な共同研究ワークショップBigScienceのケーススタディ。大規模参加型研究の課題と教訓を共有。
"Lifting the Veil on Hyper-parameters in Value-based Deep Reinforcement Learning" 価値ベースの深層強化学習における、しばしば見過ごされるハイパーパラメータの重要性を実証。古典的制御環境の多様なセットでハイパーパラメータの感度を調査。
"On the Challenges of Using Black-Box APIs for Toxicity Detection Research" 毒性の認識は時間とともに変化し、地域や文化的背景によって異なる。毒性検出のための市販のブラックボックスAPIを使用した研究の再現性への影響を評価。
"PASHA: Efficient Joint HPO and NAS with Progressive Resource Allocation" リソースを段階的に割り当てることで、ハイパーパラメータ最適化(HPO)とニューラルアーキテクチャ探索(NAS)を効率化するPASHAを提案。
"Efficient Methods for Natural Language Processing: A Survey" 自然言語処理における効率的な手法に関するサーベイ。限られたリソースでのNLPの実施に関するガイダンスと、より効率的な手法の開発に向けた有望な研究方向性を提示。
"MTEB: Massive Text Embedding Benchmark" テキスト埋め込みを評価するための大規模ベンチマーク「Massive Text Embedding Benchmark(MTEB)」を導入。8つの埋め込みタスクにまたがる58のデータセットと112の言語をカバー。
"Associative Memory Augmented Asynchronous Spatiotemporal Representation Learning for Efficient Event-based Perception" イベントカメラデータを非同期に処理するための、計算効率の良いイベントベースの表現学習フレームワークを提案。
"FAIR-Ensemble: Simple Homogeneous Ensembles Naturally Exhibit Fairness" 単純な同質アンサンブルでも、マイノリティグループのパフォーマンスが不釣り合いに向上し、公平性が自然に現れることを発見。アルゴリズムによる害を抑制するための強力なツールとなりうる。
"Intriguing Properties of Compression on Multilingual Models during Finetuning" 多言語事前学習済み言語モデルのファインチューニング時にスパース化することの影響を特徴づける実験フレームワークを提案。圧縮がモデルの堅牢性を向上させる可能性を発見。
"αNAS: Neural Architecture Search in an Abstract Space of Program Properties" プログラムプロパティの抽象検索空間でニューラルアーキテクチャ探索(NAS)を行うαNASを開発。ResNet-34から出発し、CIFAR-10ではパラメータを96%削減し、ImageNetではVision Transformer、ResNet-50、EfficientNetを上回る。
"Large Language Models are not Zero Shot Communicators: Investigating Implicature Ability" 大規模言語モデル(LLM)が含意(implicature)を行う能力を調査するためのシンプルなタスクを設計し、一連のモデルを評価。ほとんどのモデルがランダムに近い性能しか示さないことを発見。
"Improving Policy Learning via Language Dynamics Distillation" 言語記述を伴うデモンストレーションから環境ダイナミクスを予測するようにモデルを事前学習し、強化学習で微調整するLanguage Dynamics Distillation(LDD)を提案。
"Exploring Low Rank Training of Deep Neural Networks" 低ランクで深層ニューラルネットワークを学習することの利点を分析。GPT2などのモデルでの広範な消失実験を通じて、この分野の一般的な信念を否定する証拠を提示。
"Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt" モデルの一般化損失を最も減らすデータ点を近似的に選択するReducible Holdout Loss Selection(RHO-LOSS)を導入。学習可能で価値があり、まだ学習されていないデータ点を選択。
"Metadata Archaeology: A Unified Framework for Discovering and Inferring Example Metadata" データセットの例のメタデータを発見・推測するための統一的かつ効率的なフレームワーク「Metadata Archaeology」を提案。ラベル間違いの例の特定・修正、マイノリティグループのサンプルの分類などに対し、高度な緩和手法と同等の性能を達成。
"Interlocking Backpropagation: Improving Efficiency in Depthwise Model-Parallel Distributed Learning" 深さ方向のモデル並列分散学習における効率を改善する「Interlocking Backpropagation」を提案。ローカル最適化の計算効率の利点を保ちつつ、グローバル最適化によって達成されるタスクパフォーマンスの多くを回復。
"Studying the Impact of Magnitude Pruning on Representations Learned via Contrastive Learning" 対照学習で学習した表現に対する、異なる枝刈り手法の影響を調査。高いスパース性レベルでは、対照学習は誤分類の例が増加することを発見。
"Robust Distillation for Improving Worst-class Performance" 最悪クラスのパフォーマンス向上を目的とした知識蒸留手法を開発。教師と生徒モデルに堅牢な最適化目的を導入し、全体の精度と最悪クラスの目的のトレードオフを可能に。
"Scalable Training of Language Models using PAX pjit and TPUv4" 大規模言語モデルのスケーラブルな学習フレームワークの開発における課題と設計上の決定を探求。新しいソフトウェアとハードウェアソリューションの採用による効率の改善を定量的に分析。
"Mitigating Harm in Language Models with Conditional-Likelihood Filtration" 大規模な未フィルタリングデータセットで学習した言語モデルから有害なテキストをプログラム的に特定・除去する手法を提案。フィルタリングされたデータセットで学習したモデルは、有害テキストを生成する傾向が低下。
"No News is Good News: Why the One Billion Word Benchmark is Ill-suited for Measuring Language Modeling Ability"
One Billion Word Benchmarkは、ニュースの時間的性質と時間経過に伴う分布のシフトにより、言語モデリング能力の測定に不向きであると指摘。有害なテキストや時事ネタの陳腐化した参照を含むことを明らかに。"Predicting Twitter Engagement With Deep Language Models using User Interaction Graphs" ツイート間の意味的関連性に基づくグラフモデルを用いて、ユーザーエンゲージメントを予測するGraph Neural Network「TweetGage」を提案。高品質であることを実験的に実証。
(補足:)論文のグループ分け
大規模言語モデルの効率的な学習と最適化
Investigating Continual Pretraining in Large Language Models: Insights and Implications
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
Scalable Training of Language Models using PAX pjit and TPUv4
Exploring Low Rank Training of Deep Neural Networks
Efficient Methods for Natural Language Processing: A Survey
Associative Memory Augmented Asynchronous Spatiotemporal Representation Learning for Event-based Perception
Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt
Interlocking Backpropagation: Improving depthwise model-parallelism
Studying the Impact of Magnitude Pruning on Contrastive Learning Methods
Robust Distillation for Worst-class Performance
The Grand Illusion: The Myth of Software Portability and Implications for ML Progress
Intriguing Properties of Quantization at Scale
αNAS: Neural Architecture Search using Property Guided Synthesis
PASHA: Efficient HPO and NAS with Progressive Resource Allocation
言語モデルの応用
Lifting the Veil on Hyper-parameters for Value-based Deep Reinforcement Learning
Improving Policy Learning via Language Dynamics Distillation
Predicting Twitter Engagement With Deep Language Models
言語モデルの評価
Elo Uncovered: Robustness and Best Practices in Language Model Evaluation
Which Prompts Make The Difference? Data Prioritization For Efficient Human LLM Evaluation
MTEB: Massive Text Embedding Benchmark
Large Language Models are not Zero Shot Communicators
マルチリンガルデータセットとモデル
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
Intriguing Properties of Compression on Multilingual Models
BigScience: A Case Study in the Social Construction of a Multilingual Large Language Model
データセットの品質と由来
The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI
No News is Good News: A Critique of the One Billion Word Benchmark
Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics
言語モデルの毒性と安全性
From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models
Goodtriever: Adaptive Toxicity Mitigation with Retrieval-augmented Models
Mitigating Harm in Language Models with Conditional-Likelihood Filtration
On the Challenges of Using Black-Box APIs for Toxicity Evaluation in Research
生成AIと言語モデルの責任ある開発
The Presidio Recommendations on Responsible Generative AI - World Economic Forum
Evaluating the Social Impact of Generative AI Systems in Systems and Society
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
プライバシーと公平性
Locally Differentially Private Document Generation Using Zero Shot Prompting
On the Fairness Impacts of Hardware Selection in Machine Learning
FAIR-Ensemble: When Fairness Naturally Emerges From Deep Ensembling
この記事が気に入ったらサポートをしてみませんか?