Tandem Transformers for Inference Efficient LLMs

2024年2月19日 14:50

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

論文タイプ：原著論文
掲載誌：不明

本研究の背景と関連研究：
従来の大規模言語モデル（LLMs）は、自己回帰的な性質を持っており、トークンが順次生成されるため、推論速度が制限されるという問題があります。この問題を緩和するために、推測的なデコーディング技術や並列処理技術が提案されてきましたが、いずれも制約があります。推測的なデコーディングでは、より正確性の低い小さなモデルを使用するか、基本となるLLMの表現を十分に活用できません。

本研究の目的とその重要性：
本研究では、これらの問題に対処するために、新しいアーキテクチャであるTandem transformersを提案します。このアーキテクチャは、(1) 小さな自己回帰モデルと、(2) 複数のトークンを同時に処理する大規模モデルを組み合わせています。小さなモデルは、大規模モデルの豊富な表現に注意を払うことで予測精度が大幅に向上します。PaLM2の事前学習データセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムモデルは、単独のPaLM2-Geckoに比べて次のトークン予測の精度が3.3%向上し、PaLM2-Otterモデルと同等のダウンストリームパフォーマンスを提供しながら、1.16倍の高速化を実現します。さらに、大規模モデルが小さなモデルのトークンを検証する推測的デコーディング（SPEED）フレームワークにタンデムモデルを組み込むことで、タンデムのPaLM2-BisonとPaLM2-Geckoは、バニラのPaLM2-Geckoを使用する場合と比較して、大幅な高速化（SPEEDで約1.14倍速い）を実現しながら、同じダウンストリームタスクの精度を維持します。

本研究で用いた材料やデータの詳細：
本研究では、PaLM2-BisonとPaLM2-Geckoというモデルを使用しました。これらは、PaLM2の事前学習データセットで評価されました。

本研究で何をどのように、どこまで明らかにした？
本研究では、Tandem transformersという新しいアーキテクチャを提案しました。このアーキテクチャは、小さな自己回帰モデルと大規模モデルを組み合わせることで、推論速度の向上を図ります。具体的には、小さなモデルに大規模モデルの表現を活用させることで予測精度を向上させました。また、PaLM2の事前学習データセットを用いて、タンデムのPaLM2-BisonとPaLM2-Geckoが単独のPaLM2-Geckoに比べて次のトークン予測の精度が向上し、高速化が実現できることを明らかにしました。

本研究の有効性はどのように検証した？
本研究では、PaLM2の事前学習データセットを使用して、タンデムのPaLM2-BisonとPaLM2-Geckoが次のトークン予測の精度を向上させ、高速化が実現できることを示しました。また、大規模モデルが小さなモデルのトークンを検証する推測的デコーディング（SPEED）フレームワークに組み込むことで、高速化を実現しながらも同じダウンストリームタスクの精度を維持できることも示しました。

効果的なキーワードの提案：

この記事が気に入ったらサポートをしてみませんか？