マガジンのカバー画像

大規模言語モデル(LLM)

36
運営しているクリエイター

#AI

1(.58)ビット量子化LLMs(BitNet b1.58)について

Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ(重み)を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2​(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。 同じモデルサイズとトレーニングトークンを持つ全精度(FP16またはBF16)のTransformer LL

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。 理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。 概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析した キーワード活性化しないニューロン(Dead Neurons) ネットワークの入力部付近の層では、多

東大×生成AIシンポジウム 第1部「生成AIが切り拓く未来」

先日2023年7月4日に開催された、東大×生成AIシンポジウム 第1部のパネルディスカッション「生成AIが切り拓く未来と日本の展望」が面白かったので、個人的に興味をひいた論点を抜き出して要約してみました。 1時間弱ですが、とても興味深い議論もありましたので、お時間があるかたはぜひリンク先をご確認ください。 https://www.t.u-tokyo.ac.jp/ev2023-07-04 テーマ1: 生成AIで世界はどう変わるのか水晶玉に未来を聞くかようなAGIの世界が1

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。 自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す

StableVicunaの概要非商用ライセンス 高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。 具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整(SFT)により訓練しています: OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの

MPT-7B-StoryWriter-65k+を走らせてみる

今回は商用利用可能なLLMとして公開された、MPT-7Bのうちトークン数が大きいフィクションストーリーを読み書きするために設計されたモデルMPT-7B-StoryWriter-65k+をGoogle Colabで動かしてみました。 今回試したモデルMPT-7B-StoryWriterは、2048のシーケンス長のMPT-7を65k トークンのコンテキスト長で 微調整することによって構築されたおり、推論時にALiBiを利用すると65k トークンを超えても推論を実行できるそうです

プログラミング言語に特化したLLM 🌟StarCoderを試食してみた

試食方法コード作成に特化したLLMとして公表されたStarCoderというモデルをText-generation-webuiを使っただけの、お気楽な方法で試食してみました。 実行環境 Windows11 - WSL2 RAM 128GB GPU 24GB(RTX3090) 準備手順 Hugging FaceのページからStarCoderモデルをまるっとダウンロード。なお、使用許諾の合意が必要なので、webui内蔵のモデルのダウンロード機能は使えないようです。 ダ

ChatGPTのブラウジング機能を試してみた。 (Bing、Bardとの比較も)

最近もっぱらChatGPTはweb版を使っておらず、APIやローカルPC上のオープンソースLLM(Vicuna-13Bなど)で遊ぶことが増えていたので、ChatGPT web版の継続手続きを取りやめていたのですが、今朝ふと見ると、ブラウジング機能が有効になっているでは、ありませんか! というわけで、早速、試してみます。いい感じの回答が得られました。さて、次ためします。 では、少し新しめの情報を聞いてみましょう。 他のAIサービスと、回答内容を比べてみましょう。 現時点

Guanaco-33b / ChatGPTの99%の性能のチャットAIがローカルPCで動く!?

ツイッターのタイムラインを眺めていると、QLoRAという手法を使って16ビットのファインチューニングの性能を維持しながら4bit量子化することで、単一GPUによるトレーニングで、ChatGPTの99%の性能を達成したという投稿を見かけました。 というわけで、早速ためしてみます! 手元のPCのRTX3090でギリギリ動きそうなサイズのGuanaco-33bは、LLaMAのLoRAモデルのほか、本体のLLaMA-33B にマージ済みのモデルも公開されていたので、今回はこちらを試