大規模言語モデル（LLM）

1(.58)ビット量子化LLMs(BitNet b1.58）について

Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ（重み）を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。同じモデルサイズとトレーニングトークンを持つ全精度（FP16またはBF16）のTransformer LL

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

大規模言語モデルにおける人工ニューロンの挙動をテーマにした以下論文が面白かったので、ざっくり目についたキーワードを抜き出してみました。理解不足など多分にあると思いますので、興味を持たれた方は、ぜひ原文をご確認ください。概要LLMの内部構造を理解するため、パラメータの異なる125Mから66BまでのMeta社のOPTファミリーのモデル内部の人工ニューロンの挙動を分析したキーワード活性化しないニューロン（Dead Neurons）ネットワークの入力部付近の層では、多

東大×生成AIシンポジウム第１部「生成AIが切り拓く未来」

先日2023年7月4日に開催された、東大×生成AIシンポジウム第１部のパネルディスカッション「生成AIが切り拓く未来と日本の展望」が面白かったので、個人的に興味をひいた論点を抜き出して要約してみました。１時間弱ですが、とても興味深い議論もありましたので、お時間があるかたはぜひリンク先をご確認ください。 https://www.t.u-tokyo.ac.jp/ev2023-07-04 テーマ１: 生成AIで世界はどう変わるのか水晶玉に未来を聞くかようなAGIの世界が1

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す

StableVicunaの概要非商用ライセンス高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整（SFT）により訓練しています： OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの

MPT-7B-StoryWriter-65k+を走らせてみる

今回は商用利用可能なLLMとして公開された、MPT-7Bのうちトークン数が大きいフィクションストーリーを読み書きするために設計されたモデルMPT-7B-StoryWriter-65k＋をGoogle Colabで動かしてみました。今回試したモデルMPT-7B-StoryWriterは、2048のシーケンス長のMPT-7を65k トークンのコンテキスト長で微調整することによって構築されたおり、推論時にALiBiを利用すると65k トークンを超えても推論を実行できるそうです

プログラミング言語に特化したLLM 🌟StarCoderを試食してみた

試食方法コード作成に特化したLLMとして公表されたStarCoderというモデルをText-generation-webuiを使っただけの、お気楽な方法で試食してみました。実行環境 Windows11 - WSL2 RAM 128GB GPU 24GB(RTX3090) 準備手順 Hugging FaceのページからStarCoderモデルをまるっとダウンロード。なお、使用許諾の合意が必要なので、webui内蔵のモデルのダウンロード機能は使えないようです。ダ

ChatGPTのブラウジング機能を試してみた。（Bing、Bardとの比較も）

最近もっぱらChatGPTはweb版を使っておらず、APIやローカルPC上のオープンソースLLM（Vicuna-13Bなど）で遊ぶことが増えていたので、ChatGPT web版の継続手続きを取りやめていたのですが、今朝ふと見ると、ブラウジング機能が有効になっているでは、ありませんか！というわけで、早速、試してみます。いい感じの回答が得られました。さて、次ためします。では、少し新しめの情報を聞いてみましょう。他のAIサービスと、回答内容を比べてみましょう。現時点

Guanaco-33b / ChatGPTの99%の性能のチャットAIがローカルPCで動く!?

ツイッターのタイムラインを眺めていると、QLoRAという手法を使って16ビットのファインチューニングの性能を維持しながら4bit量子化することで、単一GPUによるトレーニングで、ChatGPTの99%の性能を達成したという投稿を見かけました。というわけで、早速ためしてみます！手元のPCのRTX3090でギリギリ動きそうなサイズのGuanaco-33bは、LLaMAのLoRAモデルのほか、本体のLLaMA-33B にマージ済みのモデルも公開されていたので、今回はこちらを試

フォローしませんか？

#AI

1(.58)ビット量子化LLMs(BitNet b1.58）について

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

東大×生成AIシンポジウム第１部「生成AIが切り拓く未来」

最大16k トークンをサポートするLongChat-7B/13B

さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す

MPT-7B-StoryWriter-65k+を走らせてみる

プログラミング言語に特化したLLM 🌟StarCoderを試食してみた

ChatGPTのブラウジング機能を試してみた。（Bing、Bardとの比較も）

Guanaco-33b / ChatGPTの99%の性能のチャットAIがローカルPCで動く!?

大規模言語モデル（LLM）

フォローしませんか？

#AI

1(.58)ビット量子化LLMs(BitNet b1.58）について

【論文紹介】大規模言語モデルにおけるニューロンの挙動について

東大×生成AIシンポジウム 第１部「生成AIが切り拓く未来」

最大16k トークンをサポートするLongChat-7B/13B

さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す

MPT-7B-StoryWriter-65k+を走らせてみる

プログラミング言語に特化したLLM 🌟StarCoderを試食してみた

ChatGPTのブラウジング機能を試してみた。 （Bing、Bardとの比較も）

Guanaco-33b / ChatGPTの99%の性能のチャットAIがローカルPCで動く!?

東大×生成AIシンポジウム第１部「生成AIが切り拓く未来」

ChatGPTのブラウジング機能を試してみた。（Bing、Bardとの比較も）