マガジンのカバー画像

大規模言語モデル(LLM)

34
運営しているクリエイター

2023年5月の記事一覧

MPT-7B-StoryWriter-65k+を走らせてみる

今回は商用利用可能なLLMとして公開された、MPT-7Bのうちトークン数が大きいフィクションストーリーを読み書きするために設計されたモデルMPT-7B-StoryWriter-65k+をGoogle Colabで動かしてみました。 今回試したモデルMPT-7B-StoryWriterは、2048のシーケンス長のMPT-7を65k トークンのコンテキスト長で 微調整することによって構築されたおり、推論時にALiBiを利用すると65k トークンを超えても推論を実行できるそうです

プログラミング言語に特化したLLM 🌟StarCoderを試食してみた

試食方法コード作成に特化したLLMとして公表されたStarCoderというモデルをText-generation-webuiを使っただけの、お気楽な方法で試食してみました。 実行環境 Windows11 - WSL2 RAM 128GB GPU 24GB(RTX3090) 準備手順 Hugging FaceのページからStarCoderモデルをまるっとダウンロード。なお、使用許諾の合意が必要なので、webui内蔵のモデルのダウンロード機能は使えないようです。 ダ

ChatGPTのブラウジング機能を試してみた。 (Bing、Bardとの比較も)

最近もっぱらChatGPTはweb版を使っておらず、APIやローカルPC上のオープンソースLLM(Vicuna-13Bなど)で遊ぶことが増えていたので、ChatGPT web版の継続手続きを取りやめていたのですが、今朝ふと見ると、ブラウジング機能が有効になっているでは、ありませんか! というわけで、早速、試してみます。いい感じの回答が得られました。さて、次ためします。 では、少し新しめの情報を聞いてみましょう。 他のAIサービスと、回答内容を比べてみましょう。 現時点

RNNとTransformerの要素を組み合わせた新しいアーキテクチャ: RWKVとは?

自分の勉強のために、RWKVの論文前半の仕組みの解説部分を、要約してみました。Transformerの考え方を踏襲しつつ、RNNのアイデアを取り入れたRWKVについて雰囲気をお伝えできれば幸いです。 なお、大事な論点の書き忘れ、認識間違いなどぜひコメントください。 背景・概要トランスフォーマー技術は、ほぼ全ての自然言語処理(NLP)タスクを革新しましたが、取り扱うトークン数が長くなるほど、計算量・メモリへの負担が二乗に比例して急増する問題点がありました。 これに対して、従

LLMでもLoRA。算術強化Goat-lora-7bを試す

画像生成AIのStable Diffusionでは、LoRA(Low-Rank Adaptation)という少ない計算量でファインチューニングする手法が広まっているようです。 LLMをお手軽に試せるアプリ「Text generation web UI」にも、LoRA(s)という設定項目があり気になっていたところ、ちょうどLoRAを適用したモデル関する記事が目にとまったので、試してみることにしました。 Goatなんでも、LLaMAを微調整したGoatは、算術タスクでGPT-

Guanaco-33b / ChatGPTの99%の性能のチャットAIがローカルPCで動く!?

ツイッターのタイムラインを眺めていると、QLoRAという手法を使って16ビットのファインチューニングの性能を維持しながら4bit量子化することで、単一GPUによるトレーニングで、ChatGPTの99%の性能を達成したという投稿を見かけました。 というわけで、早速ためしてみます! 手元のPCのRTX3090でギリギリ動きそうなサイズのGuanaco-33bは、LLaMAのLoRAモデルのほか、本体のLLaMA-33B にマージ済みのモデルも公開されていたので、今回はこちらを試

rinna社が日本語特化の対話GPT言語モデルを公開! VRAM6GBあれば動くかも。

rinna社から、日本語に特化した強化学習済みの「対話GPT言語モデル:rinna/japanese-gpt-neox-3.6b-instruction-ppo」をオープンソースで公開したとの大ニュースがありましたので、早速ためしてみます!😀 無料のGoogle Colabで動くお試し用の簡易プログラムも作ってみましたので、ぜひお試しください。 1.モデル特徴(プレス文から)36億パラメータ(3.6B)を持つ汎用GPT言語モデルをベースに、対話GPT言語モデルへのfine