マガジンのカバー画像

大規模言語モデル(LLM)

34
運営しているクリエイター

#AIの活かし方

商用LLMに肉薄する「vicuna-33b-v1.3」と、チャットLLM用のベンチマーク手法の話題

今まで13bサイズが最大だった Vicuna の33bのウェイトが公開されました。 また、主要なモデルとのベンチマーク結果も公表されています。 ベンチマーク結果ここで、見慣れないMT-benchという評価指標がありますが、Vicuna-33Bのブログ報告によれば、人間の好みにより則したチャットボットLLM のベンチマークとのことです。大規模言語モデル(LLM)のパフォーマンスを評価するためのいくつかのベンチマークが存在しますが、これらのベンチマークはLLMの人間の好みを評価

gpt-3.5-turbo-16kで要約文を作成

以前、長めの英語のyoutube動画の音声を文字起こししてから、langchainで要約文を作成することを試みました。 gpt-3.5-turboのコンテキスト長の制限4kのため、あらかじめ適当なサイズにテキストを分割して中間要約したのちに、全体の要約文を生成していましたが、gpt-3.5-turbo-16kが公開され、コンテキスト長が4倍の16k!になったので、ケチケチせず一気にぶっこむ作戦で要約文を作成してみます。 というわけで、Apple WWDC2023の基調講演

WizardLM - より複雑な命令を自己生成して能力向上 Evol-Instruct

Evol-Instructという学習データ生成のアイデアを用いて、自己生成したデータでファインチューニングした「WizardLM」の紹介論文と、GitHubのREADME.mdをななめ読みしてみました。 LLaMAのファインチューニング系の高性能なLLMには、先日試してみたairobos-13bなどがありますが、airobosの場合は gpt-4 を蒸留して、いわば劣化コピーをつくっている感じなのに対して、こちらはEvol-Instruct のアイデアを使って自力で能力向上

airoboros: GPT-4で作成した学習データで微調整した大規模言語モデル(ほぼgpt-3.5-turbo)

Self-Instructの手法でGPT-4を使用して生成された学習データを使って、ファインチューニングされたLlaMA-13b/7bモデルが公表されていました。 モデルの概要Self-Instructの手法でgpt-4、またはgpt-3.5-turboを用いて、人間が生成したシードを含まず学習データセットを作成(OpenAIライセンスの対象) airoboros-gpt4 airoboros-gpt3.5-turbo gpt-4で作成されたトレーニングデータで、Ll

rinna社からLangChainのAgent動作に特化したvicuna-13bモデル

rinna社から、先日の日本語特化のGPT言語モデルの公開に引き続き、今度はLangChainをサポートするvicuna-13bモデルが公開されました。 日本語がとても流暢な、rinna/japanese-gpt-neox-3.6b-instruction-ppo と、論理的な推論に強いモデルを組み合わせることを提案してくれているのだと思います。痒い所に手が届くというか…。流石です。 というわけで、早速ためしてみます!😊 1.モデルの概要vicuna-13b-delta

Gpt-3.5-turboレベルのLLMをローカルマシンで! Vicuna-13b-v1.1を試す。

By Papermaker - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=71995777 Vicunaは、ShareGPTから収集されたユーザー共有会話でLLaMAを微調整することによって訓練されたオープンソースのチャットボットです。バージョンがv0からv1.1になったことで、教師あり微調整損失の計算を修正してモデル品質を向上させたとのことです。 手順 手元のLLaM

さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す

StableVicunaの概要非商用ライセンス 高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。 具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整(SFT)により訓練しています: OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの

MPT-7B-StoryWriter-65k+を走らせてみる

今回は商用利用可能なLLMとして公開された、MPT-7Bのうちトークン数が大きいフィクションストーリーを読み書きするために設計されたモデルMPT-7B-StoryWriter-65k+をGoogle Colabで動かしてみました。 今回試したモデルMPT-7B-StoryWriterは、2048のシーケンス長のMPT-7を65k トークンのコンテキスト長で 微調整することによって構築されたおり、推論時にALiBiを利用すると65k トークンを超えても推論を実行できるそうです

プログラミング言語に特化したLLM 🌟StarCoderを試食してみた

試食方法コード作成に特化したLLMとして公表されたStarCoderというモデルをText-generation-webuiを使っただけの、お気楽な方法で試食してみました。 実行環境 Windows11 - WSL2 RAM 128GB GPU 24GB(RTX3090) 準備手順 Hugging FaceのページからStarCoderモデルをまるっとダウンロード。なお、使用許諾の合意が必要なので、webui内蔵のモデルのダウンロード機能は使えないようです。 ダ

ChatGPTのブラウジング機能を試してみた。 (Bing、Bardとの比較も)

最近もっぱらChatGPTはweb版を使っておらず、APIやローカルPC上のオープンソースLLM(Vicuna-13Bなど)で遊ぶことが増えていたので、ChatGPT web版の継続手続きを取りやめていたのですが、今朝ふと見ると、ブラウジング機能が有効になっているでは、ありませんか! というわけで、早速、試してみます。いい感じの回答が得られました。さて、次ためします。 では、少し新しめの情報を聞いてみましょう。 他のAIサービスと、回答内容を比べてみましょう。 現時点

RNNとTransformerの要素を組み合わせた新しいアーキテクチャ: RWKVとは?

自分の勉強のために、RWKVの論文前半の仕組みの解説部分を、要約してみました。Transformerの考え方を踏襲しつつ、RNNのアイデアを取り入れたRWKVについて雰囲気をお伝えできれば幸いです。 なお、大事な論点の書き忘れ、認識間違いなどぜひコメントください。 背景・概要トランスフォーマー技術は、ほぼ全ての自然言語処理(NLP)タスクを革新しましたが、取り扱うトークン数が長くなるほど、計算量・メモリへの負担が二乗に比例して急増する問題点がありました。 これに対して、従

LLMでもLoRA。算術強化Goat-lora-7bを試す

画像生成AIのStable Diffusionでは、LoRA(Low-Rank Adaptation)という少ない計算量でファインチューニングする手法が広まっているようです。 LLMをお手軽に試せるアプリ「Text generation web UI」にも、LoRA(s)という設定項目があり気になっていたところ、ちょうどLoRAを適用したモデル関する記事が目にとまったので、試してみることにしました。 Goatなんでも、LLaMAを微調整したGoatは、算術タスクでGPT-

Guanaco-33b / ChatGPTの99%の性能のチャットAIがローカルPCで動く!?

ツイッターのタイムラインを眺めていると、QLoRAという手法を使って16ビットのファインチューニングの性能を維持しながら4bit量子化することで、単一GPUによるトレーニングで、ChatGPTの99%の性能を達成したという投稿を見かけました。 というわけで、早速ためしてみます! 手元のPCのRTX3090でギリギリ動きそうなサイズのGuanaco-33bは、LLaMAのLoRAモデルのほか、本体のLLaMA-33B にマージ済みのモデルも公開されていたので、今回はこちらを試

rinna-3.6b-instraction-ppoと会話する簡易プログラム 【Colab無料枠でも動きます】

超シンプルな「rinna-3.6b-instraction-ppo」と会話できるプログラムを掲載します。 google colab の無料枠のGPU(T4)でも動きますし、お手元のゲーミングPC、ゲーミングノートでも十分動くと思いますので、興味がある方はぜひ、お試しいただければ。 GPUメモリサイズに応じて、model読み込みのオプションを、指定なし、load_in_4bit=True, load_in_8bit=True, torch_dtype=torch.floa