マガジンのカバー画像

大規模言語モデル(LLM)

36
運営しているクリエイター

2023年6月の記事一覧

最大16k トークンをサポートするLongChat-7B/13B

LMSYSが最大16kトークンのコンテキストに対応し、Long-rangeトピック検索タスクにおいて、高い性能を示すオープンソースのチャットボットモデル LongChat-7B/13Bが公開していました。以下ブログ記事で概要が紹介されています。またモデル公開にあわせて、ロングコンテキスト機能を検証するための評価ツール LongEval によるベンチマークも提案されています。 自分の勉強のため、ざっとモデル学習方法とベンチマーク結果の部分をざっとまとめました。読み飛ばした部分

商用LLMに肉薄する「vicuna-33b-v1.3」と、チャットLLM用のベンチマーク手法の話題

今まで13bサイズが最大だった Vicuna の33bのウェイトが公開されました。 また、主要なモデルとのベンチマーク結果も公表されています。 ベンチマーク結果ここで、見慣れないMT-benchという評価指標がありますが、Vicuna-33Bのブログ報告によれば、人間の好みにより則したチャットボットLLM のベンチマークとのことです。大規模言語モデル(LLM)のパフォーマンスを評価するためのいくつかのベンチマークが存在しますが、これらのベンチマークはLLMの人間の好みを評価

論文紹介: クラスタに分割して効率的にLLMを訓練(c-BTM法)

Twitterのタイムラインで少し話題になっていた、Meta AIのメンバー主体で書かれた以下論文を、(話題についていきたいので😊)超ななめ読みしてみました。 1.概要通常、大規模言語モデルをトレーニングする場合、数千のGPU上の数十億のすべてのパラメータを同期させる必要があるため大きなコストが必要。 この解決策として、テキストコーパスを関連するドキュメントのセットに分割し、それぞれに対して独立した言語モデル(専門家モデル:Expert Language Models,

GPT4はMITの数学とCSの学位取得レベルの知識を持つ可能性がある

以下の論文が面白そうだったので、概要をななめ読みしてみました。 1.概要MITの学士号取得に必要な、数学、電気工学、およびコンピューターサイエンスの中間試験、期末試験の 4,550 問の問題と解答の包括的なデータセットを使用。 gpt-3.5はMITカリキュラムの1/3程度しか正解できませんでしたが(これでは落第ですね)、一方、gpt-4は、画像に基づく問題を除けば、すべての問題に正解できる能力が確認されました。(これなら主席卒業できるかもしれませんね!?) 今回の検討

gpt-3.5-turbo-16kで要約文を作成

以前、長めの英語のyoutube動画の音声を文字起こししてから、langchainで要約文を作成することを試みました。 gpt-3.5-turboのコンテキスト長の制限4kのため、あらかじめ適当なサイズにテキストを分割して中間要約したのちに、全体の要約文を生成していましたが、gpt-3.5-turbo-16kが公開され、コンテキスト長が4倍の16k!になったので、ケチケチせず一気にぶっこむ作戦で要約文を作成してみます。 というわけで、Apple WWDC2023の基調講演

WizardLM - より複雑な命令を自己生成して能力向上 Evol-Instruct

Evol-Instructという学習データ生成のアイデアを用いて、自己生成したデータでファインチューニングした「WizardLM」の紹介論文と、GitHubのREADME.mdをななめ読みしてみました。 LLaMAのファインチューニング系の高性能なLLMには、先日試してみたairobos-13bなどがありますが、airobosの場合は gpt-4 を蒸留して、いわば劣化コピーをつくっている感じなのに対して、こちらはEvol-Instruct のアイデアを使って自力で能力向上

airoboros: GPT-4で作成した学習データで微調整した大規模言語モデル(ほぼgpt-3.5-turbo)

Self-Instructの手法でGPT-4を使用して生成された学習データを使って、ファインチューニングされたLlaMA-13b/7bモデルが公表されていました。 モデルの概要Self-Instructの手法でgpt-4、またはgpt-3.5-turboを用いて、人間が生成したシードを含まず学習データセットを作成(OpenAIライセンスの対象) airoboros-gpt4 airoboros-gpt3.5-turbo gpt-4で作成されたトレーニングデータで、Ll

rinna社からLangChainのAgent動作に特化したvicuna-13bモデル

rinna社から、先日の日本語特化のGPT言語モデルの公開に引き続き、今度はLangChainをサポートするvicuna-13bモデルが公開されました。 日本語がとても流暢な、rinna/japanese-gpt-neox-3.6b-instruction-ppo と、論理的な推論に強いモデルを組み合わせることを提案してくれているのだと思います。痒い所に手が届くというか…。流石です。 というわけで、早速ためしてみます!😊 1.モデルの概要vicuna-13b-delta

rinna-3.6b-instraction-ppoと会話する簡易プログラム 【Colab無料枠でも動きます】

超シンプルな「rinna-3.6b-instraction-ppo」と会話できるプログラムを掲載します。 google colab の無料枠のGPU(T4)でも動きますし、お手元のゲーミングPC、ゲーミングノートでも十分動くと思いますので、興味がある方はぜひ、お試しいただければ。 GPUメモリサイズに応じて、model読み込みのオプションを、指定なし、load_in_4bit=True, load_in_8bit=True,  torch_dtype=torch.floa