マガジンのカバー画像

大規模言語モデル(LLM)

34
運営しているクリエイター

#AIとやってみた

Gpt-3.5-turboレベルのLLMをローカルマシンで! Vicuna-13b-v1.1を試す。

By Papermaker - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=71995777 Vicunaは、ShareGPTから収集されたユーザー共有会話でLLaMAを微調整することによって訓練されたオープンソースのチャットボットです。バージョンがv0からv1.1になったことで、教師あり微調整損失の計算を修正してモデル品質を向上させたとのことです。 手順 手元のLLaM

グアナコってなに?Guanaco: LLaMA 7B に基づく多言語モデルを試す

特徴LLaMA 7B モデルに基づいて構築された高度な命令に従う言語モデル Alpaca モデルの最初の 52K データセットを拡張し、追加の 534K+ エントリでトレーニング実施 多言語対応:英語、簡体字中国語、繁体字中国語 (台湾)、繁体字中国語 (香港)、日本語、ドイツ語 システムプロンプトとの正確な外部知識の統合 マルチターン対話が可能 ライセンスはgpl-3.0 Text-generation web UIの modelsフォルダーにモデルをコピーして

さらにブラッシュアップされたVicuna「StableVicuna-13B」を試す

StableVicunaの概要非商用ライセンス 高いパフォーマンスを実現するために、Vicuna をベースモデルとして活用し、以下の3段階のRLHFパイプラインを採用して訓練しています。 具体的には、3つのデータセットを混合したものを用いて、ベースとなるVicuna モデルをさらに教師付き微調整(SFT)により訓練しています: OpenAssistant Conversations Dataset (OASST1)は、人間が生成し、人間が注釈を付けたアシスタントスタイルの

MPT-7B-StoryWriter-65k+を走らせてみる

今回は商用利用可能なLLMとして公開された、MPT-7Bのうちトークン数が大きいフィクションストーリーを読み書きするために設計されたモデルMPT-7B-StoryWriter-65k+をGoogle Colabで動かしてみました。 今回試したモデルMPT-7B-StoryWriterは、2048のシーケンス長のMPT-7を65k トークンのコンテキスト長で 微調整することによって構築されたおり、推論時にALiBiを利用すると65k トークンを超えても推論を実行できるそうです

プログラミング言語に特化したLLM 🌟StarCoderを試食してみた

試食方法コード作成に特化したLLMとして公表されたStarCoderというモデルをText-generation-webuiを使っただけの、お気楽な方法で試食してみました。 実行環境 Windows11 - WSL2 RAM 128GB GPU 24GB(RTX3090) 準備手順 Hugging FaceのページからStarCoderモデルをまるっとダウンロード。なお、使用許諾の合意が必要なので、webui内蔵のモデルのダウンロード機能は使えないようです。 ダ