記事一覧
7Bモデルをドメイン特化させる学習をLoRAとGaLoreで試し比較する
コーディングや医療など特定のドメインに特化させることで高い性能を発揮するモデルはドメイン特化モデルと呼ばれ、ベースモデルにドメインのコーパスを追加で学習させることで作成されます。
この図はベースモデルからドメイン特化のモデルを得るまでのフローです。本記事では赤枠で囲っている③のドメイン特化学習を試した内容を紹介します。
GaLoreについて2024/3に新しいLLMのファインチューニング手法G
e5-mistral-7bを蒸留して中程度の大きさの埋め込みモデルを学習する
2023/12にintfloatからintfloat/e5-mistral-7b-instructという、7BのLLMを埋め込み用にファインチューニングしたモデルがリリースされました。
このモデルは日本語の評価でもかなり優秀ですが、通常使われる埋め込みモデルと比べモデルサイズが大きく、使えるシーンは限られます。
使い勝手を向上させるために、もう少し小さいモデルに蒸留ができるかを試しました。
今
日本語モデルの長文QA性能の比較
現在2023/12/28ですが、最近Swallow-13b、nekomata-14b、ELYZA-japanese-Llama-2-13bといくつか13b級のモデルがリリースされました。
(モデルを公開してくださっている皆様、ありがとうございます!)
類似検索などで取得した文脈に対するQAやチャット(いわゆるRAG)に興味があり、長いコンテキストをうまく考慮できるかを調べてみました。
この検証
日本語LLMを物語実況用にファインチューニングして比較する
ノベルゲームやWeb小説などの物語コンテンツをAIと楽しむために、物語の段落を読んで実況的な感想を述べるモデルをファインチューニングで作れないか試しています。
GPT-3.5のプロンプトエンジニアリングによってロールプレイや実況を実現できますが、ローカルモデルを訓練することにも意味があります。
GPT-3.5には利用規約があり、いわゆる「職場での閲覧に適さない」コンテンツを扱えません。
物語には
end-to-endの文書画像認識モデルDonutをファインチューニングする
DonutはOCRを使わないend-to-endの文書理解モデルです。
Vision Encoder Decoder Modelになっており、OCRエンジンに依存せずに視覚的な文書分類や情報抽出を高い精度で行うことができます。
Donutは日本語を含む4言語で学習されたモデルnaver-clova-ix/donut-baseが公開されており、日本語で何かしたいときにファインチューニングして使えそ
gpt-index(0.2.5)をOpenAI APIなし&日本語で動かす
gpt-indexは長いコンテキストに対してQAを行えるフレームワークです。
デフォルトではOpenAIのAPIを利用するので無邪気に長いコンテキストに質問を投げているとすぐ数$の請求になって焦りますね。
今回はローカルでオープンな日本語モデルを使って動かす方法をご紹介します。
あくまで試みであり、正答率もいまひとつで実用性があるものではありませんが、学習データセットを作るコード、モデル学習コー
AIのための雀荘mjai.appにMjxのAgentを投稿する
前回の記事で、そこそこ戦えそうな麻雀AIのAgentを作ることができました。このAgentをAI雀荘に投稿してみようと思います。
実装AI雀荘(mjai.app)はMjxのAgentに対応しており、以下のリポジトリにMjxのサンプルが公開されています。
https://github.com/smly/mjai.app/tree/main/examples/shantenbot
このbot.p
日本語GPT(abeja/gpt-neox-japanese-2.7b)での文章生成を見て大規模コーパスの中身を想像する
ABEJAさんから2.7Bパラメータを持つGPTモデルがリリースされました。2022年9月中旬ごろに、HuggingFace Transformersでこのモデルを使えるようにするPRがマージされ、利用できるようになっています。
公開してくださった関係者の皆様、ありがとうございます!
これは2022年9月26時点で、HuggingFace Hubから利用できる中では最大の日本語生成モデルだと思