記事一覧
xgenでJGLUEを試す
日本語ベンチマークとしてJGLUE(JP Language Model Evaluation Harness)が提案されている。
以下のリポジトリで簡単に試せそうだったので試してみる。
xgenをqloraさせたので、他の日本語モデルと比較してみる
xgen-7b-8k-baseをdolly-jaで学習 (https://huggingface.co/Salesforce/xgen-7b-8
local llmでsentence embeddingどれ使えば良いんだっけ
最近の日本語喋れるLLMでそのままsentence embeddingしても良いんだっけ?そもそもどうやってsentence embeddingしてるんだっけ?と思っていたので調べてみた。
単語単位のembeding実装はsentence tranfomerが参考になる。
sentence transfomerでない場合やbertのclsトークンを持たない場合は、単語embeddingを足し合
CTranslate2でrinna instructionをquantizeして動かす
これまでquantizeはllama.cppを使っていたが、GPUを使えなかったのでCTranslate2を使ってみた。
CTranslate2はtransfomer modelのメモリを削減、高速化を行うライブラリ
C++で実装されており、pythonからC++を呼び出している。document通りinstallすると、GPUも利用してくれる。
いろんなモデルが対応している
instal
rinna 3Bをcppで動かす
rinnaをcppで動かせるように色々試して見ました。
instructionもあり、そのままlangchainなどに突っ込んでも動かせそうです。
ローカルで色々試したいのでcppしようと試してみました。
実行環境は、colab T4 ハイメモリ
コード的な動作をさせただけです。
量子化はあまり追いつけてないので、色々と間違っていればツッコミお願いします。
調査以下で中身を確認
from
VicunaでReActっぽいことを試してみる
はじめにローカル環境でVicunaを動かしReActっぽいことを試してみる。正確には違うので注意
ReActは、Thought、Action、Observationをループさせ、LLMの出力の精度上げる手法
ReActの処理の流れは以下のような形。
与えられた質問(Question)に対し、
Thoughtで質問をどのように解決するかの思考を行い、
Actionでツールを選択する
選択