Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。
「Google Colab」で「Xwin-LM-70B-V0.1-GPTQ」を試したので、まとめました。
1. Xwin-LM-70B-V0.1-GPTQ
「Xwin-LM」は、ベンチマーク「AlpacaEval」で「GPT-4」を追い抜き1位を獲得したモデルです。
今回は、「TheBloke/Xwin-LM-70B-V0.1-GPTQ」を利用します。
2. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) Colabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」の「A100」を選択。
(2) パッケージのインストール。
GPTQを利用するため、「auto-gptq 」もインストールしています。
# パッケージのインストール
!pip install transformers>=4.32.0 optimum>=1.12.0
!pip install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # Use cu117 if on CUDA 11.7
(3) トークナイザーとモデルの準備。
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# トークナイザーとモデルの準備
tokenizer = AutoTokenizer.from_pretrained(
"TheBloke/Xwin-LM-70B-V0.1-GPTQ",
use_fast=True
)
model = AutoModelForCausalLM.from_pretrained(
"TheBloke/Xwin-LM-70B-V0.1-GPTQ",
device_map="auto",
trust_remote_code=False,
revision="main"
)
(4) 質問応答。
# プロンプトの準備
prompt = """### Instruction:
まどか☆マギカで誰が一番かわいい?
### Response:
"""
# 推論の実行
with torch.no_grad():
token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
output_ids = model.generate(
token_ids.to(model.device),
temperature=0.7,
do_sample=True,
top_p=0.95,
top_k=40,
max_new_tokens=256,
)
output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True)
print(output)
この記事が気に入ったらサポートをしてみませんか?