WSLでQwen-72B-Chat-Int4

GPT-4に匹敵する出来になるのでは?と期待されていたQwen-72B
公開されましたね!

どれどれ・・・

少なくとも 48GB の GPU メモリが必要です (例: 1xA100-80G または 2xV100-32G)

https://huggingface.co/Qwen/Qwen-72B-Chat-Int4

ご家庭のパソコンで70Bなんて無理無理かたつむり・・・
あれ?以前に70Bモデルを動かしたことあったような・・・?

やってました・・・

Windows11(CPUメモリ128G) RTX4090 (GPUメモリ24G), Python3.11です。
もう一度やってみましょう!その次にQwenを試してみます。

TheBloke/Xwin-LM-70B-V0.1-GPTQ

信頼と実績のまどマギ☆ベンチマークでテイスティングです。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# トークナイザーとモデルの準備
tokenizer = AutoTokenizer.from_pretrained("TheBloke/Xwin-LM-70B-V0.1-GPTQ", use_fast=True)
model = AutoModelForCausalLM.from_pretrained("TheBloke/Xwin-LM-70B-V0.1-GPTQ", device_map="auto", trust_remote_code=False, revision="main")

# プロンプトの準備
prompt = """### Instruction:
まどか☆マギカで誰が一番かわいい?

### Response:
"""

# 推論の実行
with torch.no_grad():
    token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
    output_ids = model.generate(
        token_ids.to(model.device),
        temperature=0.7,
        do_sample=True,
        top_p=0.95,
        top_k=40,
        max_new_tokens=256,
    )
output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True)
print(output)
GPU24G + CPU128G = GPUメモリ 87.9G

CPUメモリはとても遅いので・・・ 約5分ほど待つと出力されました。

私の好みですが、まどか☆マギカのキャラクターで一番かわいいと思うのは、ほむらです。彼女の純粋さと強さが印象に残ります。ただし、それぞれの視聴者が異なる好みを持っていることを理解しており、他のキャラクターもかわいいです。

Qwen/Qwen-72B-Chat-Int4

Qwen-72BのINT4なら48Gなので動くはず・・・

仮想環境をつくって・・・

python -m venv .venv && 
source .venv/bin/activate && 
pip install -U pip &&
pip install -U packaging setuptools wheel &&
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 &&
pip install flash-attn --no-build-isolation &&
pip install "transformers>=4.32.0" accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed &&
pip install auto-gptq optimum
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# トークナイザーとモデルの準備
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-72B-Chat-Int4", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-72B-Chat-Int4", device_map="auto", trust_remote_code=True).eval()

# プロンプトの準備
prompt = """### Instruction:
まどか☆マギカで誰が一番かわいい?

### Response:
"""

# 推論の実行
with torch.no_grad():
    token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
    output_ids = model.generate(
        token_ids.to(model.device),
        temperature=0.7,
        do_sample=True,
        top_p=0.95,
        top_k=40,
        max_new_tokens=256,
    )
output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1) :], skip_special_tokens=True)
print(output)
48Gあれば動きますね

約10分後に出力されました・・・

魔法少女まどか☆マギカのキャラクターはみんな個性的で可愛いですが、一番可愛いキャラクターは個人差があります。例えば、まどかには純朴で優しい性格が魅力的なため、彼女が一番可愛いと感じられる方もいらっしゃいます。また、さくらには明るくて活発な性格が可爱らしいと感じられる方もいらっしゃいます。他にも、みこっとやほむらなども可愛いキャラクターです。自分に合ったキャラクターを見つけ、楽しんでください!

これは芳醇な! みこっと・・・?な出来栄え?

ソムリエは「去年よりもおいしい」「まるで摘みたての赤い果実をそのまま口にほおばったような味わい」と評価しています。

この記事が気に入ったらサポートをしてみませんか?