最近の情報も学習に用いた14億パラメータ日本語LLM stockmark/gpt-neox-japanese-1.4b
モデル概要
ストックマーク社が作成した、Common Crawl由来のデータだけでなく、独自のWebデータも学習に使用した14億パラメータの日本語のLLM
データカバー期間:2023年6月までのデータを使用。
使用データセット:
CC100の日本語サブセット
Wikipediaの日本語版
ストックマーク社独自の日本語Webデータ
コーパス全体のデータ量:約200億トークン。そのうち独自のWebデータの量は約90億トークン
ライセンス:MITライセンス
とりあえず試食
google colabのT4を使って試してみます。
!pip install transformers
!pip install accelerate
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# Use torch.bfloat16 for A100 GPU and torch.flaot16 for the older generation GPUs
torch_dtype = torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, "is_bf16_supported") and torch.cuda.is_bf16_supported() else torch.float16
model = AutoModelForCausalLM.from_pretrained("stockmark/gpt-neox-japanese-1.4b", device_map="auto", torch_dtype=torch_dtype)
tokenizer = AutoTokenizer.from_pretrained("stockmark/gpt-neox-japanese-1.4b")
inputs = tokenizer("宮崎駿監督の最新作、", return_tensors="pt").to(model.device)
with torch.no_grad():
tokens = model.generate(
**inputs,
max_new_tokens=128,
repetition_penalty=1.1
)
output = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(output)
"2023年5月に開催されたG7サミットのトピックは"
ストックマーク社の技術デモ的な位置づけのモデルでしょうか。小さいモデルのわりに流ちょうな日本語を出力できる印象です。手軽に試せるのはいいですね。
この記事が気に入ったらサポートをしてみませんか?