見出し画像

最近の情報も学習に用いた14億パラメータ日本語LLM stockmark/gpt-neox-japanese-1.4b

モデル概要

ストックマーク社が作成した、Common Crawl由来のデータだけでなく、独自のWebデータも学習に使用した14億パラメータの日本語のLLM

  • データカバー期間:2023年6月までのデータを使用。

  • 使用データセット:

    • CC100の日本語サブセット

    • Wikipediaの日本語版

    • ストックマーク社独自の日本語Webデータ

  • コーパス全体のデータ量:約200億トークン。そのうち独自のWebデータの量は約90億トークン

  • ライセンス:MITライセンス

とりあえず試食

google colabのT4を使って試してみます。

!pip install transformers
!pip install accelerate
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Use torch.bfloat16 for A100 GPU and torch.flaot16 for the older generation GPUs
torch_dtype = torch.bfloat16 if torch.cuda.is_available() and hasattr(torch.cuda, "is_bf16_supported") and torch.cuda.is_bf16_supported() else torch.float16

model = AutoModelForCausalLM.from_pretrained("stockmark/gpt-neox-japanese-1.4b", device_map="auto", torch_dtype=torch_dtype)
tokenizer = AutoTokenizer.from_pretrained("stockmark/gpt-neox-japanese-1.4b")

inputs = tokenizer("宮崎駿監督の最新作、", return_tensors="pt").to(model.device)
with torch.no_grad():
    tokens = model.generate(
        **inputs,
        max_new_tokens=128,
        repetition_penalty=1.1
    )
    
output = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(output)

宮崎駿監督の最新作、映画「君たちはどう生きるか」が7月14日に公開されます。 原作の漫画は1937年に吉野源三郎さんが書いた児童向け小説で、戦時中に軍国主義的な内容から発禁処分を受けていました。しかし戦後になって再評価され、教科書にも掲載されるようになりました。 今回の映画では、主人公の少年・コペル君が叔父さんから教わった「生き方」をノートに記し、大人になった叔母さんに手紙を書くシーンがあります。 このシーンは、戦争や貧困などの困難に直面した少年少女たちがどのように生き抜いたのかという物語です。 また、宮崎監督はこの映画について、「今の日本人にこそ見てほしい」「

"2023年5月に開催されたG7サミットのトピックは"

2023年5月に開催されたG7サミットのトピックは、気候変動対策でした。 この会議において、各国首脳が「2050年までに温室効果ガスの排出を実質ゼロにする」という目標に合意し、「SBTイニシアチブ」を立ち上げました。 また、2030年に向けて、世界全体での温室効果ガス排出削減目標を議論する「パリ協定」が発効しました。 さらに、2022年のCOP26では、産業革命前からの気温上昇を1.5度以内に抑えることを目指す「1.5C目標」も採択されました。 このように、脱炭素社会の実現に向けて、世界各国でさまざまな取り組みが行われています。 カーボンニュートラルとは? カーボンニュートラルとは、二酸化炭素などの温室効果ガスの実質的な排出量と吸収量を均衡させることです。

メモリ使用量

ストックマーク社の技術デモ的な位置づけのモデルでしょうか。小さいモデルのわりに流ちょうな日本語を出力できる印象です。手軽に試せるのはいいですね。


この記事が気に入ったらサポートをしてみませんか?