StabilityAIの日本語のパフォーマンス重視した70億パラメータの言語モデルの利用方法

2023年8月19日 09:32

モデルの正式名称は、japanese-stablelm-base-alpha-7bとなります。日本語と英語の対のデータセットでトレーニングしたモデルとなります。日本語のパフォーマンスを最大限にすることにフォーカスしているとのことです。

上記ページを参考に、Google Colabで実行するコードは以下となります。少し修正しております。

!pip install transformers sentencepiece accelerate einops
import torch
from transformers import LlamaTokenizer, AutoModelForCausalLM

tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])

model = AutoModelForCausalLM.from_pretrained(
    "stabilityai/japanese-stablelm-base-alpha-7b",
    trust_remote_code=True,
)
model.half()
model.eval()

if torch.cuda.is_available():
    model = model.to("cuda")

prompt = """
AI で科学研究を加速するには、
""".strip()

input_ids = tokenizer.encode(
    prompt,
    add_special_tokens=False,
    return_tensors="pt"
)

# this is for reproducibility.
# feel free to change to get different result
seed = 23  
torch.manual_seed(seed)

tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=128,
    temperature=1,
    top_p=0.95,
    do_sample=True,
)

out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)

実行結果は、以下です。

AI で科学研究を加速するには、データ駆動型文化が必要であることも明らかになってきています。研究のあらゆる側面で、データがより重要になっているのです。 20 世紀の科学は、研究者が直接研究を行うことで、研究データを活用してきました。その後、多くの科学分野ではデータは手動で分析されるようになったものの、これらの方法には多大なコストと労力がかかることが分かりました。そこで、多くの研究者や研究者グループは、より効率的な手法を開発し、研究の規模を拡大してきました。21 世紀になると、研究者が手動で実施する必要のある研究は、その大部分を研究者が自動化できるようになりました。

'

\nAI で科学研究を加速するには、データ駆動型文化が必要であることも明らかになってきています。研究のあらゆる側面で、データがより重要になっているのです。\n20 世紀の科学は、研究者が直接研究を行うことで、研究データを活用してきました。その後、多くの科学分野ではデータは手動で分析されるようになったものの、これらの方法には多大なコストと労力がかかることが分かりました。そこで、多くの研究者や研究者グループは、より効率的な手法を開発し、研究の規模を拡大してきました。21 世紀になると、研究者が手動で実施する必要のある研究は、その大部分を研究者が自動化できるようになりました。\n

他のpromptでも試してみます。

prompt = """
今の日本の首相は、、
""".strip()

今の日本の首相は、、日本国の総理大臣ですよね？首相は誰でしょうか？政治、社会問題なぜ今のアメリカの大統領って、2期目を務める人が居ないんですか？政治、社会問題日本人は何故韓国人を嫌うのですか？政治、社会問題関連するタグ岸田政権国民人気総理野党各党が解散を訴えている解散に賛成しないのは、自分達が次の選挙に負けると思ってるだから解散しても選挙で惨敗する選挙で惨敗する可能性ありだから解散に反対する解散反対の論拠今のままで解散しても惨

いつの時点のデータを持っているのかを把握したく、日本の首相で文を作ってみました。岸田首相と出ている時点では最近のデータを持っております。但し、日本語の生成文章としてはおかしいようです。

prompt = """
AppleのVision Proは、
""".strip()

AppleのVision Proは、アップルが提供する初のスマート・ゴーグルになる。このゴーグルには、眼球の動きを追跡する2D加速度計が組み込まれており、着用者はバーチャルな物体に近づいたり、避けたりすることができる。アップルはVision Proを10月に599ドル（約6万4,000円）で発売する予定だ。「アップルが、スマート・ゴーグルで世界をリードする可能性は非常に高いでしょう」と、英国の研究開発・産業戦略を扱う政府の「産業戦略庁（Office for Industrial Strategy）」で、スマート・インダストリーの国際的な枠

聞いてみたのは良いですが、VisionProが2D加速度計が組み込まれているのかと10月発売なのか不明なので何とも評価できません。

prompt = """
「神は細部に宿る」は、、
""".strip()

「神は細部に宿る」は、、細部まで丁寧に作りこまれているという意味。細部へのこだわりは、製品や作品だけでなく、音楽、建築、工芸、絵画、料理にも、さらには人の動作にも見られる、との事。 2019-02-10 11:35:28 | 日記最近、世間を賑わしている「コインチェック」で、顧客の仮想通貨がほぼ消えた。銀行が倒産したことはないし、投資信託も顧客の資産が減り続けている訳ではないが、仮想通貨が消えるということは、顧客の資産がほぼ失われることであり、これだけでも驚

途中から文章がおかしくなっています。

所感としては、今後の言語モデルパラメータ数の増加と、適切なデータセットをいかに取得してトレーニングしていくかが課題なのではないかと思われます。

GitHubやHugging Faceを見ても、英語圏や中国語圏がメインとなってます。日本語圏も負けずにさらに頑張ってほしいです。

この記事が気に入ったらサポートをしてみませんか？