LINEの「japanese-large-lm(ジャパニーズ ラージ エルエム)」やってみた

LINEの「japanese-large-lm(ジャパニーズ ラージ エルエム)がリリースされたので、colabで動かしてみました。

Hugging Faceにいろいろインストール方法紹介されているのですが、
https://huggingface.co/docs/transformers/installation
colab環境だと別の場所に保存しない限りインストールしても環境から消えてしまうので、
gitからインストールしました

pip install git+https://github.com/huggingface/transformers

sentencepieceをインストール

pip install sentencepiece

いよいよ動かしていきます。
コードはLINE公式のまんまです。

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed



model = AutoModelForCausalLM.from_pretrained("line-corporation/japanese-large-lm-3.6b", torch_dtype=torch.float16)# float16は指定しなくても問題ありませんtokenizer = AutoTokenizer.from_pretrained("line-corporation/japanese-large-lm-3.6b", use_fast=False)# use_fast=False は必ず付与してください。なくても動きますが、我々の学習状況とは異なるので性能が下がります。generator = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)set_seed(101)
text = generator(    "おはようございます、今日の天気は",    max_length=30,    do_sample=True,    pad_token_id=tokenizer.pad_token_id,    num_return_sequences=5,)
for t in text:  print(t)

結果

{'generated_text': 'おはようございます、今日の天気は雨のち晴れ。 18時の気温は11°C。'} {'generated_text': 'おはようございます、今日の天気は晴れのち曇り、最低気温が4.4度、最高気温が12.6度でした。今日は朝から晴天で、'} {'generated_text': 'おはようございます、今日の天気は雨のち晴れ、晴れといっても湿度が高く気温も上がらずに肌寒い一日でした。 6月9日の日記、朝から霧深い'} {'generated_text': 'おはようございます、今日の天気は曇りです、朝方曇っていた天気も晴れたり曇ったりと天気が不安定。 11/27の...'} {'generated_text': 'おはようございます、今日の天気は小雨、しかし気温は高めです。今日も頑張って行って来ます。'}

感想:
・すんごくGPU使う。
プアな環境だとすごく遅いと思う。

・OSSなので、うまくローカルで追加学習させると
日本語チャットボットの文章作成とかには
商用で使えるかも

・個人的には今でもChatGPT, Bard, Bingの日本語生成能力は高く
どっちかと言うとデータを引っ張ってくる時に
英語で質問した方が正答率が高い方をなんとかして欲しいのだが、
そもそも日本語のビッグデータが無いから取ってこれない。
そこをローカルでOSSに追加学習させたい、というのはある。

・けども、その場合そのモデルが日本語生成能力が高い方が良いのかは
用途によると思う。

この記事が気に入ったらサポートをしてみませんか?