Google Colab で Dolly 2.0 を試す
「Google Colab」で「Dolly 2.0」を試したので、まとめました。
1. Dolly 2.0
「Dolly 2.0」は、Databricksの機械学習プラットフォームで学習された命令追従型大規模言語モデルです。「pythia」ベースで、商用利用が許可されています。InstructGPT論文の能力ドメイン(ブレインストーミング、分類、クローズドQA、生成、情報抽出、オープンQA、要約など)でDatabricks社員が生成した15Kの学習データで学習しています。
公式では、次の3モデルが提供されています。
2. databricks-dolly-15k
「databricks-dolly-15k」は、LLMのInstructチューニング用の15,000の高品質な人力のプロンプト / レスポンスのペアのデータセットです。databricks-dolly-15k(Creative Commons Attribution-ShareAlike 3.0 Unported License)のライセンスのもと、商用アプリケーションを含むすべての目的において誰でもこのデータセットを利用することができます。
@kun1em0n さんによって日本語版も提供されています。
3. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」で「GPU」の「プレミアム」を選択。
(2) パッケージのインストール。
5分ほどでダウンロードできました。
# パッケージのインストール
!pip install accelerate>=0.12.0 transformers[torch]==4.25.1
(3) パイプラインの準備。
5分ほどかかりました。
import torch
from transformers import pipeline
# パイプラインの準備
generate_text = pipeline(
model="databricks/dolly-v2-12b",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
(4) 日本語での推論の実行。
1推論4秒ほどでした。日本語はあやしそうです。
# プロンプトの準備
prompt = "日本で一番人気のアニメは?"
# 推論の実行
res = generate_text(prompt)
print(res[0]["generated_text"])
人気アニメといいますと、日本でアニメのSeason 1を見る人がほとんどが訪れるis popular anime among the people who watch anime are the first season of anime which aired in Japan. Season 1 of Naruto which is a Naruto anime is very popular.
(5) 英語での推論の実行。
英語は良さそうです。
# プロンプトの準備
prompt = "What is the most popular anime in Japan?"
# 推論の実行
res = generate_text(prompt)
print(res[0]["generated_text"])
関連
この記事が気に入ったらサポートをしてみませんか?