自作モデル/データセットをHuggingFaceにアップロードする手順の例

2023年10月1日 18:52

このやり方は, huggingface-cliであらかじめloginしておいてからコード内でpush_to_hubを実行することでHugging Faceリポジトリにアップロードする方法（便利）. 他にもブラウザでアップロードする方法とかもあるにはありそう.

モデルのシェア

手順

Huggingface上でリポジトリを作っておく.
自分のページ >「New +」 > Model > model_nameを入力 > 作成

Huggingface CLIでloginしておく. Write権限を持ったTokenをあらかじめ発行しておく.

pip install huggingface_hub
huggingface-cli login

コードの内部に以下を記載し実行.

#たとえば
model = AutoModelForCausalLM.from_pretrained(...)
model = PeftModel.from_pretrained(model, ...)
model.push_to_hub("organization_name/model_name")

必要に応じてHuggingface上でmodel cardを変更し, ライセンス付与などをする.

jsonlで作成したデータセットをアップロード

jsonlデータセットの形式

形式は例です。

{"instruction":"....","input":"....","output":"...."}
{"instruction":"....","input":"....","output":"...."}
...

手順（モデルとほぼ同じ）

Huggingface上でリポジトリを作っておく.
自分のページ > 「New +」 > Dataset > dataset_nameを入力 > 作成

Huggingface CLIでloginしておく. Write権限を持ったTokenをあらかじめ発行しておく.

pip install huggingface_hub
huggingface-cli login

コードの内部に以下を記載し実行.

#たとえば
import dataset
DATA_PATH = "..."
dataset = datasets.load_dataset("json", data_files = DATA_PATH)
dataset.push_to_hub("organization_name/model_name")

必要に応じてHuggingface上でmodel cardを変更し, ライセンス付与などをする.

困ったら公式を見る

https://huggingface.co/learn/nlp-course/ja/chapter4/3?fw=tf
https://huggingface.co/docs/datasets/upload_dataset

補足

モデルカードは使い方や説明を丁寧に書くと良い.
- ページの「Edit model card」をクリックするとブラウザ上で編集できる. 変更し終わったら一番下のボタンでcommitする.
モデルカードのヘッダー部分でいろいろ設定できる. 例えば…
- inferenceをfalseにするとデモ表示を消せる

---
language:
- ja
license: llama2
library_name: peft
datasets: ...
inference: false
pipeline_tag: text-generation
base_model: ...
---

Hugging Faceにあげておくと, 自分用のモデルやデータだとしてもloadがしやすくて便利かも.

この記事が気に入ったらサポートをしてみませんか？