LLMモデルのGPTQ量子化でdataloadにはまった

TL;DR BuilderConfig 'allenai--c4' not found. みたいなエラーが出る場合はdatasetsライブラリのバージョンを 2.14.7にするといいかも


このあたりのドキュメントを参考にAutoGPTQで量子化を行おうと思ったら以下のようなエラーが出た

  File "/opt/conda/lib/python3.10/site-packages/datasets/builder.py", line 371, in __init__
    self.config, self.config_id = self._create_builder_config(
  File "/opt/conda/lib/python3.10/site-packages/datasets/builder.py", line 592, in _create_builder_config
    raise ValueError(
ValueError: BuilderConfig 'allenai--c4' not found. Available: ['default']

ググってもすぐには原因がわからなかったが、どうやらhuggingfaceのdatasetsライブラリの使用が2.16.0くらい?から変わった様子

AutoGPTQから呼ばれるOptimumの内部で load_datasetを読んでいる部分がよくないらしい

        data = load_dataset(
            "allenai/c4", "allenai--c4", data_files={"train": "en/c4-train.00000-of-01024.json.gz"}, split="train"
        )

とりあえず

pip install datasets==2.14.7

で解決しました!
多分すぐに解決する問題かと思いますが、備忘録かつ今やってみたら困った人のために書き残しました~


この記事が気に入ったらサポートをしてみませんか?