青空文庫で自作LLM体験(GoogleColab)

Masayuki Abe

2024年6月21日 18:53

今回は、Google Colabで青空文庫から自作LLMを作成していきます。

パソコンで作成したい人は、16GBのメモリ環境でしたが、パラメータを小さくして何とか出来ましたので、こちらを参考にしてください。

Google Colabを利用した理由としては、Google Colabでは、TPUのハイメモリが300GB以上使えるからです。

メモリを気にすることなく使えるというのは良いですね。

今回も、こちらのコードを参考に、Google Colab用にしています。

では、Google Colabで作成していきましょう。

まずは、リソースは、TPUを選択します。

次に、Google Colabで次のコードを打ちます。ライブラリが足りないなどが出てきましたら、随時ライブラリをインストールしていってください。

!git clone https://github.com/speed1313/jax-llm.git
%cd jax-llm
!pip install -r requirements.lock
!pip install etils
!pip install datasets
!pip install requests
!pip install tiktoken
!pip install jax

次に、青空文庫をダウンロードして、トークナイザーを訓練します。そして、青空文庫のデータをNanoLMで訓練します。今回は、batch_sizeを32に変更しています。

!python /content/jax-llm/src/jax_llm/prepare_aozora.py --book_num 10246
!python /content/jax-llm/src/jax_llm/train_tokenizer.py --data_name "aozora_10246"
!python /content/jax-llm/src/jax_llm/train.py --data_name "aozora_10246" --batch_size 32 --n_iterations 5000 --n_freq_eval 100 --dropout_rate 0.1 --learning_rate 0.001 --num_layers 12 --embed_size 512  --head_size 64 --num_heads 8 --block_size 256

では、200トークンで、吾輩は猫に繋がる文章を生成してもらいます。

!python /content/jax-llm/src/jax_llm/generate.py --prompt "吾輩は猫である。" --data_name "aozora_10246" --max_new_tokens 200

Output: 吾輩は猫である。「さあ、この野郎が、あの男たち、一品だけにして、その力、すなわち、この「御御冗談、これは面白い話でした。」「いや、その、この「神」や「いきだ、と、と、その言葉はよく、その「お、この玉琴の音と共に飛び散った。また、その風貌を、その性質から、この「おーさん、あんまり、お幾里、とっぷり暮れてしまいました。その、大きな船から、この道を発見しているけれども、それが最も多いものが、他のものがこの科学的に、歴史的には、その「この宝』は、この私自身、あの私が考え出すのは、「いき」に、「どう？、この島君は、その川内と、そのいわゆる「日本国民社会、国家への歴史として、これを説明する、すなわち一、一章で本から、大金の薬に砂糖を入れてくれた。「なぜ、僕達は、その「この、あの、あの

生成結果

所感としては、Google ColabのTPUだと、クレジットの消費も少なくてメモリも300GB以上使えるのはコストパフォーマンスが高いです。

また、データセットを色々と変えてみて、どのようなLLMを作れるかを試してみるのも面白いはずです。

この記事が気に入ったらサポートをしてみませんか？