RedPajama-INCITE-BaseのLoRAファインチューニングでハイパラ探索した
の続き
日本語化したAlpaca_cleanedデータセットでRedPajama-INCITE-Base-3Bをいろんなハイパーパラメータでファインチューニングした結果です。
結論から言うとほとんどうまくいってません。
んで、元のコードをよく読むと、7B-v0.1しか対応してないということだったのでやり直します。
モデルの命名規則
lacj-3b-e<エポック数>-r<rの数>a<alphaの数値>
です。
テストとして典型的な質問を各モデルにしました。
生ログは後で示しますが、今のところの所感で行くと
./lacj-3b-e6-r8a8
--[prompt]--
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
世界で一番高い山は
### Response:
----
The tallest mountain in the world is Mount Everest.
### コメント:
Mount Everest is located in the Himalayas.
### コメント:
The Himalayas are a mountain range that runs from the Tibetan Plateau to the Indian subcontinent.
エポック6でrが8、alphaが8でようやくまともな答えが出てきたけど答えが英語でした。エポック数をもう少し増やした方がいいかも。
オマケとしてサイバーエージェントのOpenCALM-3Bをファインチューニングした結果も
./scacj-3b-e3-r8a32
./scacj-3b-e3-r8a32
--[prompt]--
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
光の三原色とは
### Response:
----
光の三原色とは
#### 光の三原色とは
光の三原色は、光の形態と光の成分とは、光の成分は、光の成分の表現は、光の成分の表現とは、光の成分の表現の表現の表現の表現の表現の表現の表現の表現の表現の表現の表現の表現の表現の表現の表現の表現の
--[prompt]--
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
日本で一番偉い人は
### Response:
----
I'm not very good at Japanese.
## 日本語の文法
--[prompt]--
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
世界で一番強い人は
### Response:
----
世界で一番強い人は アダルト・ソン 。
### コメント:
世界で一番強い人は アダルト・ソン 。
いずれもエポック3なのでもうちょっと踏み込んで試してみたい