GPT-4を作れって上司に明日言われたら作れますか? #WandB
こちらの記事で、Weights & Bias社(以下、WandB社)日本語LLMのランキングを扱わせて頂いたのだけど、そちらのイベント「Fully Connected Tokyo 2023」に参加してきた。
アジェンダを見るとどれも興味深いけど夕方の16:30以降が一番面白いはず…そして最後のセッションSAI秋葉さんの記事を書きたい!
と思いまして、現地レポートしてきました
GPT-4を作れって上司に明日言われたら作れますか?
️「GPT-4を作れって上司に明日言われたら作れますか?」というKagglerらしい軽快な喋りで始まった秋葉氏のセッション
GPT-4を作れと言われたらどう答えるか?LLMの作り方
LLMをゼロからトレーニングするためのベストプラクティス PDF配布中
https://wandb.ai/site/llm-whitepaper-japan
LLMの作り方 LLM構築タイムアタック!
1 Pretraining
大量のデータを学習、大きな計算資源しよう
→これがあれば勝ち確。
2 Fine-Tuning
指示を聞く、対話を可能にする
モデル構築
Transformer, データセットはRedPajama
GPT-NeoXをインストール&実行
フレームワーク、学習設定はなるべく動きそうなものを使おう
ファインチューニングのデータ準備 Alpaca,Anthropic など
TRLXをインストール&実行 SFTだけでもいい
完成。ほとんどコードを書かずに作れる
より優れたLLMを作るには
エンドロールから人員構成を算出
個人的感想
そのほかのセッションもとっても良かった
時間あったらまとめたい
知見を長々喋る感じでなくて、時間もきっちりで圧縮されていた感。
秋葉さんのセッションは、LLM構築を身近なものに感じさせるし、一方ではそんな簡単じゃないけどWandBのような環境でスッと作る事が大事だし、一方ではブラックボックス化しやすいOpenAIの中身を分析して上回るアプローチや、より効率的だったり軽かったりするモデルが日本の日本語の環境では求められていくのだなという印象を受けた。
テクニカルにはRLHF関係の扱いとか…
WandBさんにも直接会えて、どんなユーザーが日本にいるのかとか、エンタープライズユーザだけでなく大学関係とかは無料だし(今回の東北大/NIIのLLM研究会の話もエキサイティングだった)、インターンも募集中。
LLM構築はWandBのMLOpsの一角でしかない。
そして完全に不可能という技術ではないと勇気づけられた。今後もウォッチしていかねば。