見出し画像

GPT-4を作れって上司に明日言われたら作れますか? #WandB


こちらの記事で、Weights & Bias社(以下、WandB社)日本語LLMのランキングを扱わせて頂いたのだけど、そちらのイベント「Fully Connected Tokyo 2023」に参加してきた。


アジェンダを見るとどれも興味深いけど夕方の16:30以降が一番面白いはず…そして最後のセッションSAI秋葉さんの記事を書きたい!
と思いまして、現地レポートしてきました

GPT-4を作れって上司に明日言われたら作れますか?

️「GPT-4を作れって上司に明日言われたら作れますか?」というKagglerらしい軽快な喋りで始まった秋葉氏のセッション

StabilityAI  秋葉拓哉
シニアリサーチサイエンティスト
「毎朝、起床してWandBを開くのが楽しみ」だそうな
stable diffusionの今までの歴史(1年)
オープンなLLMが次々と出ている
GPT-4はこれらの延長線上にあるの?
日本特化モデルStable LM(JSLM)Alpha 7B v2
商用利用可能


GPT-4を作れと言われたらどう答えるか?LLMの作り方

LLMをゼロからトレーニングするためのベストプラクティス PDF配布中
https://wandb.ai/site/llm-whitepaper-japan

もう一皿
「LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス」

LLMの作り方 LLM構築タイムアタック!

1 Pretraining

大量のデータを学習、大きな計算資源しよう
→これがあれば勝ち確。

2 Fine-Tuning

指示を聞く、対話を可能にする

GPU確保できていれば勝ち確!?

モデル構築
Transformer, データセットはRedPajama

GPT-NeoXをインストール&実行
フレームワーク、学習設定はなるべく動きそうなものを使おう

ファインチューニングのデータ準備 Alpaca,Anthropic など

TRLXをインストール&実行 SFTだけでもいい


完成。ほとんどコードを書かずに作れる

より優れたLLMを作るには

エンドロールから人員構成を算出

ワンドとハチと着物でWandB日本!?
気さくな秋葉さん

個人的感想

そのほかのセッションもとっても良かった
時間あったらまとめたい

知見を長々喋る感じでなくて、時間もきっちりで圧縮されていた感。

秋葉さんのセッションは、LLM構築を身近なものに感じさせるし、一方ではそんな簡単じゃないけどWandBのような環境でスッと作る事が大事だし、一方ではブラックボックス化しやすいOpenAIの中身を分析して上回るアプローチや、より効率的だったり軽かったりするモデルが日本の日本語の環境では求められていくのだなという印象を受けた。
テクニカルにはRLHF関係の扱いとか…

WandBさんにも直接会えて、どんなユーザーが日本にいるのかとか、エンタープライズユーザだけでなく大学関係とかは無料だし(今回の東北大/NIIのLLM研究会の話もエキサイティングだった)、インターンも募集中。

LLM構築はWandBのMLOpsの一角でしかない。
そして完全に不可能という技術ではないと勇気づけられた。今後もウォッチしていかねば。

この記事が気に入ったらサポートをしてみませんか?