見出し画像

LLM Lounge by Masuidrive #2 in Shibuyaに参加して

こちらのイベントに参加してきましたので簡単に聞いたお話を共有します。
ワイワイと対面でAIについて話せて非常に有意義でした!

自分は「ローカルLLM」の卓で参加させていただきました。

LLMの話

日本語のローカルLLM

話の全体を通して、日本語の3bや7bでは性能が足らないというのを、皆さん感じているようでした。
タスク処理をさせようとすると13b程度がリソースと性能のバランスがいいのではないかという感触のようです。

rinnaさん、cyberAgentさん、13bの公開お願いします!

また、英語版のLLMを和訳したり、英語版のLLMを日本語でファインチューニングする話なども話題にあがりました。

ファインチューニング

知識をLoraで追加することの難しさや、トレーニングの際にプロンプトをどのように与えるかという話題で盛り上がりました。
また、Orcaの訓練方法を真似して、Loraをすれば7bでももう少し賢くすることができるかもという話が興味深かったです。

データセット

いかにデータセットを作るのかという問題は、話している中で何度も登場した印象です。(自分も困っていますし、他の方も悩んでいる方が多そうです)
自作する、英語のデータセットを和訳する、既存のデータセットを綺麗にするなどの話題が上がりました。

自作する場合は、一問一答でない構造的なデータセットを扱う場合の対応が悩みどころのようです。なにか良いツールあったら教えてください。

和訳については、「みんなの自動翻訳(みんほん)」を使うという話が出ていました。
「みんほん」は仕事でよく使っており、割と良い精度で翻訳してくれるイメージなので期待大です。

既存データセットの修正については、スマホで簡単に評価できる仕組みを整えて、人海戦術でやってしまおうという話が出ていました。これでデータセットの品質のいい部分のみを蒸留できれば、精度の高いデータセットの作成ができそうな気がします。

開発環境

OS (Win vs Mac vs Linux) や 仮想化 (コンテナ vs VM)などの話が出ました。
環境を壊さないことを考えればDockerが使えると良いよねという話でしたが、ハードルはあるのも事実だなと。
自分の本業の分野なので、界隈での敷居を下げられるように動きたいな。

ローカルLLMのメリット

OpenAIを始めとした巨大企業のLLMにローカルLLMが純粋に対抗できるのかというと「無理」というのがほぼ全員の意見でした。
また、時間が進むに連れて、差は広がる一方という認識も概ね共通でした。

ただし、ローカルLLMが勝てる部分もあり、例えば、タスク特化や(倫理的理由などで)巨大企業LLMが苦手とするところに、ファインチューニングなどで対応するのは勝算があるかもという感じでした。

また、巨大企業LLMのAPIが突然閉じられたりする可能性も考えると、ローカルLLMの研究や開発を勧めておいたほうがいいという話も出ました。

現状&今後のローカルLLM界隈の動き

高速化や量子化などが落ち着いたので、日本語の13bや30bが公開されるのを待つ状態です。その間に、3bや7bでデータセットなどの環境整備を進めるのが大事ではないかという感じでした。

あとはこちらのツイートの内容が実装できたら、embeddingはもっと良くなるよねというお話がありました。


AITuber/AIキャラクターの話

AITuberの技術範囲が広すぎるにもかかわらず、凄まじい勢いで開発している人がいっぱいいるという話になりました。
皆さん、体調には気をつけて開発しましょう…

キャラクターをどこへ向かわせたいのかによって、情熱の注ぎ方が違うので、そこでキャラクターとしての個性が生まれるんじゃないかという話もありました。
自分もこの辺は最近良く考えているので、別途記事にしたいと思います。

あとはAITuberのコラボ用のインターフェースやプロトコルの話もちらっと出ました。本題ではなかったので踏み込みませんでしたが、こちらも近いうちになにか動きたいです。

まとめ

主催していただきありがとうございました!
いつもnoteの記事やSNSでお見かけする方と直接お話できてかなり勉強になりました。

7月にも色々なイベントが企画されているようですので、そちらも参加させていただこうと思ってます!

この記事が気に入ったらサポートをしてみませんか?