LLM Lounge by Masuidrive #2 in Shibuya 参加レポ
第一回に引き続き参加してきました。
このオフ会のテーマは「自由」なので、とにかく色々な話題が出てくる。今回はテーマごとに机が分けられていて、自由な中にも流れがあったのでトークしやすかったです。自分は案の定「ローカルLLM」の卓へ。とはいえローカルLLMの卓でも様々な話題が出てきていて、データセットの話からRVCの話まで色々していました。取りあえず箇条書きで覚えていることをメモします。
ローカルLLM卓での話題
日本語モデルのパラメータは皆不足を感じている。vicuna13Bの登場によって13Bへの期待が相当高くなっていて、7Bでも不足を実感する人がほぼ全員だった
データセットも足りていない。できれば良質な対話データセットも待ち望んでいる。とはいっても原状は存在しないので、dollyを簡単にクオリティチェックする手法を探っている人や、翻訳を噛ませて日本語モデル及びデータセットからの脱却を狙う人、自分のように気合でデータセットを作って泣いている人などそれぞれいた
複数ターンのデータセット作成は辛い!同時に、どうやってデータセットを管理するかという悩みもだんだん出てきそうな予感。確かに一対一のQAタスクじゃないからスプシ管理が段々辛くなりそう
RLHFを効率的にやるためにArgillaが使えるのではないか?との声が。試して見る価値はありそう
「現行の日本語言語モデルでできることが飽和してきたのであれば、手法や周辺ツールを整備するタイミングなのかもしれないですね(自分談)」
試している時にnoteを備忘録として書くことで助かる人が凄い増えるし、継続的なアウトプットができそう。特に日本の言語モデルは海外でもやる人が少ないから自分達で頑張るしかない
複数モデルの使い分け、及びLoRA切り替えはもうちょっと色々できそう!
小規模な言語モデルはもう少し色々検討して良さそう。ただの個別タスクであれば500Mとかでも達成できるのでは
個人的に話していたこと
AITuberは熱意があるものが結果的に個性になって、その結果ファンが付く場合がある。さくらは対話部分だし、他の人は企画や歌だったりする。逆に熱意を向ける先がないと個性が付きづらいのかもしれない
AITuberの簡単ソフトを作成したい気持ちはあるが、皆それぞれの技術要件で作ってしまってるが故に難しい。コラボのプロトコルくらいは作りたい気持ちはある
データセットは複数ターンのデータを作ろうとすると指数関数的に増える
AITuberにおけるpythonのwebUIの個人的な答えは「flask」
二次会で話してたこと
まずはアウトプットと「えいや」がとにかく大事、これでそれなりに転機になることもある
OpenAIとローカルLLM勢の差異は今後も広がっていくけど、細かいチューニングが必要だったりするのはローカルの方が良いし、ニッチなものを達成したいなら十分選択肢になる
絶対embeddingはもっと良い方法がある!
個人的感想とまとめ
日本語の大規模言語モデルは今のパラメータだと辛い!!りんなさん、CyberAgentさん13B公開お願いします; ;
あとデータセットは皆課題点にやはり思ってた。その上で既存データセットの質向上か独自データセット作成かの二択で悩んでる感じ
色々な人に挨拶できて良かった、あとローカルLLM卓のほぼ全員が「ローカルLLMに向き合う会」に参加してて笑ってしまった、オフ会じゃんもはや
ということでレポでした。masuidriveさんありがとう!7月あたりも結構色々なイベントがあるのでそこに参加してると思います。
直近でオープンな奴だとあいちゅーばー開発者オフ会とかにいるので、よろしくお願いします!
この記事が気に入ったらサポートをしてみませんか?