見出し画像

【第1回】生成AIなんでもLT会 レポ

2023/09/23に開催された、「【第1回】生成AIなんでもLT会」に参加したので個人的な備忘録としてまとめておきます。
個人的に聴きながらまとめたものなので、いくつか理解が間違っている可能性があります。



みけたこ氏「iOSでStable Diffusion」

課題感

生成AIサービスを作るとGPU費用がえぐい!リクエストがあろうとなかろうと、コストがかかってきてしまう。

ローカルで動かすようにしてみる

こちら側がGPU資源を持つのは厳しいので、ローカル生成をしたいがGPUの普及率が低い…
→iPhoneで動く生成AIであれば皆に使ってもらえるかも!ml-stable-diffusionというApple silicon用のライブラリがある。推論であれば一通りはできるので、これでアプリを作ってみる。

競合のチェック

既存の競合を調べてみると、iPhone13miniのような4GBのRAMだと厳しいことがわかる。12 Pro or 14以降でないと動かない。→最低限の機能だけをもたせればなんとかなりそう。

「Vividus」を作成

最低限の「生成」と「モデル切り替え」しか機能を持たせないことで13miniでもなんとかなった。いくつかのモデルで動作確認をしてみたところ、10分以上かかることもあるが大きめのモデルでもうごく!

今後の展望

iPhoneのRAMも拡大傾向にあるので、かなり可能性はある。推論だけでなくレイヤー分けのような、生成以外の応用もできそう。

だだっこぱんだ氏 「AIとUI」

AIにUIをつけること

たくさんのユーザーに使ってもらうにはわかりやすいUIが必要!RVCは元々UIがついてたから皆やったのかも。

gradioが大嫌い

RVCやWebUIでよく使われてるやつ。でもHuggingfaceのような簡単なデモなら向いてるけど大きなものにgradioを使うべきなの?

gradioは最高です

めちゃめちゃコードを少なくUIを実装できる。圧倒的なコード量の少なさは強い。フロントエンドとわけたらAIの実装、サーバーの実装、フロントの実装、デザイン…となってしまうが、gradioはAI処理→UIの二つで済む。

gradioの問題点に解決できるライブラリはあるだろうか?

Reactpyというものがある。Reactっぽくかけて状態管理もできるし良さそう。

あなたにあった方法はなんだろう

デザインもUIもやりたくない! -> gradio
ある程度こだわりたいけどコード量は少なくしたい -> Reactpy
しっかりデザインやりたい、コードもかける -> frontend+backend

サルドラ「AIキャラクターの言動に深みを持たせる」

自分のものなので省略

なかしゅん氏「ゲーム開発+生成AI」

ゲームにおけるAI活用

様々なところで活用がされてきている。特に実運用に近いのは「
Scenario」というものがあり、タイルマップの生成がこれで簡単にできる。

ステージ作りを生成AIでやりたい!

元々はDepth2Imageというものを使っていた。地形の絵柄を画像生成に任せる感じ。画像からNormailMapを作ってあげることでステージ作成はできる。ただし、高低差の表現がされない問題がある。Depthを取得することで深度が取れるので高さが低かったら川にしたりできる。一方深度マップは曖昧になりがちで、例えば橋の手すりを生成できなかったりする。

MultiControlNetを使うことで解決!

複数の要素を組み合わせることで、それぞれの強みを活かしていく

3D生成AIについて

一枚絵から大まかな形の3Dモデルはいけるようになってきた。キャラはまだまだガチャ要素ができるが。。。Mixamoでリギングが簡単にできるので、リギングしてアニメーションで動かせる。これで3D生成でモデルを作って、Depth2Imageの活用でステージ作れる。

AI生成エフェクトの話

AI生成で動画生成のツールを使ってあげることでエフェクトができる!

とりにく氏「ControlNet-LLLiteについて」

ControlNet-LLLite

一枚の制御画像から色々なものを作れる。制御方法は色々あってOpenposeのボーンとかブラーとか線画とか。

これの強みは?

軽いし速い!しかも必要な画像も少ない。一方でSDXL系列である必要があるためモデルが重いという弱みはある。

実用面

2組の関連性のある画像の組み合わせから制御を学習できる。例えばnormalMapと線画のようなセット。これを1000セットの学習で線画からノーマルマップを生成することができる。これがLLLite以外だったら1万セットとか必要だった。

実用アイデア

線画から擬似的3D画像を生成して陰影をシミュレートする感じ。

今後の話

人力の便利なツールとして発展させていきたい。

masa氏「Aimee」

ロボットのいる日常をデザインする。

AimeeChatというプロジェクトを作った。ChatGPTを触ってみたら凄いハマった!言ってくれたことに対して全て肯定してくれるところが良かった。これでもっと可愛いサービスがあったら良いのに、、という所からスタート。

Z世代に届けるAIを作る

3月くらいでオタクたちはやっていたものの、あまり若い層の女性はやってなかった。利用率は女性20代で10%前後。これを伝えていきたいと思ってアプリを作っている。ファンシーでかわいい感じにして若い女性をターゲットにしていきたい。

INUI KAI氏「GPUなサービスをそこそこな費用で運営する」

AWSは普通に高い!

中古12万のV100を月10万を使う必要がある。これを脱出するためになんとかGPUサービスを色々考えてみる。選択肢は3つで、3番が一番おすすめ

1 ランポッド
2 サーバーレスGPU
3 オンプレ

オンプレ3種(4種)の神器

1 Cloudflare Tunnel
Cloudflareでリクエストを受けて転送できる!セキュリティの考慮を少なくできる。
2 tailscale
サーバーのhostnameでSSHができる。tailscaleのログインで大体ができるので、SSH鍵の管理も必要なし。サーバーがインターネットにつながっていればSSHができるようになる
3 Docker+Kamal
コンテナデプロイツールとしてKamalは良い。サーバーとコンテナイメージを指定するだけでいい感じにデプロイできる。オートスケールはどうするの?→A4000あれば月80万枚生成できるのでオートスケール必要なのか問題が出てくる。キャパシティを自分で考えれば良い。
4 Cloudflare Load Balancing
クラウドを限定し、Tunnelをバックエンドにできる。Kamalで複数インスタンスを立てCloudflareLoadBalancingで固定台数で負荷分散を目指す

Olachinkei氏「LLMの評価」

日本語のLLM評価はあまりない

Rakuda Benchmarkというものはある。

LLMリーダーボードを作った

Rakudaの対抗で「Nejumi LLM リーダーボード」を作った
0 shotでの評価+答えの汲み取りも厳しくしているので絶対評価

文脈の理解よりも解答形式に沿うのが難しい

few-shotを使うか一定のパラメータ規模のモデルでないと形式に沿わない。

課題

そもそも評価データセットがない。JGLUEしかないのでOverFitしてしまう可能性がある。

抹茶もなか氏「Animatediffの生成時間の壁を突破しようとして失敗した話」

Animatediffが話題になってきている

テキストを入力することで短期間(16 frame)の動画を生成できる。ControlNetと組み合わせて動画の始点・終点に対応する画像を入力すると制御をすることが可能一方で生成される動画が短いという問題もある

Animatediffの生成時間の決まり方

画像生成モデルの入力データにフレームが追加されていて、16フレームで学習されたものがほとんど。とはいえフレーム数を増やすことで計算リソースが増え、学習もこんなんになる。長時間のテキスト付きデータセットもない。→学習以外の方法で一貫性を保持したい。

自分で実装

ビデオ1→ビデオ2になるとして、ビデオ1の後半とビデオ2の前半を混ぜてみることに。モデルアーキテクチャに手を出したものの、思ったよりもうまくいかなかった。

反省点

凝ったことをしすぎると失敗したので、新技術の検証やモデルの選定をもう少しやるべきだった。

終わりと感想

特に言語生成の分野に浸っていたので、画像生成周りのLTは見ていて新鮮でした。一方で画像生成及び動画生成に関してあまり知見が溜まっていなかったため理解が追いつかないことも多く、LT会の前に事前にそれなりのキャッチアップができているともう少し良かったかもしれません。

この記事が気に入ったらサポートをしてみませんか?