Aki

結論最適なinference stepを出すのが難しいそもそも、実験版だから、評価するべきではありませんが、使うとしたらの話

Number of inference stepsを上げると、そばかすみたいな、つぶつぶ/パターンが目立つ

一方、少ないと、顔にはまらない

この最適なステップを、少しつづ変更しながら見つけようとしてると、お試しGPUタイムが切れます。

結論平凡ですが、今後に期待と

もっとみる

Aki

2024年8月17日 07:31

Stable Diffusion ガールとレディー・ウーマンのタグの結果を比較

Beautiful Girl/Lady/Womenのどれがいいかな？

違いが気にならなければ、気にしなくていい。
もちろん、GirlでもSeedによっては、面長になることもあるので、ややなりやすいという風に思うこことする。

結論は、シードとは違った結果になりやすいので、すべて試すのがいい。

印象としては
ガールは、口半開きなりやすい。逆三角形の口とか
あと、顔が丸い赤ちゃん顔になる。
いくもっとみる

Aki

2024年4月25日 21:56

Stable DiffusionのInpaintで閉じた目を作ろときは、範囲広げた法が良い。

よく見ると、まつ毛に違いがあります。

Aki

2024年4月25日 19:52

図を書けるMermaidを始める時に最初に覚えること(end使えません)

```mermaidgraph LR; D[end]-->A A[全部小文字は使えません]--> B; A--> Z; B[代案]-->End; B-->END;B-->eNd;B-->enD;Z[どうしても使いたい] -->GG["endnode['end']"]```

小文字のendはなぜか使えない原因までは調べてません。
End,ENDとする、あるいは endnoc

もっとみる

Aki

2024年4月14日 18:53

StableDiffusioのUpscaleはシードで異なる。

どの程度、違うか、目と口元のアップで確認

好みのまつ毛や、唇のシワが出来るまで試してもいいかも

Aki

2024年4月13日 10:35

口パク系の動画、大抵GFPGAN使うことになるけど、全部ライセンス的に商用大丈夫なの？?

結論はGFPGANが使っているBasicSRのStylegan2とDFDNetが怪しいBasicSR本体は、OKでも、２つがライセンス的に疑問が残る
StyleGAN2はpytorchの実装で、どこまでNvidiaのコードが影響するのか不明。

でも、あまりライセンスに関する話題を見たことがないので、何かが、間違っているのかな？まあ保留としよう。

StyleGAN2

The codes are

もっとみる

Aki

2024年4月11日 16:04

口パク本命のEMOが出るまでは、VideoRetalkingで遊ぼう!

Emoが本命デモを見る限り、アリババのEMOが口パク/LipSync動画としては、ものすごい品質だ。
https://humanaigc.github.io/emote-portrait-alive/

SadTalkerの後継のVideoRetalkinghttps://github.com/OpenTalker/video-retalking
SadTalkerは静止画から口パクですが、Vi

もっとみる

Aki

2024年4月11日 15:48

サムネだけでわかる、Video-Retalkingの出力の改善例

Video-Retalkingの出力結果を画像にして、すべて弱めに、StableDiffusionするだけでも大きく改善されます。さらに、元の口元をコピーしたり、Enhance Upscaleしたりすると、プロダクションレベルにまで品質が上がります。

Aki

2023年12月19日 08:18

Google BardのYoutube動画の要約がすごく便利(キャプション有り動画限定?)

朝起きたら、拡張が使えるようになりましたとBardが言ってたので、試してみたらとても便利でした。

気になるけど長くて放置していたの英語のHow to 視聴が楽になるよ。

ちなみに、Google AI StudioでGemini APIに聞いたら、うまく動かなかった。

出来ない理由に以下のようにですので、キャプション専用かも

見出しの画像はBing Image Creatorが作成しました。

記事一覧

Flux.1 Inpaintを試す

Google ImageFX - 日本人の特徴出せてるよ。

Stable Diffusion ガールとレディー・ウーマンのタグの結果を比較

Stable DiffusionのInpaintで閉じた目を作ろときは、範囲広げた法が良い。

図を書けるMermaidを始める時に最初に覚えること(end使えません)

StableDiffusioのUpscaleはシードで異なる。

口パク系の動画、大抵GFPGAN使うことになるけど、全部ライセンス的に商用大丈夫なの？?

口パク本命のEMOが出るまでは、VideoRetalkingで遊ぼう!

サムネだけでわかる、Video-Retalkingの出力の改善例

Google BardのYoutube動画の要約がすごく便利(キャプション有り動画限定?)