見出し画像

Stability AIの画像生成・編集で遊んでみる

Stability AIに入社して2ヶ月ほどが経ちました。Stable Diffusionの認知度に比べると、Stability AIの認知度はまだ高くない気がします。もし知っていてもStable Diffusionを初めとした生成AIのモデルを作っている会社というイメージが強い気がします。

生成AIモデルの開発が非常に大きな強みというのは間違いないのすが、それに加えて、最近はそれらの技術を簡単に使えるようにするための努力も増やしています。

たとえば、Developer Platformでは、画像生成、画像編集の動画生成のAPIを公開しており、頻繁に新しいものを追加しています。Stable Diffusion3など画像生成APIはもちろんですが、画像内のオブジェクトを置き換えるSearch & Replaceや、元の画像の構造を保ったまま新しい画像を作る(例えばスタイルを変えるなど)Control Structure、スケッチを元に画像を生成する Control Sketch、そしてもちろん画像のUpscaleを行うAPIもあります。

これらのAPIは、複数のモデルを組み合わせて実現されていることも多く、単に基盤モデルを公開するだけではなく、実際の利用シーンに合わせた機能を提供しています。
また、ユーザーインターフェースを持つプロダクトの開発に力を入れ始めており、Discordで使えるStable Artisanや、Web画面上でチャット形式で利用できるStable Assistantの開発にも取り組んでいます。

技術開発と製品開発、そしてビジネスがとても近いので、これからさらに実用的な技術を使いやすいプロダクトで提供していくことができると思います。乞うご期待ください!

以上、簡単な紹介でした!

ということで、従業員としての最低限の責務は果たしたと思うので、残りは公開されているものを使ってふざけてみようと思います。以下ではすべてStable Assistantを使っています。


だるま

まずはお題を、、と思い過去の写真をあさっていたら、これを見つけました。

見ての通りですが、だるまです。

日本の方におなじみですが、ご存知ではない方のためにだるまとは何か?、Stable Assistantに聞いてみました。(Stable LM 7Bを使っています)

なんとなくあっている気がします(実はよく知らない)

このだるまは前々職の上司がくれました。ネイティブの日本人じゃないのですが、日本人より日本人らしいです。何かを始めるときに片方の目を書き、もう片方を完成したらもう片方を書くという習慣があります。両方の目が書かれているということはうまく言ったんだと思います。何か忘れましたがよかったです。

それはさておき、このだるまで遊んでみたいと思います。
まずはアウトペイントしてみます。アウトペイントというのは、画像の外側を生成する機能です。ありもしない世界を描いてくれます。

元画像は全身?が写っていて面白みに欠ける?ので、あえて世界を狭くしてみます。

こんな感じ

(入力画像)

ここからAIはだるまが想像できるのでしょうか。
アウトペイントで外側を描いてみます。未知の生物との遭遇を期待します。






生成画像 (Outpaint)

!!??
だるまです。
机の上から緑のシートの上に移動しましたが、だるまです。
ちょっと卵っぽいですが、だるまではないというのは無理があります。
良い意味で期待外れですばらしいです。

ちょっとやさしすぎたかもしれません
もっと削ってみます。

入力画像

私が塗りつぶした目がとても雑なので、まだ私にはだるまだとわかりますが結構難しめです。
この画像で再度アウトペイントしてみます





生成画像 (Outpaint)

やりました!
生物ではないですね。これはまぎれもなくたこ焼きです。
たこが大きく飛び出しちゃってますね。

世界のAIが日本の関西地区のソウルフードを理解してくれて嬉しい限りです。

ちなみにたこ焼きとは?、聞いてみました。

答え

オーソドックスなやつの説明ですね。美味しい、試す価値ありと言っているので正しいと思います。(ちなみに本当のたこ焼きは、こんなに生々しくたこは飛び出してません。見た目も匂いも味もとっても良いです。念の為)

それはさておき、調子に乗ってもっと削ってみます。

入力画像

もはや何なのかわかりません。
ではアウトペイントしてみます




生成画像 (Outpaint)

!!??
海です。だるま(の一部)が波に乗っています。だいぶ荒波に揉まれている感じがします。大変そうです。

自分の解釈の限界を超えたので、どう受け止めたらいいか聞いてみます。

答え

Q: だるまの画像の一部を切り取って、外側に描き加えました。生成された画像では、だるまの一部が波に乗ってサーフィンをしている様子が描かれていました。これをどのように解釈すべきでしょうか。
A: 切り取られただるまの一部は、波に乗りながらも回復力、適応力、決意を表現しており、伝統的なだるまの概念と同様に、困難を乗り越え変化を受け入れることを象徴しているようです。このクリエイティブな解釈は、だるまが冒険的な活動に従事する様子を描いており、本来のだるまに関連付けられている忍耐と適応の精神を体現しています。

なるほど、モノはいいようですね。模範解答です。
私も見習いたいです。

色々と削って申し訳なかったので、元に戻っていたわってみます。
Enhanceという機能を使ってみます。これはアップスケールの機能の一部ですが、単に高画質化するだけでなくpromptでそのスタイルを指定できます。

丸いので(形がですが。。)、シャープにしてみます。入力画像は一番最初のだるま画像です。




出力画像 (Enhance)

デジタル化しました。
私の知っているだるまじゃない。いや、そもそもだるまじゃないです。たぶん。
テカテカしてます。そして目は絶対カメラです。従って、もう塗りつぶせません。

そろそろ飽きてきたので次に行きます。


なぞなぞ

突然ですが、なぞなぞを作ってみました。

テキストだけだと面白くないので、テキストと画像から答えを当てるものを作ってみました。
画像は、いい感じだと思う内容を考えてStable Assistantで作りました。答えは英語です。すみません。。

お題: 
I start with 'T', end with 'T', and I have 'T' in me. What am I?

生成画像

テーブルの中央に怪しげにモクモクするものがありますね。若干答えをさらけ出している気がします。

答えは



Teapot!

大して面白くないですね。

めげずに、もう1つ作ってみます

お題: 
I am full of keys but can't open any doors. What am I?

生成画像

これだけあからさまだと、逆に混乱しそうですね。しないと思いますが。

答えは



Keyboard!

2つ目もいまいちでした。
画像がどうこうというより、画像とテキストでなぞなぞを作るという設定自体が私の想像力でカバーしきれなかったように感じます。

結果はともあれ、ナイストライだったと信じたいです。

ミーム

次にミーム画像を作ってみたいと思います。
ミームと言えば猫だろうという、非常に安直な考えで猫が登場するミームを作ってみます。(しつこいですが、Stable Assistantで作っています)

生成画像

A skeptical-looking cat with raised eyebrows and a cup of coffee, with the caption 'You expect me to work before my morning coffee?'

いい表情です。同僚から朝6時ぐらいに不急の内容でメッセージが来たら、このミーム画像で返信をしてみるのも良いかもしれません。責任は持てませんが。

一応、念の為に、上のミーム画像に対する返信用のミーム画像も作ってみました。

生成画像

A digital art of a sarcastic-looking dog with a smirk, holding a mug of tea. The dog has an expression that conveys 'Oh, you need coffee to function? That's cute.'

このミーム画像で返信して平和なコミュニケーションが成り立つのであれば、素晴らしい関係性だと思います。少しでも距離感やその瞬間の空気を読み間違えたら、大事故になります。

もうちょっと汎用的なものとして、月曜から金曜日に働いている全世界の人で共通であろう、月曜の憂鬱を表現した画像を作ってみました。

生成画像

a cat with a sad expression, holding a 'Back to Monday' sign, with a caption 'Sunday evening blues'

この程度のミーム画像であればもう少し気軽に使えそうな気がします。眠そうな顔が良い雰囲気を出しています。金曜の夕方に同僚に送って良い効果が得られるかはさておき、言いたいことは伝わりそうです。

プロフィール

だんだんと疲れてきましたが、最後に最もありきたりなプロフィール画像を編集してみたいと思います。

元画像は、noteの自分のプロフィール画像です。

Stable Assistantの"New Image with Structure"というものを使うと、名前のままですが、元画像の構造を維持してスタイルを変更したりできます。

Anime Style

生成画像 (New Image with Structure)

Japanese Ink Painting

生成画像 (New Image with Structure)

元の画像の構図を雰囲気を残しつつ、新しい自分が生まれたように見えます。それにしても構図は全くぶれないですね。残念ながらなで肩なのもそのままです。本当なので仕方ないです。

最後に、自分のプロフィール画像を"Enhance"でsharpにしてみました。




生成画像(Enhance)

誰やねん!!

以上です。

最後に

今回はStable Assistantを使って画像や文中のコンテンツ(QAなど)を作成しました(すみませんが、今はまだ英語しか対応していません)。もちろん、Developer PlatformのAPIを使ってオリジナルのアプリケーションを作ることもできます。

また、気軽に使えることを強調するために(?)、かなりふざけた内容にしましたが、もちろんきれいな画像を作ることもできます。ランディングページにある動画やGalleryページを見ていただくと、どういうコンテンツが作れたり、どういう機能があるのか簡単に確認できます。フリートライアルもありますので、時間があれば是非試してみてください!!

コンテンツの質を高める、コントロール性を高めるなど基本的な性能を追い求めるのは当然ですが、それと同時により簡単に誰でも使えることも追求していきたいと思います。Stable Diffusionに関連した技術は、OSSコミュニティの中でも急速に発展し続けているため、最新の技術と、簡単に使えるものにはどうしても時間的な差があります。今後、なるべくその差を埋めていきたいと思います。

また、その活用方法についても、思考を広げるための利用や、伝えたいことを表現する手助けとしてなど、まだまだ活用の幅があると思っています。また、ツール単体としてだけではなく、サービスに組み込まれることでより可能性が広がります。私が以前にやっていた、キャラクターAIのプロダクトでも文章が主流でした。が、画像生成や動画生成が気軽に使えることで、キャラクターの自己表現やコミュニケーション手段を広げられます。

もしこんなアイデアがあるよ、こういう使い方しているよという方がいらっしゃったらLinkedInなどで声をかけていただけると嬉しいです。技術を適切に意味づけして、より多くの人が使えるようにしていきたいと思います。

(カバーイメージは、ニューラルネットワークの研究をする猫でした)


この記事が気に入ったらサポートをしてみませんか?