改めて学ぶ：NovelAI 基礎 Part.1

2023年12月5日 12:00

この記事では、2023年12月現在のNovelAIの機能をベースとして、基本的な技術から、ちょっと変わったテクニックまでご紹介するものとなります。

機能としてはかなり豊富なため、年内（2023年）に数回に分けてまとめることを予定しています。
それでもかなり長い記事になるので、面白そうなところを「もくじ」から探して飛んで、読むことをオススメします。

ほか、これに関連して新しい取り組みも考えていますが、それはこのパートが進んでから公開することを予定しています。

NovelAIとは何か

直近書いた記事とも重複しますが、NovelAIは、文章やイラストを生成するためのサービスで、サブスクリプションモデルで提供されています。
このサービスは、高性能なスマートフォンやGPUを搭載したPCを必要とせず、安定したインターネット接続があれば十分に利用することができます。

アメリカの企業、Anlatan社により提供されているサービスで、ドルで支払いを行う必要があり、有料のプランとしては「タブレットプラン」「スクロールプラン」「オーパスプラン」が存在します。

それぞれ、10ドル（1,466円）、15ドル（2,199円）、25ドル（3,666円）となります。（※執筆時点12/4のレート）
画像生成を主として使う場合は、「タブレットプラン」または「オーパスプラン」を契約することをオススメします。

まず、画像を生成するためにはそのコストに応じて独自の消費アイテム（通貨のようなもの）を支払う必要があります。
それをAnlas（アンラス）と呼びます。
例えば基本的なサイズとして、832*1216サイズの画像を作る場合、20Anlasを消費することになります。
「タブレットプラン」「スクロールプラン」ともに、毎月配布されるAnlasは1,000です。
これは、50枚作るだけで使い切ってしまうことになります。

50枚も作れれば良いじゃ無いか、と思われるかもしれませんが、これはあくまで基本的な消費量です。
かなり良い作品が作れたとして、それを微妙に修正したり、拡大する際にもAnlasは消費されます。
なのでオススメしたいのは、「オーパスプラン」です。
ChatGPT plusを超える価格なのは抵抗を感じますが、基本的なサイズ（832*1216サイズ）であればAnlasの消費無く、作り放題となります。
また、それとは別に10,000Anlasも貰えるので、修正したり、拡大する際にも充分まかなうことができます。

では、「タブレットプラン」はいわゆる地雷なのかと言われればそうでもありません。
ソシャゲよろしく、Anlasをサブスクリプションの定期配布とは別に、購入することもできます。
追加購入時は、2,000Anlasで3.79ドル（556円）、5,000Anlasで6.49ドル（951円）、10,000Anlasで10.99ドル（1,611円）となります。
なので、タブレットプランで1,466円を支払い、追加購入で1,000Anlasを1,611円で購入したとして、3,077円となり、「オーパスプラン」よりは安価に、そして作り放題ではないものの、比較的大量に画像を作る事ができます。

ゆえにこの辺の事情も加味すると、出費を抑えて使うことができますね。

ちょっと前のNovelAIとの違い

NovelAIでは独自の画像生成モデルが使われており、最新のモデルは「NAI Diffusion Anime V3」となります。
技術的には、Stable Diffusionと共通しているところがあります。いわゆる、ノイズから画像を生成していくスタイルです。

このV3が極めて強力で、V1、V2はクオリティタグやその他、独特なテクニックが必要でしたが、ほとんどその必要無く、圧倒的なクオリティで生成してくれます。
今回使ってみて、そこが特に感動しました。後述しますが、英文で入力しても、その意図通りに作ってくれることも多く、強く進化を感じます。

{{Character focus}},{illustration},{{best quality}},{ultra detailed},{super detailed skin},{{beautiful eyes}},{lolita fashion},idol,1girl,solo, standing,junior,{short hair},big hair ribbon,shy,happy,park,

画像生成に使用したプロンプト

また、サンプラーが増えたのも特徴で、これについて詳細は別記事を予定していますが、基本的には推奨されるサンプラーを使うことをオススメします。
サンプラーによって、同じプロンプトでも、生成される作品が大きく変わることもあります。

類似のサービスとの比較

画像生成AIは今の時代多く存在しています。
その中でもOpenAIのDALL·E 3とStable Diffusion、Adobeの画像生成AIについては聞く機会が多いのではないでしょうか。

まず、DALL·E 3に関して優れている点は、マルチに画像を生成できる所にあるでしょう。特にChatGPT-4で提供されているものを使うことで、生成に必要なプロンプトも考えてくれますし、アニメ調にも、写真のようにも作ることができます。これは本当に強力ですね。
また、商用として利用するもできます。
しかし、安全性といったものに強く気を配っているため、少しでも不適切と判断されたものは生成されることはありません。
なので自由度は低いとも言えます。
また、一度生成した画像から厳密に同じ画像を作れる機能は今のところありません。

猫と女の子が顔を見合わせているような画像を作ってください。
で作ったもの。左を作った後に、アニメ調で再度作ってください。
で作成されたものが右の画像。

プロンプトは指示からChatGPT側で考えてDALL·E 3側に渡しているよう。

Stable Diffusionに関しては、無償でその技術が公開されていると言うこともあり、ローカル環境、つまりそれぞれのPCで動かすといったことが主な使用環境となっています。（※web ui automatic1111を想定）
なので、自由度は自分次第です。
しかし、これを動かすためにはある程度高価で、高性能なGPUを搭載したPCが必要となります。
また、狙った画像を出すためには、NovelAIと比べてある程度テクニックや技術も必要でしょう。

Adobeの画像生成AIは、特に実写系に特化している印象を受けます。
また、他の画像生成AIと比べてかなりクリーンなモデルを使用しています。
それは自社が抱えるライブラリ等から、合法的に作成しているためです。
なので本当に安心して、企業が使うとなると、Adobeの製品が最適でしょう。

そしてNovelAIですが、特にイラスト、アニメ調の画像生成に特化しています。
また、OpenAIのように厳しくも無く、何でも生成出来ます。
そのため、不適切なものを生成させたくないときには、若干注意を払う必要があります。
成人が使う分には問題無いサービスですが、未成年が使うにはいささか問題は多くある気がします。
もっとも、クレジットカード等の登録が必要なので、敷居は高いですが。
しかし、そういうのを抜きにしても、大変クオリティが高いイラストが作れます。これは実際作ると感動します！

NovelAIのUIと基本テクニック

ここでは各UIについて見ていきます。
尚、機能が豊富なため、この記事内では以下の画像で囲いや吹き出しがあるものの一部に留めます。紹介しきれなかったその他は、別記事で紹介予定です。

最低限、赤枠と青枠を抑えておけばOK
仕上げとして、吹き出しにある「強調」「インペイント」を抑えると更にGOOD!

プロンプトの作り方

オーソドックスな作り方としては、英単語をカンマ区切りで入力していくスタイルです。（上記画像の赤枠の箇所）
例えば「1girl,solo,standing,smile,」等、自分が創りたいものをイメージして入力していきます。

そして、強調したい単語は「{}」で括り、弱めたい要素は「[]」で括ります。
プロンプト自体は公式のドキュメントからそのまま引用しますが、以下の画像にように解釈出来ます。

1girl, black hair, **chibi**, catgirl under a cherry blossom tree

[[[chibi]]]で、注目度を下げてその生成を抑制します。逆に、
{{{chibi}}}で、注目度を上げてその生成を促進します。

それぞれ1.05倍の注目度となります。
似たようなものは、Stable Diffusionにもありますが、設定を変えない場合、{}が()に置き換わっています。さらにちなみに、この場合強度もNovelAIとは異なりますが、これについては省略します。

入力に際して揺れがあるもの、また、他候補があるものについては、サジェストもしてくれます。

この辺は公式ドキュメントに言及はありませんが、学習元とされるdanbooruタグが使用されているものと推測します。
ただし、このタグの使用は絶対では無いそうで、公式ドキュメント曰く推奨されるに留めるとのことで、後ほど解説します英文で作成してみる、でも通るように結構柔軟です。

画像生成AIの足し算と引き算

これが結構重要な考え方だと思います。
先ず、作成したいものは上記にあるように、プロンプトのところに入れていきます。しかし、生成したくないものも当然出てくることがあります。

具体的に、「cowboy shot」や「bowl cut hair」等入力した際に、背景にカウボーイが登場したり、お盆のようなボールを持った少女が登場したりします。
そうしたときに、引き算の考え方で、除外したい要素（ネガティブプロンプト）にキーワードを入れていきます。

そうすることで、かなり意図した画像が作りやすくなります。

補足で、上記の例では品質タグと呼ばれている、「best quality」等が含まれますが、V1、V2のモデルを試したある種古典的なテクニックの名残で、V3だと無くても構わないようです。
うっすらと、品質タグ有効や、除外したいプリセットが有効です、とありますが、これだけで充分機能します。
ただし、ものによってはあえて強調させることで、画風が変わるものもあるので、特定のテーマで納得出来ない場合は、入れて強調してみるのも手かもしれません。

インペイントで微修正しよう

折角作成したものが、微妙に惜しいときありますよね。
そんな時に、インペイント機能を使うことで理想により近づきます。

例として以下の画像のヘアスタイルについて、2つのお団子ヘアなら良いのに！と考えたとします。
そうしたときに「画像をインペイントする」を押して、修正したいところをマスクします。

マスクした後は、そのまま「保存して閉じる」を押します。

元の画面に戻ったら、プロンプトを全て消して「twin Bun hairstyle」と入力します。
そのまま、再度「1枚のみ生成」を押します。

すると、以下のように生成されます。

これが凄いのは、コストがかからない所（オーパスプランであれば）、そして、そのマスクしたところ以外の変化が皆無なところです。
一応、多少変化します、とも記載がありますが、自分が見た感じマスクしたところ以外に変化はないようです。これは本当に凄い。
たしかに、Adobeの製品にもその機能はありますし（こちらはレイヤーに分けて作られるので分かりやすいですが）、Stable Diffusionでも使うことはできますが、NovelAI単体でこうも綺麗にできると感動します。

仕上げの画像の強調

さて、納得ができる画像になったなら、最後の仕上げをかけることができます。これが「強調」の機能です。
こちらは、単なるアップスケーラーとは違い、プロンプトを再度NovelAI側で解釈し、それを強調させ、任意で拡大もしてくれるものです。

単に拡大させるだけであれば、「拡大」という機能もありますが、個人的には、「強調」をデフォルトの1.5倍の強度3でかけることを先ずオススメします。

この画像、気付く人は気付くと思いますが、V1～V3で紹介したものと違い、手袋をしています。
これも、インペイントで修正したもので、手の辺りをマスクし、「white globe」で生成すると、右の「元画像」のようになります。

さらに間違い探しに近いですが、背景にあるチープな木も消えているはずです。
こちらは、消したいものをマスクし、プロンプトに「none」を入れることで消すことができます。
Adobeの製品であれば、プロンプトに何も入力しないことで、察してそこを消してくれますが、NovelAIの場合何かを入れないと実行できないので、そんな時は「none」を入れて実行すれば良いです。