見出し画像

日本特化の画像生成AIのJapanese Stable Diffusion XLを試してみた

SDXLなどの画像生成AIは、欧米の画像やキャプションを中心に学習しているため、基本的に英語入力が必要とされ、日本文化に根差した日本特有の物品や風景の画像を生成するのは得意ではありません。

今回、Stability AIから日本語入力が可能で、さらに日本特有のものを対象とした画像生成にも対応した日本特化の画像生成AIモデルであるJapanese Stable Diffusion XL(JSDXL)が公開されたので、早速試してみました。



1.Japanese Stable Diffusion XLの概要

Japanese stable Diffusion XL(JSDXL)は、SDXL 1.0の高品質な画像生成能力を維持したたま、日本語入力や日本語特有の表現に対応し、伝統的なものから現代的なものまで日本特有のものを対象とした高品質な画像を生成することができます。

JSDXLは、Stability AIが開発した、テキストから画像を生成する拡散モデルの画像生成AIで、SDXL 1.0をベースにファインチューニングしたモデルです。
事前学習済みモデルの汎用性を維持しつつ、日本語や日本の文化・表現の理解を最大化するため、日本語に対応した互換テキストエンコーダを利用して効率的な再学習手法(PEFT)による学習を行いました。
PEFTの手法としてより良い結果と学習の安定性を実現するため、直交ファインチューニング(OFT)という手法を採用しています。

JSDXLは商用利用可能なモデルです。

以下のデモサイトでJSDXLを実際に試してみることができます。


同一プロンプトでChatGPTのDALL-E 3が生成した画像を一部参考に掲載しています。

2.人物

〇 若い男

日本人ではないですね

〇 若い女

白黒ですが、左側は日本人にも見えます

〇 女子高生

完全に日本人になりました

〇 日本人女性

日本人女性を指定すると、服装が着物になります

〇 着物を着て傘を持った若い日本人女性、桜の木

細かい部分がおかしいようです

3.歴史的人物など

〇 織田信長

右は中国っぽい?

〇 侍

よく描けているのか、いないのか

〇 忍者

外国人のイメージする忍者?

〇 相撲

人形っぽい

〇 お姫様

ドレスを着たこどもの画像になりました

〇 鬼

西洋の鬼ですね

〇 日本の鬼

まだあまり日本の鬼らしくはないですね。

4.建物

〇 金閣寺

かなりそれらしいです

〇 城

西洋の城ですね

〇 日本の城

日本の城らしくなりました

〇 神社

少し歪んでいますが、日本の建物らしくはあります

〇 日本家屋

昔の建物ですね

〇 東京スカイツリー

左側はスカイツリーらしいが、周りの建物が変です

5.地名

〇 浅草

浅草らしさはあるが、不思議な建物

〇 秋葉原

秋葉原らしさはあまりありません

〇 原宿通り

原宿らしくはないですね

〇 沖縄の街

これも特に沖縄らしくはないですね。

6.浮世絵

〇 神奈川沖浪裏

実物とは違いますが、浮世絵らしいですね
DALL-E 3の方が本物に近いようです

〇 富嶽三十六景

本物の富嶽三十六景は、もっと鮮やかですね

〇 東海道五十三次

やはり本物はもっと鮮やかです

〇 見返り美人図

左側は美人ですが実写になってしまいました
見返ってない!

7.正月用品

〇 鏡餅

おかしいところはありますが、よく描けている方だと思います

〇 しめ飾り

これはリースですね

〇 門松

これも門松には見えません

〇 独楽回し

全く描けていません。

〇 炬燵

全く描けません

〇 こたつ

平仮名でもやはり描けません。炬燵を全く理解していないようです

〇 炬燵に入ってみかんを食べながらテレビで紅白歌合戦を見てくつろいでいる家族

炬燵はやはり認識できていないようです

8.まとめ

日本語入力に対応できていることはよいですが、日本特有のものに関する理解は、まだ改善の余地があるようです。
また、SDXL 1.0に比べて、画像が歪んだり、おかしくなったりすることが多い点も課題だと思います。

他方、日本語入力可能なSDXLが公開されたのは非常にありがたいことであり、これをベースにファインチューニングした日本語対応の改善モデルが沢山出てきたらよいのにと思っています。


この記事が気に入ったらサポートをしてみませんか?