見出し画像

AIで生成した画像でフォントを作りました。その4/今後の話

概要

Stable Diffusionのimg2imgを使用して、いわゆる「AIで作ったフォント」を作りました。フォント名は「まじなのセルフィ」です。今回で4回目です。

今回はプロンプトをImg2Textで生成してもらいました。つまりAIが元のフォントの画像の説明を生成し、それを自分自身に適用してImg2Imgを回しています。言葉だと説明しずらいので画像をぺたり。プロンプトの自己再適用がカメラの自撮りのように思えたので、このフォント名にしました。プロンプト考えるの面倒・・・興味本位の研究ですね。

まじなのセルフィのつくりかた

仮名とアルファベットと約物で、全然違う形が生成されて面白かったです。仮名は角ばっていてところどころ崩れたような形ですね。アルファベットには毛筆で描いたような線の強弱やハライが見られ、アルファベットの約物には漢字っぽい何かが見えます。プロンプトの"chinese character"が影響しているんでしょうね。実験的なプロンプトの割にはうまく行ったような気がします。実用性があるかは怪しいですが。

書体見本
日本語組み見本
英語組み見本

気づいたこと

今回のフォントを作成して得た気づきのひとつが、文字単体レベルでは結構良い文字が生成されるということです。インプットには角ゴシックを入れているのに、出力として変わり種の角ゴシック、手描きの丸ゴシック、ジオメトリック、毛筆体など、バリエーション豊かな文字たちが生成されました。

今はスタイルを統一することができないので、「この文字いいな」と思っても全文字にそのスタイルを適用することはできません。たとえシード値が同じでも、文字が違えば異なるデザイン・スタイルになることがあります(似たデザインになることもあります)。技術革新によって改善されると、もっと自由度とクオリティの高いフォント生成を行えるようになると思います。マンガの作成やキャラクターのデザイン統一は結構求められていると思うので、そのあたりの研究のおこぼれをもらえるかもしれません。

あと「れ」がもととなったひらがなの「礼」の字由来の形、左右に分かれる字形で生成されたものもあって、ちょっとびっくりしました。もちろんAIが元の字形を知るはずもないです。偶然だとは思いますが、「れ」の字形からご先祖を推測させる何かしらの要素があるのでしょうか?

出力画像例

今後について

バニラのStable DiffusionのImg2Imgを使ったフォント作成はひとまず終わりとします。今の課題として以下があり、今の方法では改善が見込めないためです。

  • イラストを主とした生成モデルである以上、文字の出力には向いていない。

  • スタイルの統一が困難。

  • クオリティを担保するため、1文字につき16枚の画像を生成し、人が選別やノイズ除去を行っている。人の手がかかりすぎている。

今後はFine-tuningといって、今あるモデルに追加学習を行うことで目的に特化した生成モデルを構築することを目標にします。すでに世の中には、汎用お絵かき用モデルから特定の絵師の画風を再現するモデルであったり、作曲AI(例:Riffusion)のような画像生成と関係ないモデルの構築も行われています。

すでにFine-turinigによる文字画像の生成を行っている方もいるので、技術的にはもう十分いけると思うのですよね。Google Fontで学習用画像も揃っているわけですし。

というわけで、しばらくはお勉強・準備作業をがんばります。手描きのフォントも久しぶりに作ってみたいような気もするのですが、気が向いたらということで。
ではでは。


この記事が気に入ったらサポートをしてみませんか?