イラスト添削AIは難しい?なぜイラストレーターが求めるAIは出てこないのか

※このnoteは専門家ではない技術オタクが思っていることを書いたものです。間違っている可能性が高いので、公式サイトや論文などで正確な情報を確認してください。


最近、「Control Net」という新しい画像生成モデルが登場しました。イラストAIの進化は目覚ましいですが、イラストレーターにとっては脅威かもしれません。

しかし、イラストレーターが本当に欲しいAIは、絵を丸々生成してくれるものではなく、絵の添削をしてくれるものではないでしょうか?添削AIがあれば、イラストレーターの成長に役立ちますし、添削依頼にお金や時間をかける必要もありません。ただし、添削業者にとってはマイナスですね。

今回はイラスト添削AIの難しさについて話してみたいと思います。
私はAIの研究者ではありませんが、プログラミングやディープラーニングに少し触れたことがありますし、「Transfomer」の論文も読んだことがあります。だから一般人より少しだけ詳しくなったつもりです。

イラストAIにとって「イラスト」とは何でしょうか?それは「RGB」という3つの値が大量に並んだものです。厳密に言えば、3次元ベクトルが大量に並んだものです。

そして、イラストAIにとって「イラストを生成する」という行為は何でしょうか?それは「ピクセルをうまく並べることで人間から報酬(数字)を得られるらしいから最適なパターンを探す」ということです。そこに意思や感情はありません。人間から報酬(数字)が得られるようにピクセルを並べています。
この記事では「報酬」や「得られる」などでAIを擬人化して表現していますが、実際は報酬(数字)を最大化するアルゴリズムしか実装されていません。意思や感情がなければリストから最大値を探すアルゴリズムと同じようなものだと思います。

さて、添削AIがすべきことは次の二つだと思います。

1.今描かれかれたイラストと参考となるイラストの違いを論理的に説明できる(この時点ではベクトルの塊で構わない)
2.論理的に説明したベクトルの塊を人間に理解できる自然言語に変換する

AIに詳しい人なら、1も2も難しいことがわかると思います。現在のイラストAIは、イラスト生成に特化されており、ピクセルをうまく並べることしかできません。二つの画像を入力して、それぞれがどう違うのかを説明するようにはできていません。

しかし、全くイラスト添削AIが不可能だというわけではありません。
実は、イラストAIなどの画像生成AIは言葉をベクトルに変換し、そのベクトルをさらに画像に変換しています。これは、画像にどんな要素があるかを説明する技術が基礎となっています。

つまり、イラストAI技術の基礎はイラスト説明AIだと言えます。もしこの説明AIを強化して、より詳細な説明ができるようになれば?
そしたら、イラスト添削AIも実現できるかもしれません。

P.S. この記事はベースを書いてBing AIに校正してもらいました。すごいですね。

この記事が気に入ったらサポートをしてみませんか?