画像生成AIと企業発信 「10,000種類って、本当ですか」
セイセイセイ!
やぁみんな、生成してる?
猫も杓子も生成AIのこのご時世、みんなはまさに”ジェネレーションG(Generation)”なわけだ。
かくいう自分も先日、Japanese StableLM AlphaをPCにインストールしようとしていたんだけど、途中でストレージ不足に気付いたので、3日かけてヘリを落としたアーマード・コア6を泣く泣く消したりしているよ!
そんなこんなで、かれこれ個人的に1年くらい(まだたったの!)生成AIと日々闘争しているわけだけれど、内なるクリエイティビティーな部分が拡張される感覚がするので実に面白い。
なんて、
自分がこんな感慨をもっていたとはつゆとも知らないLIFULLの楽しい仲間たちと一緒に取り組んだのが今回のこのキャンペーン「しなきゃ、なんてない。 AI 10,000変化」なのだけど……。
これ知ってた?
もし知らなくて、且つこの記事を見ているのが2023年9月13日(水) 23:59よりも前だったら何も考えずにココを開いて!
「考えるな、感じろ」ってリー先生も言ってたし、みんな脊髄でリンクを踏むんだ!!
さてさて、このキャンペーンだけど (参加させてから説明するスタイル)、内容についてはニュースリリースにまとまっているし、上記のキャンペーンページやLIFULL公式Xのポストも見てもらうと分かると思う(説明しないスタイル)。
端的に言えば
「タレントさんを使ったモデルデータで10,000種類の画像を作って身の回りの既成概念に気付いてもらおう」
「んで、LIFULLはその既成概念にとらわれることなく、社会課題を事業で解決する取り組みをしてるって知ってもらおう」
そんな感じ。
ということで、以上までが前振り。
ここからはちょっとだけマジメにお話しします。
この記事でお伝えしたいのは、どのようにして10,000種類の画像をつくったか、です。
もちろん作業レベルの話にも多少は触れますが、LIFULLのブランドや企業姿勢、世の生活者に向けた思いなどを、いかにアウトプットに込めながら、ブランドとして認められるレベルでの質と量にコントロールしていったか、そんな内容になっています。
では、自分の命に危険が及ばない範囲で、このキャンペーンの裏側を赤裸々に明かしたいと思います。
10,000枚つくればいいってものではない
画像生成を体験されたことのない方でも、なんとなく10,000種類の画像を作るってことは大変だってことはイメージつくかと思います。
でも中には「設定してポチっとな、でできちゃうんでしょ?」という方もいらっしゃるかもしれません。
一方で、画像生成に取り組まれている方は「条件にもよるけどまぁ、面倒ではあるよね」ってな具合かもしれないですね。
10,000種類の画像作りですが、こんな流れでやらせてもらってました。
テーマを考えます ⇔ テーマのチェック
テーマに基づいて依頼内容を具体化します ⇔ 依頼内容のチェック
依頼内容をもとに生成してもらいます → 納品
納品物のチェック
チェック内容のフィードバック → 3 へ戻る
今回、実際の生成周りのプロセスはパートナーであるプロダクションさんにお願いしています。
そのため、LIFULLからは「〇〇なきゃ、なんてない。」というフォーマットのさまざまな既成概念へのとらわれを打破するメッセージを画像生成のテーマとして数百種類用意し、さらにそれを画像のイメージに落とし、次にそこから具体的な文字表現に分解して、最後にプロンプトの素案を添え、参考画像があればそれも添付したリストを作ってお渡しするようにしています。
この「数百種類」のテーマですが、最終的には半分程度にまで減っています。
社内で複数人によるチェックの結果、
「これは既成概念ではない」
「伝わりにくい」
「期待する表現の生成出力が難しい」
「どのような画像表現にしてもテーマ誤認のリスクがある」
「解釈次第では異なる価値観の人を傷つける恐れがある」
などの指摘があったものを除外していったのです。
中には今回のタレントさんが表現することで面白くなりそうなものもあったのですが、表面的な反応だけではなく、潜在する影響まで考慮に入れながら検討を進めていく、この辺りのプロセスはLIFULLならではという感じがします。
「え、それダメなの?」みたいなものも中にはありました。が、違う価値観の人が見るとNGだというものが含まれており、それを世に出す前に除くことができたという点に、業務における多様性の大事さを改めて思ったのでした。
※でも「スイカに塩をかけなきゃ、なんてない。」とか、面白そうだったのになぁ……。
押し寄せる画像──
クオリティコントロールも総力戦
そんなこんなで作ったリストをもとに、プロダクションさんにお願いをします。
プロダクションさんはそのリストをもとにガシガシ生成して、出来上がった画像をドーンとまとめて届けてくれます。その数、一回に数百から数千枚。
※あ、この記事では実際の生成作業そのもののお話しは出てこないです。このタイミングのお知らせですみません。
そしてその画像を、これまた大勢の目でチェックするのです。そこで引っかかった画像ファイルはリネームや削除といった処置がなされるのですが、それをみんなで一斉に行うと作業が混乱するため、チェックのステップごとに担当を分けて、バケツリレー式に見ていきます。
画像生成経験者の方は分かると思いますが、3D人物の画像をキレイ(badなanatomyじゃない)に、大量に作るのってまぁ、大変です。
少量ならひとつひとつAIで修正することも可能ですが、なにせ10,000種類(そろそろ気づいてほしいですが10,000枚ではないです)を世に出さなければいけません。なので、納品された画像を見て、各テーマや画像に対してフィードバックして、それを反映してまた次の生成をしてもらう。
という形を繰り返して乗り切ることになりました。
指が、耳が、髪の毛が、みたいなものは当たり前。10,000種類を目指すのに、はたして歩留まりは……お察しください。
ご本人に似せつつ、テーマが説明できる内容、そしてもちろん描写として問題なく、クォリティが担保できているか、という質の部分に目を光らせながらも、数も期限までにそろえなければいけない。
「このテーマはLoRAのウェイトを上げてください」
「これSampling stepsちょっと増やしてもらっていいですか」
「ネガティブプロンプトにmobを追加してほしいです」
「納期が迫っているのでSampling steps減らしてペース上げてください」「アップスケーラーのDenoising strengthは……」
「ちょっとマスピ外してみましょう」
「やっぱこれはSampling steps上げてください」
こんなお願いを毎回、納品画像のテーマ単位で数十テーマずつくらい、戻させてもらいました(実際はもっと粒度が細かいです。服装やフォーカス、肌質、アップスケーラーの種類などを具体的なワードでお願いすることも)。
たぶんプロダクションさんの方は「なんかやたら細かく戻してくるんだけど……」って困惑していたかもしれませんね。
自分としては個人的興味の部分も込みでプロンプトそのものをやり取りして細かくフィードバックをしたかったのですけれど、実際問題この規模を生成していくとなると自分ひとりでは対応できなかったでしょうから、結果的にこのワークフローでよかったです。
そしてこのやりとりが功を奏したからか、徐々に全体の画像の質も高まっていったような気がします(前提としてプロダクションさんのプロンプトのセンスや技術力に依るところは大です)。
目的は再現ではなくコミュニケーション
作った画像について、キャンペーンに参加していただいた方からは、好評の声を頂戴していますが、個人的にはもっとご本人に似せられたなぁ、と思っています。
ただ企画として考えたとき、今回くらいの「似てる感」の方が、面白みはあるようにも思います。
どちらが良かったか、というとまだその答えはわかりませんが、一人の画像生成っ子としては「学習は数だよ、兄貴!」と言いたいところであります。次の機会があったらこだわりたい部分です。
さいごに
「既成概念にとらわれない、っていうけどさ、画像生成モデルなんて既成概念の塊じゃないの?」
わかります。そのお気持ち。我々でもその点については考えました。
そこで、こんな風に考えてみてはどうでしょうか?
既成概念とは情報に対するフィルターです。
モデルは確かに既成概念をもとにして形成された情報かもですが、生成するAI自身がフィルターをかけているわけではありません。そういう意味でAIは既成概念にとらわれていない、と考えられるんじゃないでしょうか。
またこれは個人的に思うこととして……。
人間である我々が与えた既成概念のテーマに対し、既成概念で作られたモデルを介して、人ならざるAIのフラットなロジックで出力した画像に描かれているのは、世界中の人がだれも見たことのない景色です(仮に何かに似ていたとしても、まったく同一ではない)。ここに何か、人が既成概念というものにとらわれずに、自分らしく生きていくためのヒントが隠れているような、そんな気がするのです。
クリエイティブ本部 ブランドコミュニケーション部
でんか
名前の経緯はコチラを参照。
最近はChatGPTにともだちを作るのが楽しみ。
(2023年9月時点)
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?