見出し画像

Sora vs Pika ~ 画像生成AIの革命児(?)とお手軽UIのサービスの実力を探る!


はじめに

表題の画像は、今週の生成AIの話題の中心だったと言っていいOpenAIが発表したSoraによる生成画像と、比較的新しい画像生成サービス Pika に同じプロンプトで画像を出力させた結果です。(なお正確にはどちらも動画を生成したものですが、このnoteでは適当なフレームを抜き出して比較しています。)
左上のSoraの画像では「ポッドキャストをしている」の部分が反映されていますが、右下のPikaの画像ではその部分が抜け落ちてしまっています。

Soraの空恐ろしい実力について解説したnoteは、例えば(「AIとコラボして神絵師になる」の著者しらいはかせ氏の)この記事を参照していただくとして、このnoteでは「同じプロンプトでも2つのサービスではこのように解釈が違うらしい」という部分だけを羅列していきます。そもそもPikaはDALL-E3を利用したサービスであり、本来ならSora vs DALL-E3という比較なのですが、Pikaというネーミングに敬意を表して Sora vs Pika の始まりです。

※なお、画像内のプロンプトは実際に入力した英文のGoogle翻訳です。Soraの画像はこちらのYouTubeからスクリーンショットを作成しました。またPikaは動画の長さを最長7秒まで指定できます。

#01 人の形をした巨大なそびえたつ雲

#01 人の形をした巨大なそびえたつ雲

残念ながら「人の形をした雲」(クラウドマン)は現れず、しかし稲妻は落ちました。地球上に迫る雲の表現はどちらも同じようなものです。

#02 水没したニューヨーク

#02 アトランティスのように水没したニューヨーク市

こちらも「ニューヨークが水没している」ようには見えませんが、魚、クジラ、サメは数が少ないながらも登場しています。

#03 寝ている飼い主を起こして朝食を要求する猫

#03 寝ている飼い主を起こして朝食を要求する猫

Soraではリアルな猫と飼い主のインタラクションが話題になりましたが、Pikaではとりあえず黒猫が出てきただけでした。3秒から7秒へ動画の時間を伸ばすと、なぜか黒猫の下から小さい猫が出てきて、さらにその猫の口の部分が頭の方から出てくるという気持ち悪い現象が。おそらく下から出る猫の顔を上に向けようとしてこうなったのではないでしょうか。

#04 大きくて表情豊かな目をした、小さくて丸くてふわふわした生き物の 3D アニメーション

#04 大きくて表情豊かな目をした、小さくて丸くてふわふわした生き物の 3D アニメーション

Pikaのこの画像だけ一つ前の猫のシードを使って生成してみました。猫がふわふわのアニメーション調になったものの、7秒動画では「目を驚嘆させる」代わりに目が3つになりました(ホラー!!!)。確かに驚いた目になってはいるのですが…。

#05 さまざまな番組を映す山積みのビンテージ テレビの周りを回転します。

#05 カメラは、ニューヨークの美術館の大きなギャラリー内に設置された、1950 年代の SF 映画、ホラー映画、ニュース、静止画、1970 年代のホームコメディなど、さまざまな番組を映す山積みのビンテージ テレビの周りを回転します。

Pikaは1950年代のニューヨークの美術館をイメージしてしまった模様です。Soraのようにテレビに映っているのが映画なのかニュースなのか判別するのは不可能ですが、それなりにプロンプトの意図を汲んでいるのではないでしょうか。

#06 2056 年のナイジェリア、ラゴスの人々を映した美しい自家製ビデオ。携帯電話のカメラで撮影

#06 2056 年のナイジェリア、ラゴスの人々を映した美しい自家製ビデオ。携帯電話のカメラで撮影

未来をイメージするというプロンプトの意図はあまり伝わっていないようです。カメラも左の方の景色を映すためにパンしているだけで、携帯電話のカメラとは言い難い。ただ民族的な衣装などは反映されているようです。

#07 ゴールドラッシュ時代のカリフォルニアの歴史的な映像。

#0 7 ゴールドラッシュ時代のカリフォルニアの歴史的な映像。

「歴史的な映像」としてPikaはモノクロのフッテージになりました。ゴールドラッシュ時代の馬車が登場するのは同じですが、2つの馬車が交差してお互いに通り過ぎる(ように見える)といった破綻が観られます。

#08 漫画のカンガルーディスコが踊ります。

#08 漫画のカンガルーディスコが踊ります。

コミカルな衣装、動き、さらには舞台と観客まで設定したSoraに対して、Pikaは「ディスコにいるらしいマンガ風カンガルーのアップ」というだけで、手と口が動くものの踊っている感には乏しいですね。また口と指が7秒動画だと破綻してしまうのも惜しいです。

#09 スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。

#09 スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。

東京が舞台ということで、このSoraの映像も話題になりましたがPikaでもかなりニュアンスの近い動画が生成されています。ただし路面が湿っている部分までは反映されていません。

#10 赤いウールのニット バイク ヘルメットをかぶった 30 歳の宇宙飛行士の冒険を描いた映画予告編。

#10 赤いウールのニット バイク ヘルメットをかぶった 30 歳の宇宙飛行士の冒険を描いた映画予告編

映画の予告編風の映像も比較的よく似た映像が生成されています。宇宙飛行士が横を向くと少し顔が変わったように見えるのと、Soraは地平線にポツンと立っている宇宙飛行士のカットも入るのに比べて、Pikaは宇宙飛行士のアップのみです。7秒だから仕方ないですが、予告編というには物足りないですね。

#11 20代の若い男性が空の雲の上に座って本を読んでいます。

#11 20代の若い男性が空の雲の上に座って本を読んでいます。

どちらも構図が違うだけで解釈は同じですが、Pikaは雲の上に座っているかどうかは分かりません。Pikaはプロンプトの内容を反映できる構図かどうかは特に考慮しないようですね。

#12 マジックアワー中にマラケシュに立つ24歳の女性のまばたきの極端なクローズアップ

#12 マジックアワー中にマラケシュに立つ24歳の女性のまばたきの極端なクローズアップ、70mmで撮影された映画のようなフィルム、被写界深度、鮮やかな色、映画のような。

こちらも構図が違うだけで、ニュアンスはPikaでもよく汲み取れています。ただ女性の化粧がどこから来たのか、おそらくマラケシュ(モロッコ)というワードからインスピレーションを得たのではないかと思いますが。

#13 サイバーパンク環境におけるロボットの生活の物語

#13 サイバーパンク環境におけるロボットの生活の物語

Pikaの方は、7秒の動画では「ロボットの生活」までは描写出来なかったものの、「サイバーパンク環境」の方はそれなりに意識されています。とにかくPikaによる生成では、主体の周りにある環境のディテールまでは再現するのは無理みたいですね。

#14 ビッグ サーのガライ ポイント ビーチ沿いの険しい崖に打ち寄せる波をドローンで撮影。

#14 ビッグ サーのガライ ポイント ビーチ沿いの険しい崖に打ち寄せる波をドローンで撮影。

自然の描写はなかなかよく出来ています。「打ち寄せる青い水が白い波を生み出し、夕日の金色の光が岩場の海岸を照らします。」さらに「緑の植え込みの入り江があります。」は考慮されているように見えますが、「 灯台のある小さな島が遠くにあり」の部分は分かりませんでした。

#15 きれいにとかした白髪のおばあさんが、木製のダイニングルームのテーブルで、たくさんのろうそくのついた色とりどりのバースデーケーキの後ろに立っており

#15 きれいにとかした白髪のおばあさんが、木製のダイニングルームのテーブルで、たくさんのろうそくのついた色とりどりのバースデーケーキの後ろに立っており…

Soraでも難しいこの映像、Pikaでも表情の変化はキャプチャできましたが、7秒では「 彼女は前かがみになり、そっと息を吹きかけながらろうそくの火を吹き消します。」の部分は再現できませんでした。手首の動きが破綻しているのもわかります。

#16 バスケットボールがフープを通って爆発します。

#16 バスケットボールがフープを通って爆発します。

要素としての爆発の表現が「ボールを包む炎」として共通しているのが興味深いですね。Soraではフープの周りにある景色が表現されていますが、Pikaではフープそのものが見当たらずボールが宙を飛んでいるようにも見えます。

おわりに

以上、タイトルを含めて17枚の画像を生成してみました。Pikaでは動きを正確に再現した映像を作成するのは困難ですが、プロンプトで伝える要素を絞り込むことでこちらが表現したいニュアンスを伝えることは出来るようです。またマンガ調よりも実写に近い映像の方が破綻が少ないように見えます。


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?