[AI最新NEWS]【後編】Chat-GPT有料版新機能 -スクショ+日本語指示でウェブサイトまで作れる
Chat-GPT有料版の新機能紹介の、後編になります。
具体的には次の4つの機能が追加されました。
1.ブラウジング機能が復活した
2.音声で会話できるようになった
3.画像を読み込み理解できるようになった
4.画像を作れるようになった
後編では、「3.画像を読み込み理解できるようになった」、「4.画像を作れるようになった」について説明します。
こうした画像を読み込む、画像を作る、機能は、実はChat-GPTより前に他の生成系AIにありました。
例えば、Googleの「Bard」で画像を読む機能はありましたし、画像は、MidjouneyやStable Diffusionで作れていました。
Chat-GPT以外の生成系AIもよく使っていて、Chat-GPTをそれほど使わなくなっていたのですが、今回のChat-GPTの画像機能があまりにすごいので、最近、またChat-GPTを一番多く使うようになりました。
3.画像を読み込み、理解できるようになった
今回のアップデートで、プロンプトを入力する欄の左側に「ボタン」が表示されるようになり、そこを押すことで、画像ファイルを読み込むことができるようになりました。
例1:レシートの読み取り
例えば、次の画像を読み込ませて、「これは何の写真?」と聞くと、「スーパーのレシートで、XXを買ったようです」と答えます。
次に「この写真の中にある文字をテキストにして」とお願いすると、
鬼滅の刃ふりかけ
はっさく ...
と文字を出力してくれます。
これは、Googleレンズや、OCRでもできていましたので、それほど驚きではありませんが、Chat-GPTで、できるようになると便利度が上がります。
では次のようなことはどうでしょう。
例2:料理写真からカロリー推測
「この料理の写真を読み込んで、この料理の、カロリー数を計算して」と言うとですよ、
「この画像には、おにぎり、梅干し、きんぴら、ホウレンソウ……の料理です。大きさから想定すると、ご飯XXグラム、梅干し:XXグラム……なので、総カロリー数はXXXカロリーと推定されます」
と答えました。
例3:画像からプログラムを作成
さらには、画像からプログラムを作る、です。
え?どういうこと? ……ですよね。簡単に説明します。
サイトのスクショを読ませ、似たサイトを作成
例えば、ウェブサイトを作成したなと思って、サンプルをネットで探してこんな感じににしたいな、と思ったことはありませんか?
そんな時は、気入ったウェブサイトの画面のスクリーンショットを撮影し、その画像を、Chat-GPTに読ませます。
次に、「このページのHTML/CSSコードを生成」して、とお願いすると、同じようなHPが作れてしまうのです。
ここからが、さらにすごいのですが、
「この画像をこちらに変えて」
「文字の位置をもう少し左下に移動して」
といったプロンプトで、画面編集もしてくれます。
今までのChat-GPTでは、HPを「HTML/CSSコードを生成」は何とかできましたが、そこから、自分のHPに仕立てるには、直接HTML/CSSファイルを自分で編集、つまりプログラミングしないといけませんでした。
それが、「日本語の指示だけでプログラム修正」ができてしまう。
もう、すごすぎて笑ってしまいました。
4.画像を作れるようになった
僕にとって、今回のChat-GPTのアップデートで一番嬉しかったのが、この機能追加です。
まず、画像生成機能。これは「DALL·E 3」という機能を使っています。「DALL·E」は、OpenAIの画像生成AIで、Microsoftの画像生成系AI「Bing Image Creator」でも使えてましたが、今までは、バージョンが2でした。
それがバージョン3にあがり、Chat-GPTに組み込まれたことで、劇的に便利になったのです。
画像のクオリティ
まず、「画像の綺麗さ」、「文字通りの絵を作る能力」が格段に向上しました。
今まで、僕は、画像を作る場合は、Midjouneyを使っていましたが、その理由は、この、「画像の綺麗さ」、「文字通りの絵を作る能力」が、他のAIより優れていたからです。
でも、今回Chat-GPTに搭載された、「DALL·E 3」は、Midjouneyと同等といってもいいクオリティで画像を作ります。
画像内に文字を入れる
生成系AIで画像を作るにおいて、一番難しいのは何だったでしょう? それは、「画像内に文字を書くこと」でした。
相手は人間のように言葉を「理解」しているわけではない。そう考えると、これは容易に推測できると思います。
しかし「DALL·E 3」は、難なく、文字を画像に入れることができます。
対話しながら画像が作れる
それだけでも感動したのですが、これだけではありません。
それは「対話しながら、画像を完成させることができる」ようになったことです。
何が便利なの? と疑問に思われそうですが、これは本当に便利です。
今まで、Midjouneyなどで画像を作るときの作業は次のようなものでした。
①「XXという画像を作って」と入力する
②表示された数個の画像を見て、その中でいいものがあれば選ぶ
③ない場合、再度、「XXがXXの画像を作って」と入力する
④生成された画像を見て、また指示を入れる……
を、延々と続けて完成させていました。これは、結構面倒でした。
それが、表示された画像を見て、「ここをこうして」とお願いし、出てきた画像に対して、「ここをこう」とお願いする……。
つまり、Chat-GPTと対話しながら画像を完成させることができるようになりました。
画像を作る時間が短縮されて、本当に便利です。
例:対話しながら画像作成
例で示してみましょう。
例えば、「イルカが車の上にいる絵を描いて」と入力すると、こんな画像が生成されました。
クルマの色を青より赤にしたい、と思ったら、次のように入力します。
「この絵のイルカを赤色にして」と。すると……
そうだ、イルカに文字を入れよう、と、次のように入力します。
「イルカに Dolpin という文字を入れて」と。すると……
できました。文字も間違えずに入っています。
かつてのように、何度も日本語のプロンプトを打ち込んでは、生成されたものに対して「うーん……」ということもなく、Chat-GPTと対話することで、絵が完成できます。
この機能は、本当に、僕が欲しかったものです。今回のアップデートで一番使っているのはこの機能です。
各社のアップデート合戦が楽しみ
画像系生成AIも、Chat-GPTの登場で、いい時代になりました。
見る、聞く、しゃべる、は、Googleの「Bard」にも一足先に実装されていましたが、Chat-GPTの今回のアップデートは、「Bard」の完成度を上回っている、と思います。当然、今後、Googleが、負けじとアップデートしてくるのも楽しみです。
既述のように、本情報は有料版のアップデートですが、そのうち、無料版でも使えるようになるでしょう。
その際にはまた、解説記事を書ければと思います。