見出し画像

[AI最新NEWS]【後編】Chat-GPT有料版新機能 -スクショ+日本語指示でウェブサイトまで作れる

 Chat-GPT有料版の新機能紹介の、後編になります。

具体的には次の4つの機能が追加されました。

1.ブラウジング機能が復活した
2.音声で会話できるようになった
3.画像を読み込み理解できるようになった
4.画像を作れるようになった

 後編では、「3.画像を読み込み理解できるようになった」、「4.画像を作れるようになった」について説明します。


  こうした画像を読み込む、画像を作る、機能は、実はChat-GPTより前に他の生成系AIにありました

 例えば、Googleの「Bard」で画像を読む機能はありましたし、画像は、MidjouneyやStable Diffusionで作れていました。

 Chat-GPT以外の生成系AIもよく使っていて、Chat-GPTをそれほど使わなくなっていたのですが、今回のChat-GPTの画像機能があまりにすごいので、最近、またChat-GPTを一番多く使うようになりました

3.画像を読み込み、理解できるようになった


 今回のアップデートで、プロンプトを入力する欄の左側に「ボタン」が表示されるようになり、そこを押すことで、画像ファイルを読み込むことができるようになりました。

例1:レシートの読み取り

 例えば、次の画像を読み込ませて、「これは何の写真?」と聞くと、「スーパーのレシートで、XXを買ったようです」と答えます。

レーシートの写真

  次に「この写真の中にある文字をテキストにして」とお願いすると、

  • 鬼滅の刃ふりかけ

  • はっさく ...

 と文字を出力してくれます。

 これは、Googleレンズや、OCRでもできていましたので、それほど驚きではありませんが、Chat-GPTで、できるようになると便利度が上がります。

 では次のようなことはどうでしょう。

例2:料理写真からカロリー推測

料理の写真

 「この料理の写真を読み込んで、この料理の、カロリー数を計算して」と言うとですよ、

 「この画像には、おにぎり、梅干し、きんぴら、ホウレンソウ……の料理です。大きさから想定すると、ご飯XXグラム、梅干し:XXグラム……なので、総カロリー数はXXXカロリーと推定されます」

 と答えました。

例3:画像からプログラムを作成

 さらには、画像からプログラムを作る、です。

 え?どういうこと?  ……ですよね。簡単に説明します。

サイトのスクショを読ませ、似たサイトを作成


 例えば、ウェブサイトを作成したなと思って、サンプルをネットで探してこんな感じににしたいな、と思ったことはありませんか?

 そんな時は、気入ったウェブサイトの画面のスクリーンショットを撮影し、その画像を、Chat-GPTに読ませます。

 次に、「このページのHTML/CSSコードを生成」して、とお願いすると、同じようなHPが作れてしまうのです。

 ここからが、さらにすごいのですが、

「この画像をこちらに変えて」
「文字の位置をもう少し左下に移動して」

 といったプロンプトで、画面編集もしてくれます。

 今までのChat-GPTでは、HPを「HTML/CSSコードを生成」は何とかできましたが、そこから、自分のHPに仕立てるには、直接HTML/CSSファイルを自分で編集、つまりプログラミングしないといけませんでした。

 それが、「日本語の指示だけでプログラム修正」ができてしまう。

 もう、すごすぎて笑ってしまいました。

4.画像を作れるようになった

 僕にとって、今回のChat-GPTのアップデートで一番嬉しかったのが、この機能追加です。

 まず、画像生成機能。これは「DALL·E 3」という機能を使っています。「DALL·E」は、OpenAIの画像生成AIで、Microsoftの画像生成系AI「Bing Image Creator」でも使えてましたが、今までは、バージョンが2でした。

 それがバージョン3にあがり、Chat-GPTに組み込まれたことで、劇的に便利になったのです。

画像のクオリティ

 まず、「画像の綺麗さ」、「文字通りの絵を作る能力」が格段に向上しました。

 今まで、僕は、画像を作る場合は、Midjouneyを使っていましたが、その理由は、この、「画像の綺麗さ」、「文字通りの絵を作る能力」が、他のAIより優れていたからです。

 でも、今回Chat-GPTに搭載された、「DALL·E 3」は、Midjouneyと同等といってもいいクオリティで画像を作ります。

画像内に文字を入れる

 生成系AIで画像を作るにおいて、一番難しいのは何だったでしょう? それは、「画像内に文字を書くこと」でした。

 相手は人間のように言葉を「理解」しているわけではない。そう考えると、これは容易に推測できると思います。

 しかし「DALL·E 3」は、難なく、文字を画像に入れることができます。

対話しながら画像が作れる

 それだけでも感動したのですが、これだけではありません。

 それは「対話しながら、画像を完成させることができる」ようになったことです。

 何が便利なの? と疑問に思われそうですが、これは本当に便利です。

 今まで、Midjouneyなどで画像を作るときの作業は次のようなものでした。

①「XXという画像を作って」と入力する
②表示された数個の画像を見て、その中でいいものがあれば選ぶ
③ない場合、再度、「XXがXXの画像を作って」と入力する
④生成された画像を見て、また指示を入れる……

を、延々と続けて完成させていました。これは、結構面倒でした。

 それが、表示された画像を見て、「ここをこうして」とお願いし、出てきた画像に対して、「ここをこう」とお願いする……。

 つまり、Chat-GPTと対話しながら画像を完成させることができるようになりました。

 画像を作る時間が短縮されて、本当に便利です。

例:対話しながら画像作成

 例で示してみましょう。

 例えば、「イルカが車の上にいる絵を描いて」と入力すると、こんな画像が生成されました。

クルマの上にイルカがいる絵

 クルマの色を青より赤にしたい、と思ったら、次のように入力します。

 「この絵のイルカを赤色にして」と。すると……

イルカを赤色にした絵

 そうだ、イルカに文字を入れよう、と、次のように入力します。

 「イルカに Dolpin という文字を入れて」と。すると……


イルカにDOLPHINという文字を入れた絵

 できました。文字も間違えずに入っています。

 かつてのように、何度も日本語のプロンプトを打ち込んでは、生成されたものに対して「うーん……」ということもなく、Chat-GPTと対話することで、絵が完成できます。

 この機能は、本当に、僕が欲しかったものです。今回のアップデートで一番使っているのはこの機能です。

各社のアップデート合戦が楽しみ

 画像系生成AIも、Chat-GPTの登場で、いい時代になりました。

 見る、聞く、しゃべる、は、Googleの「Bard」にも一足先に実装されていましたが、Chat-GPTの今回のアップデートは、「Bard」の完成度を上回っている、と思います。当然、今後、Googleが、負けじとアップデートしてくるのも楽しみです。

 既述のように、本情報は有料版のアップデートですが、そのうち、無料版でも使えるようになるでしょう。

 その際にはまた、解説記事を書ければと思います。



いいなと思ったら応援しよう!