[AI最新NEWS]【後編】Chat-GPT有料版新機能 -スクショ+日本語指示でウェブサイトまで作れる

Takashi Nakayama

2023年10月8日 11:35

　Chat-GPT有料版の新機能紹介の、後編になります。

具体的には次の４つの機能が追加されました。

１．ブラウジング機能が復活した
２．音声で会話できるようになった
３．画像を読み込み理解できるようになった
４．画像を作れるようになった

　後編では、「３．画像を読み込み理解できるようになった」、「４．画像を作れるようになった」について説明します。

　　こうした画像を読み込む、画像を作る、機能は、実はChat-GPTより前に他の生成系AIにありました。

　例えば、Googleの「Bard」で画像を読む機能はありましたし、画像は、MidjouneyやStable Diffusionで作れていました。

　Chat-GPT以外の生成系AIもよく使っていて、Chat-GPTをそれほど使わなくなっていたのですが、今回のChat-GPTの画像機能があまりにすごいので、最近、またChat-GPTを一番多く使うようになりました。

３．画像を読み込み、理解できるようになった

　今回のアップデートで、プロンプトを入力する欄の左側に「ボタン」が表示されるようになり、そこを押すことで、画像ファイルを読み込むことができるようになりました。

例１：レシートの読み取り

　例えば、次の画像を読み込ませて、「これは何の写真？」と聞くと、「スーパーのレシートで、XXを買ったようです」と答えます。

　　次に「この写真の中にある文字をテキストにして」とお願いすると、

鬼滅の刃ふりかけ
はっさく　．．．

　と文字を出力してくれます。

　これは、Googleレンズや、OCRでもできていましたので、それほど驚きではありませんが、Chat-GPTで、できるようになると便利度が上がります。

　では次のようなことはどうでしょう。

例２：料理写真からカロリー推測

　「この料理の写真を読み込んで、この料理の、カロリー数を計算して」と言うとですよ、

　「この画像には、おにぎり、梅干し、きんぴら、ホウレンソウ……の料理です。大きさから想定すると、ご飯XXグラム、梅干し：XXグラム……なので、総カロリー数はXXXカロリーと推定されます」

　と答えました。

例３：画像からプログラムを作成

　さらには、画像からプログラムを作る、です。

　え？どういうこと？　　……ですよね。簡単に説明します。

サイトのスクショを読ませ、似たサイトを作成

　例えば、ウェブサイトを作成したなと思って、サンプルをネットで探してこんな感じににしたいな、と思ったことはありませんか？

　そんな時は、気入ったウェブサイトの画面のスクリーンショットを撮影し、その画像を、Chat-GPTに読ませます。

　次に、「このページのHTML／CSSコードを生成」して、とお願いすると、同じようなHPが作れてしまうのです。

　ここからが、さらにすごいのですが、

「この画像をこちらに変えて」
「文字の位置をもう少し左下に移動して」

　といったプロンプトで、画面編集もしてくれます。

　今までのChat-GPTでは、HPを「HTML／CSSコードを生成」は何とかできましたが、そこから、自分のHPに仕立てるには、直接HTML/CSSファイルを自分で編集、つまりプログラミングしないといけませんでした。

　それが、「日本語の指示だけでプログラム修正」ができてしまう。

　もう、すごすぎて笑ってしまいました。

４．画像を作れるようになった

　僕にとって、今回のChat-GPTのアップデートで一番嬉しかったのが、この機能追加です。

　まず、画像生成機能。これは「DALL·E 3」という機能を使っています。「DALL·E」は、OpenAIの画像生成AIで、Microsoftの画像生成系AI「Bing Image Creator」でも使えてましたが、今までは、バージョンが２でした。

　それがバージョン３にあがり、Chat-GPTに組み込まれたことで、劇的に便利になったのです。

画像のクオリティ

　まず、「画像の綺麗さ」、「文字通りの絵を作る能力」が格段に向上しました。

　今まで、僕は、画像を作る場合は、Midjouneyを使っていましたが、その理由は、この、「画像の綺麗さ」、「文字通りの絵を作る能力」が、他のAIより優れていたからです。

　でも、今回Chat-GPTに搭載された、「DALL·E 3」は、Midjouneyと同等といってもいいクオリティで画像を作ります。

画像内に文字を入れる

　生成系AIで画像を作るにおいて、一番難しいのは何だったでしょう？　それは、「画像内に文字を書くこと」でした。

　相手は人間のように言葉を「理解」しているわけではない。そう考えると、これは容易に推測できると思います。

　しかし「DALL·E 3」は、難なく、文字を画像に入れることができます。

対話しながら画像が作れる

　それだけでも感動したのですが、これだけではありません。

　それは「対話しながら、画像を完成させることができる」ようになったことです。

　何が便利なの？　と疑問に思われそうですが、これは本当に便利です。

　今まで、Midjouneyなどで画像を作るときの作業は次のようなものでした。

①「XXという画像を作って」と入力する
②表示された数個の画像を見て、その中でいいものがあれば選ぶ
③ない場合、再度、「XXがXXの画像を作って」と入力する
④生成された画像を見て、また指示を入れる……

を、延々と続けて完成させていました。これは、結構面倒でした。

　それが、表示された画像を見て、「ここをこうして」とお願いし、出てきた画像に対して、「ここをこう」とお願いする……。

　つまり、Chat-GPTと対話しながら画像を完成させることができるようになりました。

　画像を作る時間が短縮されて、本当に便利です。

例：対話しながら画像作成

　例で示してみましょう。

　例えば、「イルカが車の上にいる絵を描いて」と入力すると、こんな画像が生成されました。

　クルマの色を青より赤にしたい、と思ったら、次のように入力します。

　「この絵のイルカを赤色にして」と。すると……

　そうだ、イルカに文字を入れよう、と、次のように入力します。

　「イルカに Dolpin という文字を入れて」と。すると……

　できました。文字も間違えずに入っています。

　かつてのように、何度も日本語のプロンプトを打ち込んでは、生成されたものに対して「うーん……」ということもなく、Chat-GPTと対話することで、絵が完成できます。

　この機能は、本当に、僕が欲しかったものです。今回のアップデートで一番使っているのはこの機能です。

各社のアップデート合戦が楽しみ

　画像系生成AIも、Chat-GPTの登場で、いい時代になりました。

　見る、聞く、しゃべる、は、Googleの「Bard」にも一足先に実装されていましたが、Chat-GPTの今回のアップデートは、「Bard」の完成度を上回っている、と思います。当然、今後、Googleが、負けじとアップデートしてくるのも楽しみです。

　既述のように、本情報は有料版のアップデートですが、そのうち、無料版でも使えるようになるでしょう。

　その際にはまた、解説記事を書ければと思います。