文字情報ならお手の物

2023年3月18日 02:21

OpenAIがGPT-4を紹介する動画に、冗談を返すウェブサイトを作ってもらう部分がある。

ブレーンストーミングにちかい手書きのメモを写真に撮って画像で送り、こんな感じのウェブページが欲しいと伝えると、HTMLコードを返してくる。それをそのままテキストファイルにコピペしてサーバーにアップロードすると、すぐにウェブサイトが公開できる。

HTMLコードを返してくる部分は今までのChatGPTにもできていた。だからこの紹介部分は、画像を認識できるところがポイントなのだろう。

ただし、画像の内容は、殴り書きにしても文字情報だった。

大規模言語モデルである以上、元が音声でも画像でも、テキストにさえなればお手の物なのだろう。これが、パントマイムや台詞なしの漫画からプロンプト（指示）を読み取れるようになったら、また一段すごいことになりそうだ。

参考サイト：
◆GPT-4 Developer Livestream (by OpenAI)
https://youtu.be/outcGtbnMuQ

◆GPT-4 Developer Livestream (手書きのメモからHTMLコードを生成する箇所)
https://youtu.be/outcGtbnMuQ?t=971

◆◆◆