文字情報ならお手の物
OpenAIがGPT-4を紹介する動画に、冗談を返すウェブサイトを作ってもらう部分がある。
ブレーンストーミングにちかい手書きのメモを写真に撮って画像で送り、こんな感じのウェブページが欲しいと伝えると、HTMLコードを返してくる。それをそのままテキストファイルにコピペしてサーバーにアップロードすると、すぐにウェブサイトが公開できる。
HTMLコードを返してくる部分は今までのChatGPTにもできていた。だからこの紹介部分は、画像を認識できるところがポイントなのだろう。
ただし、画像の内容は、殴り書きにしても文字情報だった。
大規模言語モデルである以上、元が音声でも画像でも、テキストにさえなればお手の物なのだろう。これが、パントマイムや台詞なしの漫画からプロンプト(指示)を読み取れるようになったら、また一段すごいことになりそうだ。
参考サイト:
◆GPT-4 Developer Livestream (by OpenAI)
https://youtu.be/outcGtbnMuQ
◆GPT-4 Developer Livestream (手書きのメモからHTMLコードを生成する箇所)
https://youtu.be/outcGtbnMuQ?t=971
◆◆◆