文字情報ならお手の物

OpenAIがGPT-4を紹介する動画に、冗談を返すウェブサイトを作ってもらう部分がある。
 
ブレーンストーミングにちかい手書きのメモを写真に撮って画像で送り、こんな感じのウェブページが欲しいと伝えると、HTMLコードを返してくる。それをそのままテキストファイルにコピペしてサーバーにアップロードすると、すぐにウェブサイトが公開できる。

HTMLコードを返してくる部分は今までのChatGPTにもできていた。だからこの紹介部分は、画像を認識できるところがポイントなのだろう。
 
ただし、画像の内容は、殴り書きにしても文字情報だった。
 
大規模言語モデルである以上、元が音声でも画像でも、テキストにさえなればお手の物なのだろう。これが、パントマイムや台詞なしの漫画からプロンプト(指示)を読み取れるようになったら、また一段すごいことになりそうだ。
 
 
参考サイト:
◆GPT-4 Developer Livestream (by OpenAI)
https://youtu.be/outcGtbnMuQ
 
◆GPT-4 Developer Livestream (手書きのメモからHTMLコードを生成する箇所)
https://youtu.be/outcGtbnMuQ?t=971
 
◆◆◆