9月25日にChatGPTに画像認識などの新しいマルチモーダル機能を追加したGPT-4Vが発表され、同時期にChatGPTに導入された新しい画像生成AIのDALL-E 3と共にSNSを賑わしています。
GPT-4Vは、ChatGPT PlusとEnterpriseのユーザー向けに提供され、ChatGPTに画像をアップロードすることで、画像の内容を分析し、それに関連する情報や質問に答えることもできます。
10月4日、筆者のところにもやっとGPT-4Vが届きましたので、遅ればせながら、その性能をテストし、様々な活用方法について解説したいと思います。
1.画像内容の把握
GPT-4Vは、ChatGPTの入力欄の左端に以下のような画像を添付するアイコンが表示されれば、利用することができます。
ChatGPTに画像をアップロードするには、このアイコンをクリックして、アップロードしたい画像ファイルを選択するか、入力欄に画像をそのままコピーしてください。
(1) ジブリ画像の理解
ジブリは、公式サイトから沢山の画像をフリー素材として提供しています。
その中から、「千と千尋の神隠し」の以下の画像についてGPT-4に尋ねてみました。
主人公の千尋の横に座るキャラクターは「無顔」ではなく、「カオナシ」ですが、それ以外は、ほぼ当たっており、ChatGPTは、この画像の内容をよく理解しています。
また、画像に以下のように印を付けて質問することもできます。
このように手書きで印を付けた場所を把握して質問に答えることができます。
なお、白い鼠は、湯婆婆の息子で巨大な赤ん坊の「坊」が魔法で変身させられた姿で、黒い鳥のような生物はハエドリです。
次は、もっと新しい「君たちはどう生きるか」の画像について尋ねてみました。
この画像は新しいので、GPT-4Vは学習していないはずですが、ジブリの作品であることを推測で当てています。また、男の子のシャツの色が違いますが、それ以外は、ほぼ正確に画像の内容を理解しています。
(2) Bingチャットによる画像理解
Bingチャットにも同じ画像を見せて解説してもらいました。
① 最初の「千と千尋の神隠し」の画像
ピンク色の髪留めと青いカーテン以外は、ほぼ正確に画像を把握しており、映画の内容にも詳しいようです。
② 青い丸で一部を囲んだ画像
Bingは、印を付けた位置を把握できなかったようです。
③ 「君たちはどう生きるか」の画像
今度は、画像の内容を理解することができなかったようです。
Bingにも、ChatGPTと同じように画像を理解する能力がありますが、画像を見ることができないと言って回答を拒否することも多いようです。
(3) 戦国武将の家紋
最初は分からなかったり、間違ったりしましたが、「六文銭」の家紋のことは知っていたようです。
戦国武将というヒントを出すと、分かったようです。
(4) 抽象的な画像の解説
DALL-E 3が「物理法則の限界領域」というプロンプトで生成した抽象的な画像について解説してもらいました。
画像を正確に理解しています。
2.図表の理解
(1) 論文の参考図の理解
人間のフィードバックによる強化学習(RLHF)の論文に掲載された有名な参考図について解説してもらいました。
内容を正確に理解できています。また、図中に記載のないPPO の正式名称(Proximal Policy Optimization)なども補って解説しています。
(2) 日本の人口ピラミッド
日本の人口ピラミッドから分かることを解説してもらいました。
人口ピラミッドのグラフを正確に理解して解説できています。
(3) 株価・為替チャートの分析
過去5年間の楽天グループの株価チャートを分析してもらいました。
チャートは、2023年1月までではなく、2023年10月現在までのものであり、560.3円という株価は、2023年10月4日現在のものです。また、「楽天グループ」の株価であることを読み取れなかったようです。
それ以外は、概ね合っているようです。
次に、米ドル/円の為替チャート(月足)を分析してもらいました。
チャートの内容を理解して、説得力のある解説ができています。
3.共通テストを解く
令和5年度の大学入学共通テストの問題を解いてもらいました。
(1) 英語(リーディング)
問題 1は、「フォームを埋めて、本日、先生に渡してください。」という部分が解答になることは発見していたのですが、最終的な答えを間違えてしまいました。
問題 2は、他の選択肢が間違っている理由も含めて、パーフェクトな解答です。
全体として、複雑な問題文の意味をよく理解して回答できているようです。
(2) 数学Ⅰ・数学A
この問題をChatGPTに解いてもらったところ、以下のように最初の問題は正解することができましたが、2番目の問題は、解答まで行きつくことができませんでした。
その後、筆者が何度か誤りを指摘して、最終的には、2番目の問題もChatGPTが解くことができました。
しかし、Advanced Data Analysisを使用しないデフォルトのChatGPTでは、高校数学レベルの問題を自力で解くことは難しいようです。
(3) 地理B
問題文の内容が読み取れていないようです。
再度、問題文の読み取りからやり直してもらいました。
未だ問題文の読み取りミスがありますが、正解にたどり着くことができました。
4.間違い探し
(1) サイゼリヤの間違い探し
サイゼリヤが公開している間違い探しの問題を解いてもらいました。
残念ながら、全部不正解でした。ChatGPTは間違い探しは苦手なようです。やはり、チェックしなければならない項目が無限に近く多いからでしょうか。
次に、間違っているところに印を付けた問題を見せて、どこが間違っているか説明してもらうことにしました。
(2) 簡単な間違い探し
サイゼリヤの間違い探しは難易度が高いようなので、もう少し簡単な問題を解いてもらいました。
やはり、ChatGPTは、間違い探しというタスク自体が得意ではないようです。
5.画像からコード生成
(1) Google風サイトの作成
<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>Google風ページ</title>
<style>
body {
font-family: Arial, sans-serif;
display: flex;
flex-direction: column;
align-items: center;
justify-content: center;
height: 100vh;
}
width: 272px;
height: 92px;
background: url('file:///C:/Users/ユーザー名/Downloads/Google_2015_logo.svg') no-repeat center;
background-size: contain;
}
margin-top: 20px;
width: 500px;
height: 30px;
border: 1px solid
border-radius: 20px;
padding: 5px 20px;
}
margin-top: 20px;
}
.button {
margin-right: 10px;
padding: 10px 20px;
border: none;
border-radius: 5px;
background-color:
cursor: pointer;
}
.button:hover {
background-color:
}
</style>
</head>
<body>
<div id="logo"></div>
<input type="text" id="search-box">
<div id="buttons">
<button class="button">Google 検索</button>
<button class="button">I'm Feeling Lucky</button>
</div>
</body>
</html>
注意:Googleのロゴ画像は、Wikipediaの以下のページからダウンロードして使用してください。
また、上記のコードでは、Googleのロゴ画像のパスが 'file:///C:/Users/ユーザー名/Downloads/Google_2015_logo.svg'として指定されていますので、ユーザー名のところを自分のパソコンに設定したユーザー名に書き換えてください。
なお、ダウンロードフォルダー以外のところにロゴ画像がある場合は、自分で正しいパスを設定してください。
そして、書き換えたコードをメモ帳に貼り付け、htmlファイルとして保存した上で、ブラウザで開くと、以下のようなページを見ることができます。
ロゴ画像を変更すれば、こんなページも作成できます。
6.画像からショートストーリーの作成
画像からショートストーリーを作成することもできます。