![見出し画像](https://assets.st-note.com/production/uploads/images/135117264/rectangle_large_type_2_97a73d3baa715a009ce7fa800584aff7.png?width=800)
AIによる画像解釈はどれくらい使える? ChatGPT、Claude、Copilot、Geminiを比較してみた (4)
AIによる画像解析機能について検証してみようとした記事の第4弾です。
前回は「実写画像」を試しました。
今回はAIに見てもらうのは、PDFとしてダウンロードして印刷した楽譜に手書きを施してスキャンしたものです。
比較対象としているAIについては第1回目の記事をご参照ください。
![](https://assets.st-note.com/img/1711396091626-kmK5Xag8Ub.jpg?width=800)
結果を見てみる
![](https://assets.st-note.com/img/1711396182379-IkSQY0WqF3.jpg?width=800)
今回も結果を検証してみます。
ChatGPT。相変わらずの安定感があります。内容は無難です。バイオリンの弓順を表すΠ・Vなどの記号への言及があったのは好ポイントです。
Copilot。これまで正直ぱっとしなかったCopilot君でしたが、今回はなかなかです。「手書きのマーキング」が書き加えられていることを指摘してきたのは、4AIの中でCopilotだけでした。画像の説明としてもバランスがいいです。この画像が何を示しているのかをまず簡潔に示したうえで、その上の主要な要素について分かりやすく説明してくれています。変に突っ込み過ぎて暴走しているようなところもありません。
Gemini。これまでのテストでも伺えた傾向が今回も色濃く出ています。つまり、(1)詳細な解析と解説を試みる。(2)画像からは直接読み取れないはずの情報をどんどん入れてくる。ですが、結果はいろいろ残念なものでした。まず、この曲はイ長調ではなくト長調です。テンポの解釈をみると、実際の記号の位置と説明が明らかにズレています。第1回目のグラフの時もそうでしたが、個々の要素を認識することはできても、その相対的な位置関係を解釈することはどうも苦手っぽいですね。
Claude。今回に限ってはClaudeの文章力の高さはあまりはっきり出ていないようです。また、何をもってこの曲をバロックと判断したのかが謎です。
ジャン・シベリウス(スウェーデン語: Jean Sibelius スウェーデン語発音: [ˈjɑːn siˈbeːliʉs, ˈʃɑːn -] , 1865年12月8日[1] - 1957年9月20日)は、後期ロマン派から近代にかけて活躍したフィンランドの作曲家、ヴァイオリニスト。
バロック音楽(バロックおんがく)は、ヨーロッパにおける17世紀初頭から18世紀半ばまでの音楽の総称である。この時代はルネサンス音楽と古典派音楽の間に位置する。絶対王政の時代とほぼ重なる[1]。
ロマン派音楽(ロマンはおんがく)は、古典派音楽をロマン主義の精神によって発展させていった、ほぼ19世紀のヨーロッパを中心とする音楽を指す。
暫定評価
今回の優勝はCopilotです。いちばんバランスの良い回答を導き出してくれました。
個人的にはGeminiには注目したいです。この攻めた姿勢は嫌いじゃありません。しかし、まだ実務には危なっかしくて使えないかな。今のところ、やる気には満ち溢れているが経験と学力が伴っておらず的外れな主張ばかりしている生意気な小学生って感じになっています。そう遠くないうちに行われるのであろう次のバージョンアップでどう進化してくれるかが楽しみです。
この記事が気に入ったらサポートをしてみませんか?