ChatGPTの手書き認識のインパクト：フローチャートの自動変換を例に（GPT-4V）

2023年10月14日 20:20

この記事の要約
・ChatGPTには目の機能（GPT-4V）が追加され、画像を分析してもらえるようになった。
・手書きをChatGPTにPlantUMLという形式でフローチャートに変換してもらった。
・一部の修正が必要だったが、全体の大枠はできていた。
・最初は手書きが汚すぎて全然違う形になったが、文字はきちんと読み取ってくれた。

GPT-4による要約

こんにちは、Martinです。ChatGPTに目の機能（GPT-4V）が登場して、画像を分析してもらうことができるようになりました。

というわけで、手書きの構造きれいにしてもらえないか？と思いフローチャートを作ってもらいました。

もともとPC上のテキストからフローチャートやマインドマップへの変換はプラグインなどでできていましたが、今回は手書きから直接変換できるようになりました。

今回手書きで書いたものはこちらです。iPadで書いてます。現状、GPT-4V日本語の読み取り機能はぜんぜんだめ（半分も正解しない）なので、英語で書いています。

完成後、スクショしたものをChatGPTに渡します。（ちなみにメモ帳の手書きはスクショしなくても画像で保存することもできます。）

ChatGPTにはPlantUMLという形式に変換してもらいます。PlantUMLの扱いについてはコピペするだけで操作は簡単です。詳しくはこちらの記事を参考にしてください。

サイトにコピペするとこんな感じになりました。ちょっとだけおかしいところがあります。

そのため、一部の矢印の向きなどを修正しました。全体の大枠はできているため、30秒くらいで直せるくらい簡単です。これで完成です。

ちなみに最初は手書きが汚すぎたので全然違う形になりました。

これは字の汚さでが問題なのではなく、構造の方に問題がありました。

文字はきちんと読み取ってくれていました。他の人なら読めないことも多いと思うので、これはめちゃくちゃすごいことだと思います。おそらく音声認識のWhisperと同じで、少し情報が欠けていたり、スペルを間違えたりしていても大丈夫なのだと思われます。

最後まで読んでいただき、ありがとうございます！もし気に入っていただけたら、ぜひスキとフォローをお願いします。みなさまからの反応は、わたしが質の高い記事を書き続けるためのモチベーションにつながります。

この記事を読んだ方が興味を持ちそうな記事

この記事が参加している募集

#AIとやってみた

27,268件

いつも読んでくださりありがとうございます！サポートは、お勉強代として活用させていただいております。