見出し画像

GPT4oで名刺を読み取るRailsアプリを作りました。

ここ数日間、体調が今ひとつでほとんどコードが書けていなかったのですが、徐々に復活してきたので、こういうのを作ってみました。

最近、本や本棚の解析をやり始めて、Claude AI、さらにGPT4oの力に驚いているのですが、紙に文字が書いてあれば何でもできるのではと思いつき、名刺の写真を解析する小さいwebアプリを作ってみました。Docker compose + OpenAIのAPIキーがあれば動きます。ライセンスはMITなので自由に使ってください。説明もほとんどないですが、リクエストがあれば作ります。あと、よかったらStarをつけてもらえると喜びます。

AI界隈では「目」のことをvisionと呼ぶらしいので、「紙ものを調べる目」という意味で、 paper-vision という名前を付けたらめちゃめちゃカッコよくなって自分でも驚きです。(そこかw) ある程度やり方はわかっていたとは言え、半日ぐらいででできちゃうというのはやはり凄い未来になったもんだなあと思います。

実際にやってみた結果はこんな感じです。結構いろいろ情報が入っているだけでなく、向きも90度回転していて判断が難しいところもあると思うのですが、これなら充分過ぎるぐらいです。

Name:地蔵 真作
Reading:CHIKURA, Shinsaku
Company:リブライス合同会社
Division:下北沢オープンソースCafe内
Title:代表社員
Tel:不明
Mobile:(隠しているが正解)
Email:***@librize.com  (隠している部分が一文字違い)
Zip code:155-0033
Address:世田谷区代田6-11-14 G1
Qr:不明

(公開後、Company, Divisionが入っていなかったのを見つけて修正💦)

実際には少し読み取り間違いがあるだけで使いにくかったりすることはあると思いますが、個人的に利用する分には充分です。何より、外部のサービスを使っているときと違い、自分で好きなように機能を足していける余白があるのがよいです。

こういうものを個人が作れるようになると、GAFAなどが占有しているように見えるインターネットも違う形になっていくかも知れないなと何となく思いました。


追記:
Claude 3.5 Sonnetが出たので試してみました。(アプリ自体はAnthropic APIも対応しているので切り替えて使えます。)

Name:地田成央
Reading:チシロ シゲオ
Company:株式会社北國/書店 / 直読
Division:記載なし
Title:記載なし
Tel:T155-0033
Mobile:(隠しているが正解)
Email:*** @ibrize.com @の左は合っているがドメインは違う
Zip code:T155-0033
Address:世田谷区代田6-11-14-G1
Qr:QRコードは画像に含まれていません

残念ながら、名前と会社名が全然違っていていて、名刺解析というタスクにはまったく向いていなさそうです。QRコードは存在していないことを明記してきたので、これはもしかすると入っていれば読めるかな。(GPT4oのほうは別の例ではQRコードそのものではなく近くの文字列を拾っていて、近いですが不正解だったのですが、プロンプトをうまく書けば大丈夫なのかも知れません)

この記事が気に入ったらサポートをしてみませんか?