見出し画像

まだ諦められない!お薬手帳を一番読めるのはどのAIのか?

「LLMの目の部分を比較してみる!
CHATGPTと、Claude3.5、GeminiのOCR能力を比較!」


ChatGPTと、Claude3.5をお薬手帳を読ませてみました。

ChatGPTはいまいち、Claude3.5は優秀!って結論でした。
ここでGeminiも比較してみましょう。

お薬手帳テキスト化は、このような流れになっています。

1.写真からAIが全てのテキストを抽出する。(OCR)
2.その中から、薬剤名と使用方法を抽出
3.医薬品マスタや、ネット上の情報を参照し、薬名として間違いないか確認する
4.今までの過程の中で、ブラッシュアップを繰り返す
5.薬剤名と使用法を箇条書きにする

この過程でLLM能力やプロンプトで何とかできるのは、
【2から5】までです。

【1】はそれぞれのOCR(写真の読み取り)能力の差になります。

薬剤の認識能力で比較するのはLLMでの比較【2から5】になりますが、
そもそも目のが悪いと勝負になりません。
今までの比較から、目(OCR)の部分だけ取り出して比較してみます。

そもそもこの部分で文字が出てこなければ、LLMの優劣の比較どころではありません。

そこでおしまいです。

ということで、

【1】OCR対決!(20240715時点)

プロンプトは公平を期すために全部同じ
『記載されている文字を忠実に再現して』


お題

今までも使ってきた、お薬手帳の写真(そこそこ写りが悪い)を使用します。

実際に使うことを考えたら、「綺麗に映ったっ写真」を条件にはしません。

ChatGPT(4o:課金)

まずは定番のChatGPT



あれ、全然ダメじゃね・・・そりゃ、違う薬も出してきますわ。このままじゃ全然使えないです。

Claude3.5(Sonnet:課金)

前回優秀だったClaude3.5

画像に記載されている内容を忠実に再現いたします:

Page. 1
患者ID:
診療科: 主治医:

  1. フェブリク錠 10mg
    分1 (朝)食後 フィルムコーティング 1錠 5日分

  2. ゾピラックス錠 200mg
    分1 (朝)食後 素錠 (裸錠 1錠 5日分

  3. ダイフェン配合錠
    分1 (朝)食後 素錠 (裸錠 1錠 5日分

  4. ランソプラゾールOD錠 15mg「日医工」
    分1 (朝)食後 素錠 (裸錠 1錠 5日分

  5. マグラックス錠 330mg
    分3 (朝,昼,夕)食 素錠 (裸錠 6錠 5日分

    【備考】自己調節可

  6. ブルゼニド錠 12mg
    就寝:5日分,便秘時 糖衣製剤 2錠 5回分

  7. ビコスルファートナトリウム内用液0.75%「PP」 10mL瓶
    10~15滴朝食後で調 のみ薬 1本

  8. ポララミン錠 2mg
    1回 1錠 1日分
    【備考】リツキサン前

  9. ロキソニン錠 60mg
    1回 1錠 1日分
    【備考】リツキサン前

Page. 2
患者ID: 2000462
10. リツキサン注 100mg/10mLV
1回 注射薬 700mg 1日分
【備考】①10月9日
11. アロキシ静注 0.75mg/5mLV
1回 注射薬 1本 1日分
【備考】化学療法前
12. オンコビン注射用 1mgV [B]
1回 注射薬 2mg 1日分
【備考】CHOP①10月6日
化学療法のマシプラックス、ブルゼニド、ビコスルファート
を使用しました。
好中球減少(Grade4)を認めました。今のところ問題は生じて
いませんが、発熱、疼などの感染症状に注意し、異変を感じ
た場合はお知らせください。
13. アドリアシン注用10mgV
1回 注射薬 90mg 1日分
【備考】CHOP①10月6日
14. 注射用エンドキサン 100mgV
1回 注射薬 1350mg 1日分
【備考】CHOP①10月6日
15. プレドニン錠 5mg
分1 (朝)食後 素錠 (裸錠 20錠 5日分
【備考】CHOP①10月6日から
②10月27日からの分は外来受診時に持参してください。

福井大学医学部附属病院薬剤部
〒910-1193 福井県吉田郡永平寺町松岡下合月23
TEL:0776-61-3111


忠実に再現というよりは、薬の要素を取り出して記載していますねー

それでも欲しい情報としては、
こちらはほぼ完璧ですね!

前回の差は、ここで出ていたのかもしれませんね。

Gemini(Pro:無課金)

最近話題の無課金の星
Geminiでも試してみましょうか!



まじ忠実

ページ単位を認識(左右別のページ)が甘く、ページを跨いで横に認識している部分がありますが、これは、撮影側が1ページずつ撮影することで解決できます。

記録時間の問題か、途中で終わってしまい、プレドニンが記載されていません。
でも、無課金でここまでできるなんて!

結論!

「目」=OCRとしては、

Claude3.5、Gemini Proが優秀!

ChatGPTは他二つと比べて、結構劣るということがわかりました!

ちょっとChatGPTにOCRを任せるのは不安ですね。
ここがうまくいかなきゃどんなにプロンプトを重ねても、LLMの能力が上がっても関係ありません。

綺麗に撮影するとか、スキャナで読み込むとかの方法もありますが、
そもそも写りが悪いという前提でないと、実運用には厳しいですしね。

Geminに関しては、課金なしで、ここまで作れる。
テキストをそのままGoogleドキュメントへ飛ばすことができる。
最近あまりいじっていませんでしたが、これもアリかなって思います。

自分のアプリのAPIをどれにするか、「目」も考慮していく必要がありそうですね!

この記事が気に入ったらサポートをしてみませんか?