よちよちAI[AI翻訳以前に大敗北編]
こんなトレンドが流れてきたよ
できらぁ!
というわけで、まずは英訳の前に内容読み取りに挑戦してみた。題材はこれ
(いきなり難易度MAX)
まずは扉絵の第1話のタイトルを読んでみる。(画像は転載できないのでオフィシャルから見てね)
ふふふ、こちらには日本語OCRというウラワザがあるのだよ
# Since we previously encountered an error, I will reattempt the OCR, ensuring to reference the correct language files
# First, we'll need to update the configuration to use the Japanese training data provided.
# Update Tesseract to use the custom Japanese training data path
custom_config = r'--tessdata-dir /mnt/data/'
# Reattempt the OCR with the specified custom configuration
text_with_custom_data = pytesseract.image_to_string(img, lang='jpn', config=custom_config)
text_with_custom_data
Result
''
彼の名誉のために、OCR読み取りの試行自体はできているようです。普通の横書きPDFからの画像とかだとそこそこの精度で読めます。ただ今回は読めてない。
では次に、何の絵が描かれているか読んでもらおう
誤読タイトルに引っ張られているのは誤算でしたが、女子がびっくり系なのはなんか合ってる。意外な行動をとる人と悩む人が逆だけど。
では次に第1話の最初「博多人は突然に」を読んでみよう(こちらも画像はオフィシャルから見てね)
2コマ目のキャラクターが3、4コマ目と同一人物と読めてないね。そこだけサポートするか。
ただ再会のシチュエーションは当ててるね。セリフを改めてOCRで読んでみよう。
詳細な設定。。。まずは縦書きだって教えた方がいいかな?
画像の日本語を無差別に読んでいるから、結果がぐちゃぐちゃになっているみたい。
ていうかさ、出版社なら写植データを別に持ってるからそっちを読めばいいのか!?それと高画質の原画があれば、きっと結果は違ってきそう。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?