よちよちAI[AI翻訳以前に大敗北編]

こんなトレンドが流れてきたよ

できらぁ!

というわけで、まずは英訳の前に内容読み取りに挑戦してみた。題材はこれ

(いきなり難易度MAX)

まずは扉絵の第1話のタイトルを読んでみる。(画像は転載できないのでオフィシャルから見てね)

うわははは、ナニこれ

ふふふ、こちらには日本語OCRというウラワザがあるのだよ

やっぱりこのマンガは「植物系男子とびっくり系にむかつく」に決まりました
# Since we previously encountered an error, I will reattempt the OCR, ensuring to reference the correct language files
# First, we'll need to update the configuration to use the Japanese training data provided.

# Update Tesseract to use the custom Japanese training data path
custom_config = r'--tessdata-dir /mnt/data/'

# Reattempt the OCR with the specified custom configuration
text_with_custom_data = pytesseract.image_to_string(img, lang='jpn', config=custom_config)
text_with_custom_data

Result
''

彼の名誉のために、OCR読み取りの試行自体はできているようです。普通の横書きPDFからの画像とかだとそこそこの精度で読めます。ただ今回は読めてない。

では次に、何の絵が描かれているか読んでもらおう

おおー、大体合ってる
あはは、タイトルにまだひっぱられてる

誤読タイトルに引っ張られているのは誤算でしたが、女子がびっくり系なのはなんか合ってる。意外な行動をとる人と悩む人が逆だけど。

では次に第1話の最初「博多人は突然に」を読んでみよう(こちらも画像はオフィシャルから見てね)

やっぱりびっくり系やのう

2コマ目のキャラクターが3、4コマ目と同一人物と読めてないね。そこだけサポートするか。

ケンカしてたらしいよ!

ただ再会のシチュエーションは当ててるね。セリフを改めてOCRで読んでみよう。

あれ、トレーニングデータ渡したはずだけど
もう一回渡したらOCRの試み自体はうまくいった、ただ結果が
こんなんですわ

詳細な設定。。。まずは縦書きだって教えた方がいいかな?

うーん難しいか
ちょいちょい惜しいね

画像の日本語を無差別に読んでいるから、結果がぐちゃぐちゃになっているみたい。

段階的にやったらうまくいくかも?
かえってめちゃくちゃ、ただ1セリフ目は実はいいセンいってたりする(比べてみて)

ていうかさ、出版社なら写植データを別に持ってるからそっちを読めばいいのか!?それと高画質の原画があれば、きっと結果は違ってきそう。


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?