よちよちAI[AI翻訳以前に大敗北編]
こんなトレンドが流れてきたよ
アニメーターや漫画家よりも先に滅ぶのが翻訳業なんですよね。
— Kataho@フランクフルト🌭 (@sakaikataho) May 6, 2024
AI翻訳の間違いを校正できる人材を育成する環境がなくなるので、今できる人が引退したら終わりです。😑 https://t.co/HoEgA1YLWW
できらぁ!
というわけで、まずは英訳の前に内容読み取りに挑戦してみた。題材はこれ
(いきなり難易度MAX)
まずは扉絵の第1話のタイトルを読んでみる。(画像は転載できないのでオフィシャルから見てね)
![](https://assets.st-note.com/img/1715100741206-y4tJ8Wy6ph.png?width=800)
ふふふ、こちらには日本語OCRというウラワザがあるのだよ
![](https://assets.st-note.com/img/1715100800208-ZUZkASCsqq.png?width=800)
# Since we previously encountered an error, I will reattempt the OCR, ensuring to reference the correct language files
# First, we'll need to update the configuration to use the Japanese training data provided.
# Update Tesseract to use the custom Japanese training data path
custom_config = r'--tessdata-dir /mnt/data/'
# Reattempt the OCR with the specified custom configuration
text_with_custom_data = pytesseract.image_to_string(img, lang='jpn', config=custom_config)
text_with_custom_data
Result
''
彼の名誉のために、OCR読み取りの試行自体はできているようです。普通の横書きPDFからの画像とかだとそこそこの精度で読めます。ただ今回は読めてない。
では次に、何の絵が描かれているか読んでもらおう
![](https://assets.st-note.com/img/1715100973927-dMcd3U5lIc.png?width=800)
![](https://assets.st-note.com/img/1715101148063-WtHokRLNGt.png?width=800)
誤読タイトルに引っ張られているのは誤算でしたが、女子がびっくり系なのはなんか合ってる。意外な行動をとる人と悩む人が逆だけど。
では次に第1話の最初「博多人は突然に」を読んでみよう(こちらも画像はオフィシャルから見てね)
![](https://assets.st-note.com/img/1715101541716-O40jhMVGrW.png?width=800)
2コマ目のキャラクターが3、4コマ目と同一人物と読めてないね。そこだけサポートするか。
![](https://assets.st-note.com/img/1715101777243-SToNtyMPVb.png?width=800)
ただ再会のシチュエーションは当ててるね。セリフを改めてOCRで読んでみよう。
![](https://assets.st-note.com/img/1715102141326-Dw5dDRBuLe.png?width=800)
![](https://assets.st-note.com/img/1715102169118-1l7ClSG9P5.png?width=800)
![](https://assets.st-note.com/img/1715102205198-DGOiI9yk0c.png?width=800)
詳細な設定。。。まずは縦書きだって教えた方がいいかな?
![](https://assets.st-note.com/img/1715102362342-4DX0VVEKTG.png?width=800)
![](https://assets.st-note.com/img/1715102412192-mO4lIPdkjX.png)
![](https://assets.st-note.com/img/1715102424063-xfUyjjqDOe.png)
画像の日本語を無差別に読んでいるから、結果がぐちゃぐちゃになっているみたい。
![](https://assets.st-note.com/img/1715102640503-y4HaTc1OuZ.png?width=800)
![](https://assets.st-note.com/img/1715102665619-QkxxFIqB12.png?width=800)
ていうかさ、出版社なら写植データを別に持ってるからそっちを読めばいいのか!?それと高画質の原画があれば、きっと結果は違ってきそう。
この記事が気に入ったらサポートをしてみませんか?