見出し画像

AI技術で中国語を読んでみた

前回 「超」AI整理法の読書感想文 を書きましたが、その中で紹介されている「画像認識で外国語の本を簡単に読める」の箇所(第6章ー3)を実践してみたものです。

使用したもの
・GOOGLE Pixel 3a
・ノートパソコン(今年3万円で購入した新古品)
・インターネット
・グーグルレンズ(Pixel 3aに内蔵されていたもの)
・グーグルドキュメント
・グーグル翻訳(自動更新されているのでおそらく現行最新のもの)
・(この原稿への画像UPのためにグーグルフォトを使用)

「超」AI整理法にも記載されていますが、グーグルのスマホではなくてもiPhoneでもAndroidでもグーグルレンズやその他の画像認識ソフトをアプリとして入れれば問題ないということです。

撮影した本は図書館でなんとなく目についた中国語の書籍です。吕思勉さんという歴史家が1940年に刊行した「中国通史」という本を2010年に復刻したもののようです。

素人目の感想になりますがハードカバーで紙はしっかりしています。文字は何ptというのか分かりませんが現在の日本の新聞の文字よりは1回り大きいサイズです。


■実際に中国語の本を読むまでの手順

①1頁全体をスマホカメラで撮影 →
②グーグルレンズを起動して文字として認識した部分をすべてコピー →
③PC上のグーグルドキュメントにペースト →
④グーグル翻訳の中国語→日本語にかける
という流れです。


①1頁全体をスマホカメラで撮影

画像1


②グーグルレンズを起動して文字として認識した部分をすべてコピー

写真はスクリーンショットで、白い部分がアプリが文字として認識した部分、青い部分がコピー範囲の指定です。

画像2


③PC上のグーグルドキュメントにペースト

②のスクショ画像にもあるように、直接翻訳にかけることもできますが、PC上に落とした方が何かと作業が便利なのでPC上に落とします。その結果は下のとおり


第一章 中国民族的由来
社会是整个的,作起文化史来,分门别类,不过是我们分从
各方面观茶,讲到最后的目的,原是要集合各方面,以说明一个
社会的盛衰,即其循着曲线进化的状况的。但是这件事很不容易。
史事亡失的多了,我们现在,对于各方面,所知道的多很模糊(不
但古代史缺乏之时,即至后世,史籍号称完备,然我们所知道的
事,仍很缺乏而多的误。用现代新史学的眼光看起未,现在人类对于
过去的知识,实在是很贫乏的),贸贸然据不完不备的材料,来说明
一时代的盛衰,往往易流于武断。而且从中学到大学,永远是以
时为经、以事为纬的,将各时代的事情,复述一遍,虽然详略不同,
而看法失之单纯,亦难于引起兴趣。所以我这部书,变换一个方法,
下册依文化的项目,把历代的情形,加以叙述,这一册依据时代,
略述历代的盛衰。读者在读这一册时,对于历代的社会状况,
读下册就会略有所知,则涉及时措辞可以从略,不至有头绪纷繁
之苦;而于历代盛衰的原因,亦更易于明了了。
「叙述历代的盛衰,此即向来所谓政治史。中国从前的历史,所
以被人请为帝王的家谱,为相研书,都由其偏重这一方面之故。
然而矫枉过正,以为这一方面,可以视为无足重轻,也是不对的。
现在的人民,正和生物在进化的中途需要外骨保护一样。这话怎
样说呢?世界尚未臻于大同之境,人类不能免于彼此对立,就不

これを原本と照らし合わせて脱字や変換ミスを補正します。

第一章 中国民族的由来
社会是整个的,作起文化史来,分门别类,不过是我们分从
各方面视,讲到最后的目的,原是要集合各方面,以说明一个
社会的盛衰,即其循着曲线进化的状况的。但是这件事很不容易。
史事亡失的多了,我们现在,对于各方面,所知道的多很模糊(不
但古代史缺乏之时,即至后世,史籍号称完备,然我们所知道的
事,仍很缺乏而多的误。用现代新史学的眼光看起未,现在人类对于
过去的知识,实在是很贫乏的),贸贸然据不完不备的材料,来说明
一时代的盛衰,往往易流于武断。而且从中学到大学,永远是以
时为经、以事为纬的,将各时代的事情,复述一遍,虽然详略不同,
而看法失之单纯,亦难于引起兴趣。所以我这部书,变换一个方法,
下册依文化的项目,把历代的情形,加以叙述,这一册依据时代,
略述历代的盛衰。读者在读这一册时,对于历代的社会状况,
读下册就会略有所知,则涉及时措辞可以从略,不至有头绪纷繁
之苦;而于历代盛衰的原因,亦更易于明了了。
 叙述历代的盛衰,此即向来所谓政治史。中国从前的历史,所
以被人讥诮为帝王的家谱,为相研书,都由其偏重这一方面之故。
然而矫枉过正,以为这一方面,可以视为无足重轻,也是不对的。
现在的人民,正和生物在进化的中途需要外骨保护一样。这话怎
样说呢?世界尚未臻于大同之境,人类不能免于彼此对立,就不


太字が修正した箇所です。

茶→察 は欠落(スクショ画面の通り、文字として認識されていない)
请→讥诮

完璧ではないですが550字ほどあって3か所の修正なら上出来ではないでしょうか。抜けた文字は角度の問題もありそうです。

読めない=入力できない文字をデキストデータにできることはかなり有用です。デキストデータにしてしまえばなんとかなります。

ただし完ぺきではない以上、今後も誤字脱字はありえるのでしょうが、中国語・漢字であれば簡体字であっても元の印刷物と結果が違う場合には気づくことができますが、例えばアラビア文字やタイ文字のような、文字自体が全く分からない文字の場合は形だけで判断できない可能性はありそうです。


④グーグル翻訳の中国語→日本語にかける

第1章中国国家の起源
社会は全体であり、文化史として、それはカテゴリーに分かれていますが、私たちは分かれています
検査のすべての側面、最終的な目的に関しては、すべての側面を集めて説明する必要があります
社会の盛衰、つまり曲線の進化。しかし、これは簡単ではありません。
歴史はますます失われており、現在、私たちは行うことすべてについて非常に曖昧です(いいえしかし、古代の歴史が欠けていたとき、つまり後の世代には、歴史書は完全であると言われていますが、物事はまだ不足しており、多くの間違いがあります。現代の新しい歴史の目で未来を見ると、今、人間は過去の知識は本当に非常に不足しています)、そして貿易と貿易は未完成の材料に基づいています。
時代の盛衰は、しばしばarbitrarily意的です。そして、大学に行くから、常に
時が経典である場合、物事は緯度であり、細部はわずかに異なりますが、各時代の物事が繰り返されます。
ビューは単純ではないため、興味を引くことは困難です。だから私の本は、メソッドを変換し、次の巻は文化プロジェクトに基づいており、過去の世代の状況が記述されており、この巻は時代に基づいています。
過去の盛衰を要約します。読者はこの本を読み、過去の世代の社会的状況について、読む
次の巻を読めば少し知っているでしょうが、もしあなたが関わっているなら、前の巻から言葉遣いを省略することができます。
困難、過去の興亡の理由も理解しやすい。
過去の盛衰を説明してください。これはいわゆる政治史です。中国の過去の歴史、皇帝として劣化した家系図は段階的な本であり、この側面に偏っている。
ただし、この側面は重要ではなく、正しくないと見なすことができると考えている過修正。
現在の人々は、進化の最中の外の骨のようです。これはどうですか?
言葉は何ですか?世界はまだ同じ場所になく、人間は互いに対立することはできません。

漠然とどのようなテーマについて書かれているかの目星はつきますが、具体的な内容として著者が表わしたいことが伝わっているのかというと50%~60%だろうか。という印象です。

GOOGLE翻訳をWEB上の中国語ページでも使っているのですが、実際のところ、英語→日本語に比べると中国語→日本語はまだまだ精度を改善する余地が大きいように思います。

英語→日本語はもう相当に、出来不出来はあるものの平均してみると高校生が1字1句辞書で調べて英文和訳するよりも精度が高い訳を返してきていると思っているのですが、中国語→日本語は10年前の英→日の自動翻訳をみているようです。



サポートいただいた金額は、面白そうなものやサービスに使ってレポートをしたいと思います