見出し画像

古代文字(楔)のAI解読

古代くさび形文字の文書をAIで翻訳――5千年前の知識解明を加速


2023.07.23 05:55 公開  fabcross for エンジニア
執筆者 成瀬 亜希子 2023-7-21
イスラエルのテルアビブ大学でコンピューターサイエンスを研究するGai Gutherz氏と、アリエル大学の考古学者Shai Gordin氏が、古代アッカド語の「くさび形文字」をAIで解読した。この研究成果は、2023年5月2日付けの科学雑誌『PNAS Nexus』に掲載された。
230622-GettyImages-578315344

紀元前3400年頃~紀元後75年頃のくさび形文字が刻まれた数十万枚の粘土板は、古代メソポタミアの政治、社会、経済、科学の歴史が記録されている。しかしそれらを解読できる専門家の数は限られ、粘土板に記録された知識の解明は進んでいない。

同研究では、アッカド語を英語へ機械翻訳するソースとして、文字コード規格のUnicodeに収録されたくさび形文字と、ラテン文字による音訳の2種類を用意して、自然言語処理で翻訳した。翻訳結果は、採点システム「Bilingual Evaluation Understudy 4(BLEU4)」が、0~100の数値で評価した。
評価の結果は、くさび形文字のUnicodeから英語への直接翻訳で36.52点、音訳を経て英訳する場合は37.47点を記録した。これは、初期段階のモデルの結果としては優秀とされ、くさび形文字から英語への直接翻訳で、より高品質の結果を得た。
また、比較的良い結果を得た翻訳対象の特徴は、短文と中長文で、特に専門的あるいは定型的な文型の文書だ。一方、ソースの文書が長く複雑になると、訳文の誤りや内容の欠落が増加することも判明した。

著者らは今回の研究の成果について論文のなかで、「古代メソポタミアの文化遺産の保存と普及に向けた、大きな一歩だ」と述べている。

関連情報 Translating Akkadian to English with neural machine translation
ニューラル機械翻訳によるアッカド語から英語への翻訳
ガイ・グーサーツ シャイ・ゴーディン、 ルイス・サエンツ オメル・レヴィ ジョナサン・ベラント 著者メモ
PNAS Nexus、第 2 巻、第 5 号、2023 年 5 月、pgad096、https://doi.org/10.1093/pnasnexus/pgad096
公開日: 2023 年 5 月 2 日
重要性の声明
楔形文字で刻まれた数十万枚の粘土板には、古代メソポタミアの政治、社会、経済、科学の歴史が記録されています。しかし、これらの文書のほとんどは未翻訳のままであり、文書を読める専門家の数が膨大で限られているため、アクセスできないままです。この論文では、Unicode 楔形文字グリフと楔形文字の音訳からアッカド語テキストを英語に自動翻訳するための最先端のニューラル機械翻訳モデルを紹介し、Best Bilingual Evaluation Understudy 4 (BLEU4) スコアでそれぞれ 36.52 と 37.47 を達成しました。翻訳においてテキストジャンルのスタイルを維持するのに特に効果的です。これは、古代メソポタミアの文化遺産の保存と普及に向けたもう一つの大きな一歩です。

序章
翻訳は人間の基本的な活動であり、執筆が始まって以来長い学術の歴史があります (「材料と方法」を参照)。通常、2 つの異なる言語に関する専門知識だけでなく、異なる文化的環境に関する専門知識も必要となるため、このプロセスは複雑になる可能性があります。

翻訳を支援できるデジタル ツールは、光学式文字認識 (OCR) や機械翻訳などの分野の進歩と結びついて、年々普及してきています ( 1、2)。しかし、古代言語はこの点で依然として大きな問題を抱えています。彼らが読んで理解するには、長い間消滅した言語コミュニティの知識が必要であり、さらに、テキスト自体も非常に断片的である可能性があります。

この論文では、最も古い、しかしよりよく証明されている古代言語の 1 つ (紀元前 2,700 年~西暦 75 年頃) であるアッカド語から英語への最初のニューラル機械翻訳 (NMT) を紹介します。アッカド語用の NMT システムの目標は、古代言語の学者や学生を支援するパイプラインを作成することによって、人間と機械のコラボレーションの一部となることです。現在、NMT モデルはオンライン ノートブックで入手でき、ソース コードは GitHub のAkkademiaにあります。

私たちのパイプラインを広くアクセスできるようにするために、私たちはその機能をBabylonian Engineと呼ばれるオンライン アプリケーションに実装しています。これらの機能は、計算手法を使用して楔形文字テキストを分析することを特に目的としています。

この論文では、翻訳を、独自のスクリプトでエンコードされたソース言語を取得し、それをターゲット言語およびスクリプトに再エンコードするプロセスとして定義します (図1の NMT パイプラインの規約も参照) 。アッカド語は死語であり、その口頭形式が記録されていないことを考慮すると、私たちの結果はその書き言葉のみに基づいています。結果として得られる翻訳は、ソースとターゲットの間の同等性に関するいくつかの基準を満たす必要があります。ソースはアッカド語のアッシリアとバビロニアの方言に由来しており、ターゲットは現代英語です。実際、NMT モデルは、アッカド語から英語への 2 つの翻訳タスクの入力として 2 種類のアッカド語ソースに取り組みます (図1を参照)。

楔形文字から英語へのタスク(C2E) は、Unicode 楔形文字グリフ (粘土板にアッカド語を書くために使用される古代楔形文字に相当する計算上のグリフ) を処理します。

英語への音訳タスク(T2E) は、アッカド語テキストの学術版で専門家によって一般的に使用される楔形文字の表現である、ラテン文字の楔形文字の音訳を処理します。

図1
NMT モデルのパイプラインの概略図。 括弧内の短い指定は、SI で提供されるテスト セットの規則に従います。ソースまたは入力は S、元の HT は T、出力の機械翻訳は D です。タブレット ND.2438 のイメージは、Cuneiform Digital Library Initiative の Web サイト (CDLI: https://cdli.ucla.edu/P393604) で入手できます。 c 大英博物館管理委員会。

新しいタブで開くスライドをダウンロード
NMT モデルのパイプラインの概略図。括弧内の短い指定は、SI で提供されるテスト セットの規則に従います。ソースまたは入力は S、元の HT は T、出力の機械翻訳は D です。タブレット ND.2438 のイメージは、Cuneiform Digital Library Initiative の Web サイト (CDLI: https://cdli.ucla.edu/P393604 ) で入手できます。c 大英博物館管理委員会。

図2
サンプリングとテストの結果のヒート マップ。 パーセンテージは、各データ セットに含まれる翻訳の種類の数を示します。 PT、適切な翻訳。 IT、不適切な翻訳。 IH、内因性幻覚。 そしてEH、外因性幻覚。

新しいタブで開くスライドをダウンロード
サンプリングとテストの結果のヒート マップ。パーセンテージは、各データ セットに含まれる翻訳の種類の数を示します。PT、適切な翻訳。IT、不適切な翻訳。IH、内因性幻覚。そしてEH、外因性幻覚。

T2E タスクで最高の結果が得られ、Best Bilingual Evaluation Understudy 4 (BLEU4) スコアで 37.47 に達しました。比較のために、翻訳メモリのベースラインは BLEU4 スコア 23.51 を達成しました。ただし、全体としては、T2E タスクと C2E タスクの間にはわずかな差がありました (表3を参照)。これは、楔形文字認識 (CuRe) ツールセット ( https://www.ben-digpasts.com/demoを参照)で手書きコピーできるものなど、OCR によってすでに生成できる Unicode 楔形文字から直接翻訳する場合に有望です。テストでモデルの結果を人間による翻訳 (HT) と比較した場合 (図2を参照))、文がコーパスの中央値、つまり 118 文字以下の場合に、最良の NMT が生成されました。両方のタスクの予期せぬ成果は、入力テキストのスタイルとジャンルの再現です。

アッシュールバニパル図書館所蔵のタブレット K.8737


アッカド語翻訳の課題
アッカド語のような古代言語を翻訳するには、いくつかの課題があります。粘土板が完全に保存されることはほとんどありません。その結果、HT と同様に NMT もコンテキストの欠如の影響を受けます。もう 1 つの課題は、楔形文字の複雑な表語音声的性質です。つまり、記号は表語文字、決定詞、表音文字/音文字文字の 3 つの機能のうち 1 つを持つことができます。したがって、楔形文字は多価であり、機能ごとに複数の読み方があります ( 「材料と方法」を参照)。たとえば、記号グラフィック「UD」は、元々は太陽 (-神) の絵文字でしたが、17 を超える表音文字と 6 個を超える表語値があり、これらは文脈内でのみ安全に読み取ることができます (図 3 を参照)。場合によっては、専門家でも適切な符号値を理解できないことがあります (図を参照)。S1)。

図3
アッシュールバニパル図書館所蔵のタブレット K.8737 (https://cdli.ucla.edu/P238789) の裏面。Iqqur Ippuš シリーズの前兆が記されています (26)。 2 列目の行 13' (赤色) には、楔形文字「UD UD UD」で書かれた表語文字 DADAG および U4 が含まれています。 c 大英博物館管理委員会。
新しいタブで開くスライドをダウンロード
アッシュールバニパル図書館所蔵のタブレット K.8737 ( https://cdli.ucla.edu/P238789 ) の裏面。イククル・イプーシュシリーズの前兆が記されています( 26 )。2 列目の行 13' (赤色) には、楔形文字「UD UD UD」で書かれた表語文字 DADAG および U 4が含まれています。c 大英博物館管理委員会。グラフィック

専門家は古代の楔形文字を現代の言語に直接翻訳することはしません。彼らはまず、与えられたシーケンス内の各記号のコンテキストを評価します。これは音訳と呼ばれるプロセスであり、その結果、楔形文字がラテン語のアルファベットに転写されます。したがって、HT には 2 つのステップがあります。最初に音訳し、その後に翻訳のみです。音訳の最初のステップは、計算用語では別の種類の翻訳タスクであると考えられます。楔形文字には事実上あらゆる種類の句読点がないため、単語の分割が含まれる場合があります。私たちは以前の研究でこのタスクにうまく対処し、新アッシリアのテキストの Unicode 楔形文字の音訳において 97% の精度を達成しました ( 3 )。

したがって、C2E は T2E よりも複雑な翻訳タスクとみなされます。C2E では、2 つの異なる文字間、Unicode 楔形文字グリフからラテン文字への変換、および単語の分割の識別が必要です。音訳という行為は、楔形文字から記号と単語のあいまいさのレベルを取り除くだけでなく、同じ文字タイプ間での翻訳作業を簡素化します。ソースと HT は両方ともラテン文字です。興味深いことに、T2E の結果がより優れていると予想していましたが、C2E と比較して結果の大幅な低下はほとんどありませんでした。

アッカド語を翻訳する際に考慮すべきもう 1 つの問題は、テキストのジャンルごとにスタイルが異なることです。ソースのジャンルが定型的であればあるほど、翻訳はより正確になります。一般に、行政文書や占い文書は非常に定型的な傾向があります。NMT モデルの有効性は、トレーニング データ セットで使用される各ジャンルのテキストの数によっても決まると予想されます (表 1 を参照)。さらに、アッカド語のテキストは、上で説明したように完全に音節で書かれることはほとんどなく、ほとんどすべてがシュメール語の表語文字(大文字で音訳される)を使用します。図3に示す占い文献などの特定のジャンル、表語文字を多用し、表語文字のみで構成された文が多くあります。多くの場合、人、場所、寺院の名前は、それ自体が表語文字を使用して書かれた複雑な文です (図を参照)。S1)。
したがって、NMT モデルはそれらを固有名として解釈しない場合がありますが、その意味の翻訳を提供しようとします。

結論

この論文で評価されたアッカド語から英語までの両方の NMT タスクでは、全体的に最良の結果が得られたのは短文と中長文でした。
ソースが長いほど、NMT 結果で幻覚や翻訳の欠落が多くなります。粘土板上ではすべての楔形文字が扱いやすい線に分割されているため、これは現実的なシナリオでの使用に有望です。

刻まれた粘土板に刻まれた文字の数は、時代ごとに(古バビロニア時代の標識は新バビロニア時代よりも大きい)、またジャンルごとに異なります。また、タブレットを分割する列の数によって文字数が決まります。1 つのタブレットであっても、行のスペースを埋めるために数字が変わることがあります。たとえば、新アッシリアの王室の碑文には次のようにあります。
1 行には平均約 20 文字が含まれます。占星術の前兆のタブレットには、より多くの文字を含む行を含めることができます。したがって、将来人間参加型システムで使用するために、タブレット上の各テキスト行を翻訳の単位として定義します。

専門的または定型的なスタイルを持つジャンルの方が、より良い翻訳を生み出しました。ただし、全体的な結果は、特に個人名を識別する場合に手動で調整されたトレーニング データと、全体的にさらに多くのジャンルを追加することで恩恵を受ける可能性があります。将来的には、Gale-Church アルゴリズムなどの標準的な文アライナの使用が、データ セットのアライメント問題を処理するプロセスの最初のステップとして考慮される可能性があります。

T2E タスクと C2E タスクのわずかな違いは、音訳を必要とせずに元のテキストから翻訳を作成する場合に潜在的な利点を示します。

さらなる研究のためのオプションは、音訳と楔形文字の両方をソースとして使用して、マルチソース タスクを評価することです。
これは、各タスクを個別に実行するよりも優れたパフォーマンスを発揮する可能性があります。C2E の入力データは、Babylonian Engine の既存の OCR ツール (CuRe Demo および Decuneify) から生成される可能性があり、この出版物に付属するオンライン ノートブックや Python パッケージ Akkademia の一部を使用して素人でも NMT を作成することができます。
近い将来、この NMT モデルは Babylonian Engine オンライン ポータルに追加される予定です。これにより、人間参加型システムで、検証され、専門的に厳選されたデータを使用して、モデルの機能を反復的に微調整することが可能になります。

両方のタスクの重要な成果は、ジャンルのスタイルの再現です。これは研究の意図したものでも、研究の主な目的でもありませんでした。ほとんどすべての場合、NMT が適切かどうかに関係なく、そのジャンルは認識可能です。これは、アッカド語テキストの主要な内容要素を認識して、コンテキストの一種の要約を提供します。有望な将来のシナリオでは、NMT モデルがユーザーに翻訳の基礎となった情報源のリストを表示することになります。これは学術目的にも特に役立ちます。



画像 ネブカドネザル1世(紀元前1124-1105)の時代のものとされるくさび形文字の石碑 Photo: Prisma / Universal Images Group / Getty Images

古代メソポタミアの「くさび形文字」の解読にAIが挑む
3min2023.6.23 クーリエ・アンテルナショナル(フランス)
ネブカドネザル1世(紀元前1124-1105)の時代のものとされるくさび形文字の石碑 Photo: Prisma / Universal Images Group / Getty Images
「タッチ一つで5000年前のくさび形文字を翻訳する、AIによる画期的なプロジェクト」──イスラエル紙「タイムズ・オブ・イスラエル」の記事のタイトルだ。
同紙はその記事で、イスラエルの考古学者とコンピュータ科学者が開発した翻訳ソフトを紹介する。人工ニューラルネットワーク技術を使用したそのソフトは、くさび形文字で書かれた「アッカド語」を英語に翻訳するのだという。しかし「その正確性には議論の余地がある」とも指摘する。アッカド語は、古代メソポタミアで紀元前3000年頃から使用されていた言語である。紀元前2000年頃に、バビロニア語とアッシリア語という二つの方言に分かれ、紀元前6世紀頃からはアラム語に取って代わられ、徐々に消滅した。
部分引用


この記事が気に入ったらサポートをしてみませんか?