見出し画像

貴社の記者が汽車で帰社しました、という昔ながらの問題

日本語は「読み」が同じで異なる字の単語が多い、という問題が。

そうなると、単に単語が書かれてるだけのDBでは、どう読むか判断できません。

同音異義語はちゃんと考えてやってます!

どう処理されるのか?

日本語って同音異義語が多い

今回の「きしゃ」も短い文章でこれだけの種類が使える。

他にも「てんき」だと、天気、転機、転記、など。

「かとう」だと、加藤、加糖、果糖など。ちょっと思い出すだけでも沢山あります。

これを聴き分けて使う人間ってすごい、というのは分かります。

日本語形態素解析、というワザ

音声合成を作る処理を改めて解説します。

画像1

囲ってある部分で、テキストが音になります。ポイントは、日本語形態素解析、という機能。

まずは、その単語の品詞を見て、さらにそれが前後でどのような言葉と接続されているか、を見て、適切なイントネーションを決めます。

こちらで、「焼きそば」という単語が、使われる位置で読み方が変わる例を解説しました。例では、3種類に分かれました。

これを自然に使い分けてる人間ってすごい(本日2回目)。

さて、記者はどうなるのでしょう。

まあ、この音声合成で使ってる辞書は割と頑張ってる方なので、比較的まともですね。

つまり、標準的な日本語の単語をどれだけ網羅しているか、も音声合成(システム)の性能になります。

※DB登録→参照、だけで無く、その他の技術で補う事もされています。

日本語の変遷

今回のnote、日本語そのもの、についても考える内容があります。

今回使った言葉遊びは、かなり昔からある定番を借りました。オリジナルは「貴社の記者が汽車で帰社できしや」です。

さいご、「できました」ってことですが、昔は「ゃ」が表記上「や」と大きく書く慣例もあった。なので、上の文は平仮名にすると「きしやのきしやがきしやできしやできしや」となる訳です。

日本語も変化を繰り返してます。ここで見えてくる「変遷」の一つは、表記ルールの変化。

もう一つは「汽車」。無くなった訳じゃないけど、蒸気機関車は今は観光地や博物館で、決して記者が会社に戻るために使うものではない。

変遷の二つ目は、存在がそもそも消えていく単語。

そんなものも辞書に入っているかいないか、が一つの性能評価の指針になります。

案外真面目に終わった!

まだまだ色々と書きたい記事もあります。金銭的なサポートをいただけたら、全額自分の活動に使います!そしたら、もっと面白い記事を書く時間が増えます!全額自分のため!