企画書“視覚的MR判定”

概要

コラム“視覚的サーチ”の続き。


フレーズを発音した際の波形画像を用い、視覚的な類似箇所を手掛かりとして音響一致率の高いフレーズを探す手法。
まだ実現性は不明だが、機械化(マシンライミング)のアプローチの一つとして有効かもしれない。

構造的MRと視覚的MR

視覚的MRのメリット

フレーズを一音単位で子音や母音に分解して音響一致率を判定する“構造的MR分析”は、音の連結や変化に対応しづらい。
実際に発音された際の波形に着目した“視覚的MR分析”では、同じ音でも使われ方に応じて区別して扱えるため、判定精度の向上が期待できる。
たとえば「イメージ」と「対策」の「い」は構造的MR分析では同じ音として扱うが、視覚的MR分析では異なる波形になるものと思われる。

もう一つのメリットとして、“あらゆる言語に対応可能”という点が挙げられる。
波形画像に変換してしまえば、どんな言語の組み合わせも同じ仕組みで比較できる。

視覚的MRのデメリット

構造的MRでは、子音や母音の組み合わせパターンを網羅し、係数を準備しておけば自動的に判定できる。
しかし視覚的MRでは、個別のフレーズに対して画像認識を行う必要があるため、類似性を認識するアルゴリズムを独自に実装する必要がある。

手順

  1. ライムグループを構成する一組のテキストをかなで入力する(例:「しめんそか」「しめそうか」)

  2. 入力されたテキストをTTS(音声合成)で処理し音声ファイルに変換(※1)

  3. 音声ファイルを何らかのツールで波形画像に変換する(※2)

  4. 波形画像の類似を画像認識APIで判断する(※3)

  5. 音響一致率を0~100パーセントの数値で表示する

あるいは画像でなく数値データとして分析したい場合、wavを1次元のデータとして出力できるソフトウェアを使う(※4)

(文/SIX)

脚注

※1 Azure Text to Speechなど
※2 コマンドラインプログラム“sox”でバッチ変換できそう
※3 Google Cloud Vision API、Microsoft Computer Vision API、Amazon Rekognitionなど
※4 例として、WindowsならAudacityの“Sample Data Export”という機能がある

from 韻韻

画像認識による比較ではなく、波形データの元となった数値そのものを比較するアプローチもあるよ
デッドエンドが研究しているらしい

変更履歴

2022.3.30 メールマガジン用に書き下ろし
2024.5.28 note用に改稿

この記事が気に入ったらサポートをしてみませんか?