企画書“視覚的MR判定”

2024年5月31日 07:55

概要

コラム“視覚的サーチ”の続き。

フレーズを発音した際の波形画像を用い、視覚的な類似箇所を手掛かりとして音響一致率の高いフレーズを探す手法。
まだ実現性は不明だが、機械化（マシンライミング）のアプローチの一つとして有効かもしれない。

構造的MRと視覚的MR

視覚的MRのメリット

フレーズを一音単位で子音や母音に分解して音響一致率を判定する“構造的MR分析”は、音の連結や変化に対応しづらい。
実際に発音された際の波形に着目した“視覚的MR分析”では、同じ音でも使われ方に応じて区別して扱えるため、判定精度の向上が期待できる。
たとえば「イメージ」と「対策」の「い」は構造的MR分析では同じ音として扱うが、視覚的MR分析では異なる波形になるものと思われる。

もう一つのメリットとして、“あらゆる言語に対応可能”という点が挙げられる。
波形画像に変換してしまえば、どんな言語の組み合わせも同じ仕組みで比較できる。

視覚的MRのデメリット

構造的MRでは、子音や母音の組み合わせパターンを網羅し、係数を準備しておけば自動的に判定できる。
しかし視覚的MRでは、個別のフレーズに対して画像認識を行う必要があるため、類似性を認識するアルゴリズムを独自に実装する必要がある。

手順

ライムグループを構成する一組のテキストをかなで入力する（例：「しめんそか」「しめそうか」）
入力されたテキストをTTS（音声合成）で処理し音声ファイルに変換（※1）
音声ファイルを何らかのツールで波形画像に変換する（※2）
波形画像の類似を画像認識APIで判断する（※3）
音響一致率を0～100パーセントの数値で表示する

あるいは画像でなく数値データとして分析したい場合、wavを1次元のデータとして出力できるソフトウェアを使う（※4）

（文／SIX）

脚注

※1　Azure Text to Speechなど
※2　コマンドラインプログラム“sox”でバッチ変換できそう
※3　Google Cloud Vision API、Microsoft Computer Vision API、Amazon Rekognitionなど
※4　例として、WindowsならAudacityの“Sample Data Export”という機能がある

from 韻韻

画像認識による比較ではなく、波形データの元となった数値そのものを比較するアプローチもあるよ
デッドエンドが研究しているらしい

変更履歴

2022.3.30 メールマガジン用に書き下ろし
2024.5.28 note用に改稿

この記事が気に入ったらサポートをしてみませんか？