企画書“視覚的MR判定”
概要
コラム“視覚的サーチ”の続き。
構造的MRと視覚的MR
視覚的MRのメリット
フレーズを一音単位で子音や母音に分解して音響一致率を判定する“構造的MR分析”は、音の連結や変化に対応しづらい。
実際に発音された際の波形に着目した“視覚的MR分析”では、同じ音でも使われ方に応じて区別して扱えるため、判定精度の向上が期待できる。
たとえば「イメージ」と「対策」の「い」は構造的MR分析では同じ音として扱うが、視覚的MR分析では異なる波形になるものと思われる。
もう一つのメリットとして、“あらゆる言語に対応可能”という点が挙げられる。
波形画像に変換してしまえば、どんな言語の組み合わせも同じ仕組みで比較できる。
視覚的MRのデメリット
構造的MRでは、子音や母音の組み合わせパターンを網羅し、係数を準備しておけば自動的に判定できる。
しかし視覚的MRでは、個別のフレーズに対して画像認識を行う必要があるため、類似性を認識するアルゴリズムを独自に実装する必要がある。
手順
ライムグループを構成する一組のテキストをかなで入力する(例:「しめんそか」「しめそうか」)
入力されたテキストをTTS(音声合成)で処理し音声ファイルに変換(※1)
音声ファイルを何らかのツールで波形画像に変換する(※2)
波形画像の類似を画像認識APIで判断する(※3)
音響一致率を0~100パーセントの数値で表示する
あるいは画像でなく数値データとして分析したい場合、wavを1次元のデータとして出力できるソフトウェアを使う(※4)
(文/SIX)
脚注
※1 Azure Text to Speechなど
※2 コマンドラインプログラム“sox”でバッチ変換できそう
※3 Google Cloud Vision API、Microsoft Computer Vision API、Amazon Rekognitionなど
※4 例として、WindowsならAudacityの“Sample Data Export”という機能がある
from 韻韻
変更履歴
2022.3.30 メールマガジン用に書き下ろし
2024.5.28 note用に改稿
この記事が気に入ったらサポートをしてみませんか?