音響特徴量抽出ツール使用メモ -AUDIO COMMONS AUDIO EXTRACTOR-

はじめに

研究で音声データから音色に関する音響特徴量を抽出する必要があり、いくつかのツールを検討していました。有名なものだと、Librosaやessentiaがあり以下のリンクでどの様な特徴量が抽出できるかをまとめました。

今回は、他のツールに比べて、音色に関する特徴量抽出が充実している"AUDIO COMMONS AUDIO EXTRACTOR"を使用しました。

AUDIO COMMONS AUDIO EXTRACTORとは?

音声データの自動分析用ツールで、音色やリズム情報や音質などの情報を抽出します。恐らく、音楽情報検索の分野で利用する事が主な目的で作られたもので、Freesoundのサンプルを簡単に検索するデモがWeb上で公開されています。

環境構築

環境構築はdockerでゴニョゴニョやるのだが、随分と前にやったので忘れてしまいました、、、
また、思い出して追記します。

使用方法

  1. dockerを起動する

  2. ターミナルから以下のスクリプトを実行する

docker run -it --rm -v `pwd`:/pwd mtgupf/ac-audio-extractor:v3 -i /pwd -o /pwd/outdir -f json -st

dockerのオプションについては以下を参照

'pwd'でフォルダ上の現在位置を取得して、コロンは変数の代入のように使っています。(この場合だと/pwd = 'pwd' のイメージ)
-i の後がインプット元のフォルダで -o の後がアウトプット先のフォルダです。この二つは分けないとエラーが出ます。
-fの後にファイル形式を指定(音色の評価をしたい場合はjsonでしか項目が出なかったです)
-stはMusic samplesとTimbre modelを選択するという意味です

フォルダはこんな感じを想定しています

pwd/ (上記のスクリプトを実行する場所,音源保存場所)
├── 1.wav
├── 2.wav
├── 3.wav
├── :
├── :
└── outdir
    └─ (出力先)

公式の使い方見てもシェルスクリプトがわからず手こずったので、備忘録がてらに書いておきます。あまりにもメモすぎるので気が向いたら書き直す予定・・・

この記事が気に入ったらサポートをしてみませんか?