2022年日本音響学会秋季大会

2022年10月8日 17:57

この記事を書いたのは　山岡さん.

9/14(水)～9/16(金)に日本音響学会の秋季研究発表が開催され、
Empathからは山岡・河東が参加し、ポスター発表もさせていただきました。

オフライン開催

今年の音響学会は2020年春の研究発表会以来およそ2年半ぶりの対面での開催となりました。対面ならではの会場の熱量や雰囲気などを十分に感じたり、様々な研究者の方とお話をする貴重な機会となりました。

今回の音響学会は、オーラルとポスター合わせて600以上の発表があり、過去トップクラスの発表数でした。発表は、90以上のセッションに分かれており、13箇所の会場(オーラルは全12会場)で行われました。
特に音声A・Bと呼ばれる、音声技術に関する研究の発表はオーラル・ポスターどちらのセッションでも盛り上がっていました。

また、スポーツ音響など最近研究が盛んになってきている分野も非常に興味深いセッションでした。

研究動向

まず大きな流れの一つとして、ここ数年で新しいテーマが最近増えてきています。(オーディオ/スポーツ音響など)
これは、様々な分野で測定可能な音をその分野を含め、音の研究自体を多面的に行っていこうという背景があるように思われます。

音声技術の発表では、音声合成の研究に関する発表が特に多かった印象ですが、音声認識・感情認識の研究も盛んに発表されていました。
音声認識では、中間層の情報を用いて、CTC損失を計算する手法を用いるなどモデル構造への工夫 [1] や、非言語的な音声(フィラーや言い淀み等)に適切なラベル付けることによる学習データの工夫をする研究 [2] が見受けられました。
感情認識では、マルチモーダルによる認識による精度改善 [3] や、感情音声コーパスを作成する際に自然な発話に近くなるための工夫を加える研究 [4] などが見受けられました。

その他にも、再現実験を可能にするために音の測定方法や計算アルゴリズムをしっかり記載することの重要性が強調されていたり、笑い声合成 [5] など興味深い研究の発表が様々ありました。

Empathのポスター発表

9月16日の午前のポスター発表のセッションで弊社も「音声認識・音声感情解析技術を用いたビジネス・コミュニケーションのブラックボックス化問題の解消」というタイトルで発表をさせていただきました。
多くの学生や教授に発表を聞いていただき、学生からは自分と似た研究が社会でも役立っていることを感じ研究のモチベーションが上がったという声をいただきました。
教授からは、感情認識のための学習データはどのようにして、アノテーションしているかなど鋭いご質問を多々頂き、良いディスカッションをさせていただきました。

おわりに

今回の学会を通して対面で初めてお会いする方や久々にお会いする方と有意義な交流の場にもなりました。
このような機会を作ってくださった運営の皆様、発表者の皆様のご尽力に感謝いたします。
今後も継続的に発表や参加をして、素敵な時間を共に過ごせたらと思います。

2023年3月（オンライン開催予定）の音響学会もすごく楽しみです。
最後までお読みいただきありがとうございました。

参考文献
[1] 市村収太，中込優，藤田雄介，小松達也，木田祐介(LINE)
CTCベース音声認識モデルにおける中間層ロスと条件付けが与える影響の考察
[2] 堀井こはる(豊橋技科大)，福田芽衣子(徳島大)，太田健吾(阿南高専)，西村良太(徳島大)，小川厚徳(NTT)，北岡教英(豊橋技科大)
End-to-End非流暢整形音声認識システムの対話音声による評価
[3] 安藤厚志，高島瑛彦，増村亮，鈴木聡志，牧島直輝(NTT)
大規模事前学習モデルを用いたマルチモーダル感情認識
[4] 堀井大輔，伊藤彰則，能勢隆(東北大学大学院)
クラウドソーシングを利用した感情演技発話マルチモーダルデータの収録と分析
[5] 木村駿野(宇都宮大院・地域創生科学研)，森大毅(宇都宮大・工)
笑い声合成における音声記号表現と音響特徴量の感情次元による制御

山岡さんが書いた記事のおすすめマガジンはこちら！
音の三要素について
研究者が書く！論文まとめ

この記事が参加している募集

#学問への愛を語ろう

6,293件

この記事が気に入ったらサポートをしてみませんか？