見出し画像

利用できるAudio Modelのまとめ

2022年12月5日 15:50

音声モデルを利用する機会があったのでPyTorchとHugging Faceで利用できるAudio Model(音声モデル)とそれのリファレンスである論文のリストをまとめました。

Hugging FaceとはTransFormerを用いた機械学習モデルを利用できるライブラリであり、米国企業であるHugging Face, Inc.が提供しています。

PyTorchで2022年の12月5日時点で利用できるAudio Modelは以下の通りで5モデル存在していました。

ConvTasNet : Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation
DeepSpeech : Deep Speech: Scaling up end-to-end speech recognition
Wav2Letter :Wav2Letter: an End-to-End ConvNet-based Speech Recognition System
Wav2Vec2.0 : wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
WaveRNN : Efficient Neural Audio Synthesis

Hugging Faceで2022年の12月5日時点で利用できるAudio Modelは以下の通りで16モデル存在していました。

Audio Spectrogram Transformer : AST: Audio Spectrogram Transformer
Hubert : HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
MCTCT : Pseudo-Labeling For Massively Multilingual Speech Recognition
SEW : Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition
SEW-D : Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition
Speech2Text : fairseq S2T: Fast Speech-to-Text Modeling with fairseq
Speech2Text2 : Large-Scale Self- and Semi-Supervised Learning for Speech Translation
UniSpeech : UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
UniSpeech-SAT : UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training
Wav2Vec2 : wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations
Wav2Vec2-Conformer : fairseq S2T: Fast Speech-to-Text Modeling with fairseq
Wav2Vec2Phoneme : Simple and Effective Zero-shot Cross-lingual Phoneme Recognition
WavLM : WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
Whisper : Robust Speech Recognition via Large-Scale Weak Supervision
XLS-R : XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
XLSR-Wav2Vec2 : Unsupervised Cross-Lingual Representation Learning For Speech Recognition

この記事が気に入ったらサポートをしてみませんか？