見出し画像

利用できるAudio Modelのまとめ

音声モデルを利用する機会があったのでPyTorchとHugging Faceで利用できるAudio Model(音声モデル)とそれのリファレンスである論文のリストをまとめました。

Hugging FaceとはTransFormerを用いた機械学習モデルを利用できるライブラリであり、米国企業であるHugging Face, Inc.が提供しています。

PyTorchで2022年の12月5日時点で利用できるAudio Modelは以下の通りで5モデル存在していました。

  1. ConvTasNet : Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation

  2. DeepSpeech :  Deep Speech: Scaling up end-to-end speech recognition 

  3. Wav2Letter :Wav2Letter: an End-to-End ConvNet-based Speech Recognition System

  4. Wav2Vec2.0 : wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

  5. WaveRNN : Efficient Neural Audio Synthesis

Hugging Faceで2022年の12月5日時点で利用できるAudio Modelは以下の通りで16モデル存在していました。

  1. Audio Spectrogram Transformer : AST: Audio Spectrogram Transformer

  2. Hubert : HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

  3. MCTCT : Pseudo-Labeling For Massively Multilingual Speech Recognition

  4. SEW : Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition 

  5. SEW-D : Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

  6. Speech2Text : fairseq S2T: Fast Speech-to-Text Modeling with fairseq

  7. Speech2Text2 : Large-Scale Self- and Semi-Supervised Learning for Speech Translation

  8. UniSpeech : UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data

  9. UniSpeech-SAT : UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training

  10. Wav2Vec2 : wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

  11. Wav2Vec2-Conformer : fairseq S2T: Fast Speech-to-Text Modeling with fairseq

  12. Wav2Vec2Phoneme : Simple and Effective Zero-shot Cross-lingual Phoneme Recognition

  13. WavLM : WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

  14. Whisper : Robust Speech Recognition via Large-Scale Weak Supervision

  15. XLS-R : XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

  16. XLSR-Wav2Vec2 : Unsupervised Cross-Lingual Representation Learning For Speech Recognition


この記事が気に入ったらサポートをしてみませんか?