現代版ほんやくコンニャクは実現可能なのか?オンデバイス翻訳アプリの実現に向けた検証記録-その1

約10日ほど前にOpen AIからGPT-4oが発表された。

簡単に要約すると、GPT-4oの売りはエンドツーエンドの処理。つまり、入力と出力が同じニューラルネットワークによって処理されるため、従来の「音声認識からテキストに変換し、そのテキストから音声を生成する」というプロセスから、「音声から音声を直接生成する」プロセスに変わった。これにより、レスポンスが非常に速くなった。
また、特に視覚と音声の理解に優れています。と記載されている通り、音声だけでなく画像ファイルの推論も強化されている。

また以下のライブデモの中では動画を用いてAIとリアルタイムで会話していた。

https://openai.com/index/spring-update/

このデモを見て率直に感動したのですぐ検証してみようと思ったが、Text to speechSpeech to textはあるが、この記事を書いている現時点ではSpeech to speech(以後STSと表記) は見当たらなかった。
そこでSTSで良さそうなものはないか調べてみると良さそうなものを見つけた。

`"created_at": "2023-08-01T20:36:21Z",`とあるように2023年8月に作られたようだ。

https://api.github.com/repos/facebookresearch/seamless_communication

SeamlessM4T、SeamlessExpressive、SeamlessStreaming、Seamlessと4つのモデルがあり、SeamlessM4TとSeamlessExpressiveに関してはすぐに検証できるデモ環境が提供されている。

早速SeamlessM4Tを使ってみたが普通に翻訳してくれそう。

SeamlessExpressiveも試してみようとしたが、言語対応が英語、スペイン語、フランス語、ドイツ語しか無かったので制度はよくわからなかった。ただ自分の声で翻訳されている音声を聞いて驚いた。
そこでSeamlessExpressiveを利用すれば現代版ほんやくコンニャクができるのではと妄想してしまったので検証記録を残したく、このnoteを書き出した。

今回はここまで。とりあえずSeamlessExpressiveのモデルを使用するにはリクエストを出さないといけないようなのでとりあえず出した。

次回以降でSeamlessM4T、SeamlessExpressive、SeamlessStreaming、Seamlessのそれぞれについて整理するともに、Swiftで使用できるのかも調査していく。

いいねと思えたらよろしくお願いします😋