Whisper他Voice to text(文字起こし)のソフトウェアを試してみました

Voice to textのソフトウェアをいくつか試してみました。外国語のコンテンツが言葉の壁なしに視聴できる日も近そうです。

Open AIのWhisperを使うまで
まずは以下の記事を参考にOpen AIのWhisperというツールを導入してみました。

Pythonど素人ではありますが、なんとか環境構築やらGitHubというところから関連ツールをダウンロード&インストールしたりした挙句「今日は晴れのち曇りです」の音声をテキスト認識することに成功しました。
ただしこのツール、最高クオリティで認識させようとすると数秒程度の音声に対して2G程度の中間ファイルがされる上、私のMacbookだと30分くらい待たないと使えなそうです。おそらく実務的にはAWSやAlibabaクラウドのリソースを都度払いで使うのが良さそうですが、そこまで個人で環境構築となるとちょっと難しいかもしれません。

中国語の文字起こしサービス


今度は既存サービスはないかと考え人に聞いたところ、中国語に関しては科大讯飞 という会社のサービスがあり、こちらが使えそうです。

このIFlytek(科大讯飞)という会社は安徽省に本拠地がある中国では音声認識で有名な会社。同社の有料サービスを使ってみましたが中国語のコンテンツはこちらで十分そうです。試して見ましたがSpeaker Recognition機能もあったり、先ほどの日本語の「今日は晴れのち曇りです」もしっかり聞き取れたり、有料サービスだけあって質もなかなかです。さらにビデオに日本語の字幕を自動につけたりと言った機能も充実しています。
例えば、スクショは大連の四人一家がテスラ(Model Y)でチベットまでドライブするのにどうやって寝たかの説明。日本に比べて圧倒的に台数が出ているので日本のテスラオーナーにも参考になるコンテンツが色々あるかと思います。また日本より数が多く出ている例としては海外留学やCFA試験対策等についても中国語のコンテンツを参考にできるようになればより情報の幅も広がるかと思います。

文字起こしから日本語作成、タイムラインに合わせてキャプションを入れるなど全て自動で編集されます

また先日はとある講演会に参加しましたがそこでは通訳は機械で行われておりリアルタイムで画面に英語の翻訳が投影されていました。
ChatGPTの登場により翻訳の精度が(DeepL等に比べても更に)著しく高まってきているので、中国語の言葉の壁による情報の非対称性もより少なくなってくるようになるのではないかと期待しています。特に中国の場合は日本のメディアで報じられる内容と中国語現地の情報格差が大きく、一次情報へのアクセスが容易になれば、より現実に近い情報が手に入り、商売のチャンスも拡がるかと思います。


この記事が気に入ったらサポートをしてみませんか?