AWSを使って音声データの文字起こし
今回はAWSのサービスのAmazon Transcribeを使って、音声データの文字起こしをしてみました。
これを使えば、会議の議事録なんかもサクッと文字データに起こして笹っと修正するくらいでよくなります。
便利な世の中になったもんですね。。
まずはAmazon Transcribeとはなんぞやってところですが、
まずは公式のページ
音声ファイル(mp3,mp4など)をテキストにすることができますってことです。(そのまんまですね)
これのいいところは、AWSのS3とよばれるストレージサービスに音声データをアップロードして、Transcribeで処理を開始する。
それだけです。
めちゃ簡単だし、1時間のデータも20分ほどで処理ができて
尚かつ大体300円くらい。
これは使えるかも。
今回は以下のページを参考にやってみました。
公式のページのやり方だと、S3のオブジェクトのURLの指定が若干違ったのでクラメソさんのページのほうが参考になります。
実際にやってみた
以前手持ちのiPhoneのボイスメモで録音した約1時間くらいの音声データで試してみました。
まず分かったのが、ボイスメモはMOVファイルと呼ばれるMac用の拡張子で、Amazon Transcribeには対応していませんでした。。。
なのでまずは以下を参考にmp4に変換
その後、S3にアップしていざCreate!!!
15分から20分程度かかりましたが、正常終了。
データを見てみると、
んん??
全然わけわからん笑
ところどころは正しいのですが、ほとんどが意味不明な日本語になっていて、一昔前の機械翻訳みたいな日本語で、久々に笑わせてもらいました。
元データの音声が小さい、ってのもあるのかもしれないので他のデータでも試してみたいと思います。
どうやら設定でもう少し詳細というか正確にできるようチューニングできるらしいので、また調べて記事にします。
この記事が気に入ったらサポートをしてみませんか?