AWSを使って音声データの文字起こし

2020年1月29日 23:26

今回はAWSのサービスのAmazon Transcribeを使って、音声データの文字起こしをしてみました。

これを使えば、会議の議事録なんかもサクッと文字データに起こして笹っと修正するくらいでよくなります。

便利な世の中になったもんですね。。

まずはAmazon Transcribeとはなんぞやってところですが、

まずは公式のページ

音声ファイル(mp3,mp4など)をテキストにすることができますってことです。(そのまんまですね)

これのいいところは、AWSのS3とよばれるストレージサービスに音声データをアップロードして、Transcribeで処理を開始する。

それだけです。

めちゃ簡単だし、1時間のデータも20分ほどで処理ができて

尚かつ大体300円くらい。

これは使えるかも。

今回は以下のページを参考にやってみました。

公式のページのやり方だと、S3のオブジェクトのURLの指定が若干違ったのでクラメソさんのページのほうが参考になります。

実際にやってみた

以前手持ちのiPhoneのボイスメモで録音した約1時間くらいの音声データで試してみました。

まず分かったのが、ボイスメモはMOVファイルと呼ばれるMac用の拡張子で、Amazon Transcribeには対応していませんでした。。。

なのでまずは以下を参考にmp4に変換

その後、S3にアップしていざCreate！！！

15分から20分程度かかりましたが、正常終了。

データを見てみると、

んん？？

全然わけわからん笑

ところどころは正しいのですが、ほとんどが意味不明な日本語になっていて、一昔前の機械翻訳みたいな日本語で、久々に笑わせてもらいました。

元データの音声が小さい、ってのもあるのかもしれないので他のデータでも試してみたいと思います。

どうやら設定でもう少し詳細というか正確にできるようチューニングできるらしいので、また調べて記事にします。

この記事が気に入ったらサポートをしてみませんか？