Amazon Transcribeによる自動文字起こしマニュアル
・音源データは約60分
・1ヶ月あたり60分までなら無料枠でできる
・無料枠を超えた場合、60分の音源なら$1.44(約150円)でできる
ということで、やってみました。Amazon Transcribe。
先に結果をお伝えします
Amazon Transcribeの技術力はほんと素晴らしくて、60分の音源なのに10~15分であっという間に文字起こし完了。すごい。
じゃあその精度は…?というと、こんな感じ👆で、相槌とか何もかも声を拾って文字起こししてくれちゃうのと、文字起こしの精度もいまいちなので、これをそのまま使うのは難しそう。笑
ただ、これで終わってしまうのは悔しかったので、実験的に、いつも文字起こししてくれている方にこんなオーダーをしてみました。
今回新たなチャレンジとして、「自動文字起こし」をやってみました。実際には精度6~7割でこのままだと使い物にならないのですが、「ゼロから文字起こし」をするのと比べれば生産性上がるのか?というのを実験してみたいなと。
「音源」と「自動文字起こしデータ」をもとに、「文字起こしを成形する」という形でやってみてもらっても良いですか?
その結果、従来の「ゼロから文字起こし」と比べてどれくらいかかる時間が変わるのか、を知りたいです。よろしくお願いします。
その結果、「いつもより30分ほど短縮できた」とのこと。
「そのまま使うのはしんどいが、150円で30分短縮できると考えると、悪くないツール」なのかなとは思います。
ということで、興味を持っていただけた方向けに、Amazon Transcribeのやり方についてお伝えします。
自動文字起こしの7つのステップ
文字起こしにかかるステップは以下の7つのステップです。
アカウント登録などが必要なので初回のみ7ステップ、以後は5ステップという感じです。
STEP1:まずはAmazon AWSに登録する(無料)
STEP2:AWS S3でデータ保存用のドライブを作成する
STEP3:ドライブに音声データをアップロードする
STEP4:Amazon Transcribeで自動文字起こし
STEP5:JSONファイルをダウンロード
STEP6:JSONファイルをCSVに変換
STEP7:CSVをGoogleスプレッドシートにアップロード
STEP1:まずはAmazon AWSに登録する(無料)
まずはAmazon AWSにアカウント登録する必要があります。
同じAmazonでも普段みなさんが使っているECサイトとかとは全く別のアカウントになるので、ほとんどの方は新規登録が必要になります。
まずは👆にアクセスして、右上の「AWSアカウントを作成する」をクリックしてアカウント作成を進めます。
途中でプラン選択の画面になりますが、無料のベーシックプランでOKです。
STEP2:AWS S3でデータ保存用のドライブを作成する
アカウント作成完了後、Amazon AWSのコンソール(管理画面)にログインします。
ログイン完了したら早速自動文字起こし♪といきたいところですが、まずは「音源データを格納するための箱」を作成する必要があります。
コンソールの一番左上の「サービス」を選択して、検索画面で「S3」(Simple Storage Serviceの略)と検索しましょう。
S3にアクセスすると、こんな画面が出てきます。まだ何も作成されていない状態なので、「バケットを作成する」をクリックしましょう。
①バケット名は任意の文字列(英数字)を入力しましょう。
②リージョンはデフォルトでOKです。
③「既存のバケットから設定をコピー」は無視でOKです。
以降、オプションの設定・アクセス許可の設定については、デフォルトのままサクサク「次へ」を押して進めて作成を完了させましょう。これでバケット作成完了です。
STEP3:ドライブに音声データをアップロードする
バケットの作成が完了したら、次は音声データをアップロードしましょう。
左の「アップロード」のボタンをクリックします。
「ファイルを追加」をクリックして、文字起こししたい音源をアップロードします。
細かい設定は不要なので左下の「アップロード」をクリックします。
アップロードした音源データをクリックすると、右側にデータのステータスが表示されます。
「コピーパス」をクリックして、パス(ドライブ内のURLみたいなもの)をコピーしておきましょう。ここ大事。
STEP4:Amazon Transcribeで自動文字起こし
ここまでくればあともう一息!
画面上の「サービス」をクリックして、検索窓で「Amazon Transcribe」を検索して、「Amazon Transcribe」をクリックします。
右側にあるオレンジのボタン「Create job」をクリックします。
①”Name”に任意のファイル名(英数字)を入力します。
②音源が日本語の場合はLanguageを「Japanese(Japan)」に設定します。
③”Input data”の”Input file location on S3”の箇所に、STEP3でコピーした「パス」をペースト(貼り付け)します。
上記を完了後「Next」をクリックして進めて最後に「Create」をクリックすればOK。60分の音源なら10~15分あれば完了するので、Twitterでもしながら文字起こしが完了するのを待ちましょう。
STEP5:JSONファイルをダウンロード
文字起こしが完了すると、右側にある”Status”の欄が緑色の”Complete”にかわるので、データをクリックします。
上の方にある”Download full script”をクリックすると、文字起こしされたデータがダウンロードされます。
これで晴れて文字起こし完了!かと思いきや、これで終わりではありません…!
ファイル名をみると、「JSON」という、エンジニア以外は到底ダウンロードしたことのない拡張子になっています。笑
ということで、次のステップでファイル変換を進めていきます。
STEP6:JSONファイルをCSVに変換
エンジニアをされている方であれば別ですが、ほとんどの方はJSONファイルを開くためのアプリケーションを持っていないので、このままだと開けません。
僕が使ったのは「ACONVERT」という無料サービス。
「ファイルを選択」をクリックして先程ダウンロードしたJSONファイルを選択後、「ターゲットフォーマット」に「CSV」を指定して、「今すぐ変換」をクリックして、CSVデータをダウンロードします。
STEP7:CSVをGoogleスプレッドシートにアップロード
このCSVデータ、とんでもなく重たいデータなので、そのままExcelやWordで開こうとするとなかなか大変なことになります。
そこでオススメなのが、Googleスプレッドシート。
スプレッドシートで「新規作成」をクリック後、ファイル>インポートを選択して、先程ダウンロードしたCSVデータを選択してデータをアップロードします。
こんな画面が出てきますが、すべてそのまま設定を変えずに「データをインポート」をクリックします。
ものの10秒ほどでインポートが完了してこんな画面になり、A列2行目に文字起こしした文章がインポートされるので、A列2行目をコピーして、WordやGoogleドキュメント、メモ帳などお好きなものにペーストすれば完了です。
いかがでしたか?
物は試し。60分までなら完全無料でできるので、実験もかねてぜひ一度やってみてくださいね!
この記事が気に入ったらサポートをしてみませんか?