AWS+Pythonを活用！！ Amazon Transcribeを使ったコーチングセッションの文字起こし

kohei_increate

2021年12月12日 11:31

こんにちは。
ベトナムでFintech事業立ち上げ準備中のKoheiです。

実は副業として、キャリアに関するトピックを中心としたコーチングも行っています。毎回、クライアントのセッションログをとってあとから共有しているのですが、録音した音声ファイルから文字起こしできたらいいなと思っていました。

今回、AWSで提供しているAmazon Transcribeを使って、コーチングセッションの音声ファイルから文字起こしをしてみたので紹介してみたいと思います。

最初は少し面倒かもしれませんが、一度やってしまえば二回目以降は直ぐにできると思いますので、是非お試しください。

AWSアカウントの登録

まずはAWS（Amazon Web Service）のアカウントを登録してください。

アカウント登録の方法についてはネットでいくらでも探せますが、コチラを貼っておきます。

さて、無事登録ができてログインするとAWSのサービス一覧を見ることができます。

こんなにいっぱいあるのかとここでビビってしまうかもしれませんが、今回使用するのはたった2つです。S3とAmazon Transcribeです。

S3(Simple Storage Service): オンラインストレージサービス
Amazon Transcribe: 音声ファイルをテキスト変換するサービス

もうおわかりいただけたかもしれませんが、やることは簡単です。

①　文字起こししたい音声ファイルをS3にアップロードする
②　Amazon Transcribeで音声ファイルをテキスト化（JSON形式）する
③　JSONファイルをCSV形式に変換する(Pythonプログラム実行)

JSONって何？！
Pythonプログラム実行って？！

っていう方。まだ気にしなくて大丈夫です。
要は人間には読みにくい形式のファイルなので、エクセルとかで見やすいようにCSV形式に変換するということです。

順を追って説明していきます。

１．音声ファイルをS3にアップロード

まずはバケットを作ります。設定はデフォルトのままで大丈夫です。

バケットができたら、その中にオブジェクトとして音声ファイルをアップロードします。

S3の作業はこれだけです。

２．Amazon Transcribeで音声ファイルをテキスト化（JSON形式）する

Amazon Transcribeの画面に入ったら、左のメニューからTranscription jobsを選択し、右端のCreate job をクリックします。

Job setting

Nameは適当に設定してください。Language はJapaneseを選択します。

Input data

先程S3に格納した音声ファイルの格納場所のアドレスを設定します。(Browse S3ボタンからファイルを参照できます)

アドレスがわからない場合は、S3でアップロードした音声ファイルオブジェクトの概要画面で確認することができます。S3 URIと書いてある部分がそれにあたります。

Configure Job

次の画面ではSpeaker Identification（話者の特定）を設定しておくと良いでしょう。人数を入れておくと、テキストファイルに起こす際に自動的に話者を特定してくれます。

Create Job

最後にCreate Jobボタンを押すとジョブが開始されます。1時間のファイルであれば約10分で完了するはずです。

JSONファイルのダウンロード

ジョブのステータスがCompleteになると文字起こししたファイルがJSON形式でダウンロード出来ます。ちなみにプレビュー画面のAudio Identificationタブから最初の部分だけ結果が確認できます。

Amazon Transcribe: Transcription Preview

3.JSONファイルをCSV形式に変換する

ダウンロードしたJSONファイルは、このままだと見にくいのでCSV形式に変換する必要があります。これをtscribeというPythonプログラムで行うので、Python3, pip(サードパーティが配布しているPythonパッケージをインストールするツール) をインストールする必要があります。

Python3, pipをまだインストールされていない方は以下のサイトを参考にしてください。

あとは簡単です。以下のプログラムを貼り付けたPython実行ファイル（拡張子.py）を作成し、ダウンロードしたJSONファイルを同じディレクトリに保存した状態で実行するだけです。

import tscribe

tscribe.write("asrOutput2.json", format="csv")

注）"asrOutput2.json"部分にファイル名を記入

Pythonファイルの実行方法がわからない場合はこちらのリンクを参考にしてください。

こんな感じで、スピーカー毎に文字起こしが確認できるはずです。正直、文字起こしの精度に関しては、もう一歩という感じです・・・。が、セッションの記録として後から何を話したかざっと振り返るには充分かと思います。

まとめ

いかがでしたでしょうか。
またPythonやAWSを利用したことがない方には少し手間がかかったかもしれません。
ただ、PythonとAWSには文字起こしにとどまらない大きな可能性があります。これを入門編として他の活用方法にも手を出してみると新しい世界が広がると思います。是非試してみてください。

ちなみにAmazon Transcribeにはリアルタイムで文字起こしをしてくれるReal-time transcriptionというサービスもあります。こちらはオンライン会議の文字起こしに良いかもしれません。

最後に

海外でのキャリアやビジネスを志向されている方に向けたコーチングを行っています。ご興味のある方は是非一度無料セッションにご参加ください。

またIncreate ではベトナムにおけるフィンテック事業の立ち上げを計画しています。興味を持っていただけた是非Twitter DMでご連絡ください。

こんな方とお話したいです。
・　ベトナムでのビジネスに感心がある方、関わっている方
・　フィンテックに感心がある方、関わっている方
・　事業アイデアの壁打ちをしていただける方

Twitter:@Kohei026327771
Website: https://increate.biz/

この記事が気に入ったらサポートをしてみませんか？