見出し画像

文字起こしの無料自動化ツールを実際に検証・比較してみた

インタビューや動画テロップなど、音源を元に文字に起こす『文字起こし』
面倒で地道な作業の文字起こしですが、最近では便利な自動化ツールが沢山あります。今回はその中でも無料の文字起こしツールを実際に検証してみました。

無料のツール5つと、それぞれを使ってみた結果を詳しくご紹介するので、ぜひ参考にしてみてください。

文字起こしとは

文字起こしとは、インタビュー記事や議事録の作成に欠かせない作業ですが「面倒だ」と感じている方も多いのではないでしょうか。

これまでの文字起こしでは、ICレコーダーなどで録音した音声を聞きながら、一文ずつテキストを手打ちしていくのが一般的でした。

しかし、手間も時間もかかるため、「会議のあと、すぐに議事録を作るために、他の仕事が後回しになってしまった」「雑音が多くて聞き取れないので、再生時間の3倍近く、文字起こしにかかってしまった」という事態が起こりがちです。

文字起こしには最短でも「音声の1.5~2倍の時間がかかる」と言われています。会議が2時間の長丁場だったら‥働ける時間のうち、4時間もの時間が消費されてしまいます。

無料の文字起こし自動化ツール5選

今回は無料で文字起こしを自動化できるツールのうち、主要なツールとして、下記の5つをご紹介します。

①Googleドキュメント
②Windows音声入力機能
③Mac音声入力機能
④Watson Speech to Text
⑤Texta

①Googleドキュメント
Googleドキュメントを開いて、スピーカーアイコンをクリックするだけで使える大変便利なツールです。WindowsとMacの両OSに対応しています。

以前よりもブランク(音声入力のない時間)でもオフになりにくく、連続しての音声入力が可能となっています。

参考:Googleドキュメント

②Windows音声入力機能
Windows 音声認識は、WindowsのPCに搭載されているツールで、音声入力だけではなく、PCの操作もできる点が特長です。

例えば、「Excelを開く」や「Wordを起動」と話すことで、ご自身のPCでアプリケーションを起動することができます。

また、リファレンスカード記載の「ディクテーションのコマンド」を使えば、音声で単語の選択や文字の大文字・小文字切り替えなど、キーボードを使わずにテキストを編集可能です。

参考:Windows 10 で音声認識を使用する|Microsoft

③Mac音声入力機能
Windows PCと同様で、Macにも音声入力のツールが搭載されています。高性能な内蔵マイクを簡単な設定のみで利用できるので、気軽に試せるツールの一つです。

Mac固有のアプリケーションのほか、Google Chrome上やChatworkなどのアプリケーションでも使えます。

参考:Macでメッセージや書類を音声入力する|macOSユーザガイド

④Watson Speech to Text

画像15

Watson(ワトソン)とはIBMのAIの名称で、Watson Speech to Textは、IBM Cloudへ無料アカウントの作成後、利用できるクラウド型の文字起こしツールです。IBM Cloudは英語サイトですが、日本語のほか、多言語の選択が可能です。

登録後、ライト・アカウントでは、制限があるものの一部無料で機能が使えます。対応可能な音声ファイルの拡張子は「mp3, Flac, pcm, wav, ogg, WebM, Mu-law/u-law」と、非常に幅広いのも特長です。

デモサイトは登録不要で利用できますが、登録後の利用には、APIキーやファイルパスなどの入力が必要となります。そのため、プログラミングに興味がある方やコーディングの知識がある方におすすめのツールです。

参考:Watson Speech to Text|IBM

⑤Texta

画像1

Textaは議事録作成に特化したツールです。初回登録が必要ですが、リアルタイムの文字起こしとダウンロードのみであれば、無料で利用できる「フリープラン」があります。別途、音声データの文字起こしが利用可能なプランもサブスクで用意されています。

クラウド型で、ページを開いて起動すればすぐに録音と文字起こしを使えるので、便利です。手持ちの音声データを使う場合は、「mp3, wav, ogg, flv, flac, aac, aiff, mp4, webm」の拡張子であれば、読み込み可能です。

参考:議事録作成支援ツール Texta

【検証結果】それぞれのツールで文字起こししてみた

それぞれのツールを実際に使って文字起こししてみた結果、文字起こしの時間短縮や効率化につながりました!各ツールとも「音声とPCのみ」用意すれば、簡単に行えました。

ここからは、それぞれのツールの検証結果を詳しく紹介していきます。検証には、チェックロの思いと願いを読み上げました。

今回は、話者一人での検証のため、すべてPCの内臓マイクで検証しました。複数人での会議や遠くの音声を拾う場合には、外付けマイクなどの利用がおすすめです。

①Googleドキュメント

-手順
Googleドキュメントを使う際はまず、初期設定の確認を行いましょう。

●初期設定
Windows10の場合は、PCのコントロールパネル内にある「サウンド」を開き、「録音」タブを開きます。そこに「ステレオミキサー」という項目があるので、それを右クリックし、「既定のデバイス」として設定します。

Googleドキュメント_音声入力

参考:Windows 10のコントロールパネルを表示する6つの方法|Office Hack

●初期設定がうまくいかない場合うまく音声入力が出来ない場合は、「Virtual Audio Cable」というアプリをインストールしてみてください。インストールには管理者権限が必要になるので、インストールファイルを右クリックし「管理者として実行」を選択しましょう。

その後、Macの場合は「システム環境設定」から「サウンド」を開き、入力で「VB-Cable」を選択します。これによって、再生された音声ファイルを認識できるようになります。

Windowsの場合は、コントロールパネル内「サウンド」の入力デバイスを「CABLE Output(VB-Audio Virtual Cable)」に変更します。

参考:寝てる間にテキスト化!?Googleドキュメントで取材音源を自動で文字起こしをする方法|ferret

●操作方法(Windows10・Mac共通)
初期設定後、Googleドキュメントで上部のメニューの「ツール」にある「音声入力」を有効にします。

Googleドキュメント_音声入力_1

左上にスピーカーアイコンが表示されたら、クリッククリックすると音声入力を開始できます。

音声入力の再開・停止はキーボードでも操作可能で、「Ctrl(Command)+Shift+S」で行えます。

デメリットとして、Googleのアプリケーションのみで操作できるツールのため、Officeソフトを利用したり、外部のアプリケーションを操作する場合は、一旦Googleドキュメントで作成したあと、転記する作業が必要となります。

参考:無料で使える文字起こしソフト・アプリを比較|upwrite blog

-結果

Googleドキュメント_音声入力_検証

「改行」は音声では認識されないものの、音声入力をしながらキーボードの操作が可能でした。音声は自動で漢字に変換され、誤字や改行はキーボードでその都度対応できるのが便利でした。「。」は「まる」で入力できますが、「、」は読点と言わないと厳しかったです。

加えて、「!・アルファベット」も音声入力を行えました。
変換の精度は完璧ではないものの、非常に高いと言えます。ただし、ゆっくりと読み上げないと、認識されないことが度々ありました。

②Windows音声入力機能

-手順
スタートメニューの検索窓に「音声認識」と入力し、表示される[Windows 音声認識]を選択しましょう。

win音声認識

初回実行時にはチュートリアルがあります。PC起動時にオンにするか、手動・自動のどちらで切り替えるかなどを、使いやすいようにカスタム可能です。

win音声認識_1

ツールバーが画面上部に表示されるので、好きな位置へドラッグ移動します。

win音声認識_2

音声で操作する場合、「聞き取りを開始」「聞き取りを停止」と話すことでオンとスリープ状態を切り替えられます。手動での起動は「Ctrl+Windowsキー」を押して行えます。

ツールバーのマイク部分が青色になれば、音声が認識できる状態です。

精度をあげるにはユーザー登録辞書を使ってみましょう。併用することで、変換ミスを減らせるので、専門用語が多くある文字起こしにも対応可能です。

ExcelよりもWordの操作に適しているらしく、句読点や改行も「てん・まる・かいぎょう」と言うと認識されます。

参考:Windows で音声認識を使用する方法|Microsoft
   Windows 音声認識コマンド|Microsoft
   パソコンで音声入力【Windows 10】|Be COOL Users

-結果
音声で起動したり、停止したりできるのが便利なツール…なのですが、検証時にはツールバーは表示されるものの、うまく起動しませんでした。

また、閉じるのにも時間がかかり、その間Googleドキュメントの動作が停止してしまいました。PC上で音声認識アプリを動かすので、PCの動きが重たくなった可能性があります。

Windows 音声認識では、キーボードとマウスの代わりに音声を使用して PC を操作できるので、高スペックのPCで上手く使えれば、業務の効率化につながりそうです。

③Mac音声入力機能

-手順
システム環境設定で「キーボード」の音声入力パネルを「オン」にします。

mac_設定

初回は、音声入力の開始・停止のショートカットキーを指定できます。
例えば、左のCommandキーを2回」など、操作しやすいように変更しておきましょう。

-結果

画像17

音声入力の速度が非常に速く、改行や句読点のほか「…」なども音声で入力できました。また、音声入力の開始と停止の際に通知音がなるので、感覚的に操作しやすく、変換の精度も高めでした。

Mac PCにインストールされているメモ帳のほか、ChatworkやGoogle検索・Googleスプレッドシートでも起動することができました。

ただし、1回ごとの読み上げ時間の目安が40秒以内と短めです。また、一度「完了」とするまで、改行や変換の反映が確定しないため、作業が途切れ途切れになる点は、少し不便に感じました。

参考:Macでメッセージや書類を音声入力する|macOSユーザガイド
   Macを使って、録音した音声ファイルからの文字起こし|note

④Watson Speech to Text
-手順
今回は、下記のSpeech to Textのデモサイトにて検証しました。デモサイトは、アカウント登録せずに利用可能です。
https://www.ibm.com/demos/live/speech-to-text/self-service/home

「Voice Model」で「Japanese」を選択し、音声ファイルをアップロードするか、「Record Audio」をクリックして、音声を入力すると、リアルタイムで下部のボックスに表示されます。

画像8

本格的に利用する場合は、初回は「IBM Cloud」のアカウント登録後に、PCへコードの入力をすることで文字起こしが可能となります。

登録は、氏名・メールアドレス・電話番号だけで行えます。ライト・アカウントであれば無料でSpeech to Textを1ヶ月 500分まで利用できます。

登録が完了したら、IBM Cloudにログインします。

画像9

画面上部の検索窓に「speech」を入力して検索するか、画面上部「カタログ」をクリックして、候補に表示される「Speech to text」を選択します。


次に、ロケーションの選択を「東京」にし、右メニューで「作成」をクリックしましょう。(※今回はデモサイトでの検証までとしました。)

画像10

上記で、Speech to Text のサービスが作成は完了ですが、実際に利用するためには、Windowsではコマンドプロンプト、Macではターミナルにコードの入力が必要となります。

その際は、 「APIキー」と「URL」をSpeech to Textの「管理」メニューからコピーしてください。貼り付け用のコードは、「Speech to Textの入門」に記載があります。

参考:Watson Speech to Text の使い方 日本語音声をテキストに変換してみよう|あぱーブログ

-結果

画像11

登録不要なデモサイトで、リアルタイムの文字起こしや、音声データのアップロードのどちらもが無料で利用できました。

固有名詞の認識は難しいものの、音声認識の精度は非常に高く、文字起こしもスピーディーでした。はっきりと発音していれば変換の精度は高く、日本語・英語以外の多言語に対応しているので、将来的に役立つシーンが増えていくツールと言えます。

登録しての利用は、APIキーの入力などの初期設定が多く、今回はうまく行えませんでした。

画像12

また、スピーカーが複数名いる場合は、上記のように表示を自動で分ける機能があります。そのため、複数名が参加した会議の文字起こしで「誰が喋っているのか判断が難しい」という問題を解決できるでしょう。

また、コードによって「文字起こしをどのように行うか」をカスタマイズできるので、うまく使えれば業務時間の大幅な短縮につながるはずです。

⑤Texta

-手順
Textaの導入には、ChromeがインストールされたPCが必要です。それ以外の設定は不要で、ログイン後すぐに使えます。

ログインには、名前とメールアドレス・パスワードの設定のみ必要です。登録したメールアドレス宛に連絡があるので、クリックして認証を完了しておきましょう。

画像13

ログイン後、左メニューにある「リアルタイム」が開かれた状態になります。「議事録開始」のボタンをクリックすれば、音声入力を開始できます。

なお、タイムスタンプの有無は、後からでも簡単に切り替え可能です。
音声入力を停止すると、下部にリアルタイムでの文字起こしが表示され、「一行ごと」に修正が可能です。

音声入力が完了したら、ファイル名を入力し、「テキスト保存」または「音声保存」の選択をしましょう。なお、テキストの場合はメモ帳「.txt」で、音声の場合は「webm」形式での保存となります。


-結果

画像14

「議事録開始」後すぐに録音が開始され、停止するとすぐに画面下部に文字起こしがタイムスタンプ付きで表示されました。

音声入力の精度が非常に高く、「!」「?」なども音声で入力できました。アルファベットの変換精度も良好で、ストレスなく利用できるツールでした。

デメリットとして、議事録の一時停止後すぐに新しいデータの取得ができなかったり、新たに録音する際にはリロード(再読み込み)が必要だったりと、一度止めてしまうと再開しづらい点が挙げられます。1件保存した後も、少し動作が重たく感じました。

【評価・比較】無料の文字起こしツール結果比較

①Googleドキュメント
-総合評価(5段階)
★★★☆☆

-良かった点
・使用率の高いGoogleドキュメントで利用できるツール
・変換精度が非常に高い
・ブランクがあっても、自動停止しづらく、続けての音声入力が可能
・音声入力しながら、キーボードで適宜修正を行える

-気になる点
・手動での改行や修正が必要
・Googleのアプリケーションでしか動かない
②Windows音声入力機能
-総合評価(5段階)
★☆☆☆☆

-良かった点
・初期設定が簡単
・起動方法などをカスタマイズできる

-気になる点
・起動すると、PCの動きが重たくなる
・Windows以外のアプリケーションでは動かない
③Mac音声入力機能
-総合評価(5段階)
★★★☆☆

-良かった点
・初期設定が簡単
・変換の精度が高い
・音声入力の速度がはやい
・Macのアプリケーション以外でも利用できる

-気になる点
・ブランクがあると、すぐに停止する
・連続で音声入力できる時間が短い
④Watson Speech to Text
-総合評価(5段階)
★★★☆☆

-良かった点
・デモサイトは、簡単にすぐ使える
・日本語だけでなく、多言語に対応可能
・文字起こしの精度が高い
・音声データの文字起こしができるので、離席が可能
・録音と音声データの両方からの文字起こしが無料で行える
・コードを追加すれば、タイムスタンプ有りなどの設定を多彩にカスタマイズできる。

-気になる点
・初めて利用する際に、操作が分かりづらい。
・固有名詞や複雑な用語の変換は修正が必要となる
・開発ツールを利用するため、コードに詳しくなければ本格的な利用は難しい
⑤Texta
-総合評価(5段階)
★★★★☆

-良かった点
・初回ログインが簡単で、登録後すぐ起動できる
・議事録をリアルタイムで作成可能で、録音もできる
・Webページが分かりやすく、操作しやすい
・タイムスタンプがあるので、後で見直しやすい議事録を作れる
・導入後のカスタマーサポートがある

-気になる点
・無料プランでは、手持ちの音声データからは文字起こしができない
・一度停止すると、再開に時間がかかる
・通信状況によっては、短い文字起こしでも時間がかかる場合がある

完全に文字起こしを自動化するのは難しい

最近では、PCソフトやクラウドツール、アプリと沢山の文字起こしツールがあります。AIによる自動化ツールも沢山リリースされており、今後も増えると予測されています。

ツールを使って、時間のかかる文字起こしの効率性をあげることは重要です。なぜなら、文字起こしの作業に社員のリソースを割くことは、生産性が下がる要因にもなるからです。しかし、表現の多彩な日本語の文字起こしを完全に自動化するのは難しいため、最終的には人の手による修正は必要になります。

チェック作業や面倒な文字起こしにお悩みなら、高品質で低価格なチェック代行サービスCHEQRO【チェックロ】へお気軽にご相談ください。

この記事が気に入ったらサポートをしてみませんか?