文字起こしが楽になる新技を見つけたのでシェアします

2020年11月25日 08:23

中村です、こんにちは。

このたび、録音音声を（半）自動で文字起こしする方法を見つけました。必要なアイテムは3つです。（1）ステレオミキサー搭載のPC　（2）それなりの録音機器　（3）Google ドキュメントがあればどなたも無料でできます。

決して完璧な方法ではありませんが、「これは作業が結構楽になるぞ…！」と感じました。

後からググって知ったのですが、この方法は音響・機材にお詳しい方にとっては常識…らしい。一方、広くは普及していない方法なのかな、と感じます。私の周りで発信を頑張っている経営者の方や、ライターさんたちのお役に立てればと思い、やり方をシェア致します。

この記事はこのような課題をお持ちの方におすすめです。

「文字起こしにかかる時間とコストを節約したいー！」

この記事は最後まで全文無料で読めます。有料エリアでは、おまけとしてお手伝い券を発行します（条件面など詳細は最後に！）安心して最後までお読みください。

結論（忙しい方向け）

＜必要なもの＞
・ステレオミキサー機能のあるPC
・なるべく高音質で録音できるレコーダー。（例：Zoom F1-SP など）
・Google ドキュメント

＜手順＞
（1）なるべく高品質のレコーダーで取材音声を録音する
（2）ステレオミキサー機能をONにする
（3）Google ドキュメントの音声入力機能を立ち上げる
（4）録音ファイルを再生する
（5）同時にGoogle ドキュメントの音声入力機能をONにして、入力をスタート！

＜注意点＞
・決して完ぺきな方法ではありません。（が、うまく設定できればめっちゃ楽になります！）
・話し手が2人以上いる場合は、うまく認識されない場合があります。話し手が1人の場合に向いている方法です。

はじめに

実をいうと、私は「文字起こしアンチ派」ではありません。むしろ有益だと思っています。
なぜなら、文字起こしの作業をしながら取材を振り返ったり、記事のインスピレーションが沸いたりすることもあるからです。

とはいえ、業務の負荷が高い時期には、「ぎゃー！時間が足りない！泣きそう！文字起こしを早く終わらせなきゃ！！」…と焦りを生む原因にもなっていました。

この方法が、同じように考えておられる皆様にとって、選択肢の一つとなりましたら幸いです！

従来の文字起こし方法

私はこれまで、会社での業務とフリーランスとしてのお仕事で記事のライティングや、動画用の文字起こしをしていました。

これまでに試した方法は以下の3つです。

（1）録音ファイルを聴きながらタイピング

一般的な方法です。録音ファイルを聴きながら、テキストエディタやWordに入力をして文字起こしをします。これがなかなか時間がかかります。私はタイピングが速い方ですが、1時間の文字起こしに1.5時間～2時間ほどかかります。

（2）AWS Amazon Transcribe

AWS Amazon Transcribeは、録音ファイルをアップロードすると自動で文字起こしをしてくれる従量課金制のサービスです。

昨年会社で試させていただいた際は、読み取り精度の面で、まだ実用レベルではないかも？と感じました。（もしかしたら今はよくなってるのかも。詳しい人情報求！）

（3）Google ドキュメントの音声入力＋シャドーイング

一番速い方法です。Google ドキュメントの音声入力機能を立ち上げて、録音ファイルを自分の声で追いかけて読み上げることで入力します。タイピングするよりも遥かに楽で疲れないこと、Amazon Transcribeよりも精度が高いことから、最近はもっぱらこの方法で対応していました。また、周りの方にもおすすめしたところ、「業務が楽になった！」と喜んでいただけました。

「録音音声をスピーカーで聞かせて読み取れば良いのでは？」という方のために補足：Google ドキュメントでは、現状スピーカーで聞かせた音声は全く入力されません…。

文字起こし方法の課題

（1）コストがかかる
文字起こしをする場合、自前／外注のいずれも、それなりのコスト（工数／費用）が発生します。

（2）場所を選ぶ
タイピングでは、外で作業をすることも考えられます。それなりのタイピング音がするため、周りの方のことを考えると、静かな環境下では作業しづらい、と思う方もいらっしゃると思います。また、シャドーイングでは、どうしても「読み上げる」という作業が必要なため、作業場所が更に限定されます。

ステレオミキサー＋録音機器＋GoogleDocumentとの出会い

ちょっと話は飛びますが、最近、新しい録音機器（Zoom F1＋SP）を購入しました。導入目的は、動画制作のための音声を綺麗に録音をすることです。

新しい三脚 Velbon BK-W HEADを手に入れました！

Zoom F1-SP（と、ショットガンマイク）と組み合わせるとなかなか本格的な見た目に。

動画のお仕事ライフがバージョンアップしますねぇ…（簡単なレビューを次ツイに書きます〜） pic.twitter.com/fgZRfKhlHO
— 中村めぐみ / ぐーちゃん (@Tapitea_rec) November 22, 2020

実際に現場で使ってみると、臨場感に溢れるサウンドに感動しました。買ってよかった100。

そして思いました。

「こんなにクリアに録音できているなら、録音ファイルをステレオミキサーで鳴らせば、そこそこの精度で文字起こしができるのでは…？」と。

注：ステレオミキサーとは（高速）…マイクとPC再生音を一緒に録音できる機材（機能）。PCに搭載されている場合もあれば、されていない場合もある。隠れている場合もある。搭載されていない場合は、オーディオインターフェースを導入して追加することも可能。

ググったところ、詳しい方の間では、ステレオミキサーで文字起こしをする方法は、（お詳しい方の間では）一般的なものというのがわかりました。

「これはやってみなきゃ！」

そして実際、取材音声で実験したところ、スイスイと文字起こしができ、大感激。この方法を周りの方にもシェアしたい！と思いました。

用意するもの

＜必要なもの＞
・ステレオミキサー機能のあるPC
・なるべく高音質で録音できるレコーダー（例：Zoom F1-SP など）
・Google ドキュメント

手順

（1）なるべく高品質の録音機器で録音した、なるべく高品質の録音データを用意する
（2）パソコンのステレオミキサーを有効にする

（3）Google ドキュメントのツール＞音声入力から、音声入力機能を立ち上げる。

（4）録音ファイルを再生し、マイクをクリックして赤くなったら再生開始。

（4）自動的に音声の文字起こしはじまります。

以上です。

イメージはこんな感じです↓

【文字起こし効率化実験中】

ステレオミキサー＋録音音声＋GoogleDocumentで文字起こし効率化の実験中です。この動画で再生しているのはあらかじめ録音したWavファイルです。そこそこの精度だと思うのですがいかがでしょう…！✨

（注：考えながらしゃべっているのがバレバレ😆） pic.twitter.com/sSsuorowhw
— 中村めぐみ / ぐーちゃん (@Tapitea_rec) November 24, 2020

ステレオミキサー＋録音機器＋Google ドキュメントで解決できる文字起こしの課題

（1）コスト
タイピングやシャドーイングから解放され、工数が削減できます。

注記）Google ドキュメントでは、生音を入力していても、音声入力が時々止まることがあります。が、実験の結果、クリアに録れている録音ファイルであれば止まる回数が最低限に抑えられることがわかりました。実際、私が実験したところ、30分の録音ファイルを読ませて、1回しか止まりませんでした。

「音声認識をはじめたら放置してネトフリ！」というわけにはいかないのが残念ですが、軽作業をしながら横目でチェックする、くらいの監視度合いでできそうです。何より、「面倒だけど早くやらなきゃ！」のプレッシャーから解放されるのが大きいです。笑

（2）場所
このやり方では、場所の制約をあまり受けないのがメリットです。PCのスピーカーから音声を流すため、ヘッドホンやイヤホンを刺しておけば（音漏れにさえ配慮すれば）、周りの方の大きな迷惑になるということもなさそうです。

注記）Google ドキュメントはインターネット環境下で使えます。移動中であればWi-Fi環境は必要です。

気になる精度について

詳細は下記しますが、それなりの録音機器とそれなりの録音環境であれば、それなりの精度で文字起こしができる印象です。体感ですが、シャドーイングと同じくらいかそれ以上の精度で文字起こしができます。

今後文字起こしが必要な場合、この機能を活用したいと思います。

で、めでたしめでたし…で終われれば良いのですが、私は好奇心モンスターとして界隈では有名でして、「どの録音機器でもできるのかな？」と気になりました。そこで、4種類の録音機器で試してみました。

4つの録音機器で実験してみた

名称未設定のデザイン

今回はこの4つで試してみました。

左から、

（1）スマートフォン：Xperia
（2）一眼レフカメラ：Nikon D3100 （付属マイク）
（3）リニアPCMレコーダー：TASCAM DR-22WL
（4）フィールドレコーダー＋ショットガンマイク：Zoom F1＋SP

【実験方法】

それぞれの機器による録音ファイルで、（1）音声認識の可否　（2）精度面を確認しました。※録音ファイルは、これまで取材で確保したものを使用。いずれも、静かな部屋で録音しました。

【結果】

・すべての機器で音声認識ができました。

・音声認識の精度は機器によって大きな差がありました。

・精度の高い順に並べると、

（4）フィールドレコーダー＋ショットガンマイク＞（3）リニアPCMレコーダー＞（2）一眼レフカメラ＞（1）スマートフォン

精度面から、実用レベルなのは（4）フィールドレコーダー・ショットガンマイク と（3）リニアPCMレコーダーのみでした。また、リニアPCMレコーダーで録音した場合も、複数人での会話や、録音環境があまりよろしくない場合は録音の精度が下がりました。

ちなみに、（3）と（4）の共通点は、
・録音専用のレコーダーであること
・店頭価格が1万円以上であること
・マイクに指向性があることなどです。

最後に、各機器でのレポートを精度の高かった順に下記します。

フィールドレコーダー・ショットガンマイク：Zoom F1＋SP

ファイル形式：.wavファイル 16bit モノラル 48k

今回の試した機器の中で、最も精度が高く文字起こしができました。
Google ドキュメントの音声認識では、途中で止まったり、認識できなかったりなどの現象が見られます（経験上、生音声の入力でも10分に1回は止まるかと、、、）
しかし、30分ほどの録音ファイルで止まった回数は1回だけでした。「録音をはじめたら放置」というわけにはいきません。でも、業務上実用できるレベルかと思います。

リニアPCMレコーダー：TASCAM DR-22WL

ファイル形式：.wavファイル 24bit モノラル

フィールドレコーダーと同様に、精度の高い文字起こしができました。
録音ファイルが何種類かあったので試してみたところ、録音環境によっては、文字起こしの精度にばらつきが見られました。

ーーーー実用の壁ーーーーー

（2）一眼レフカメラ：Nikon D3100 付属マイク

ファイル形式：MOV

音声認識は反応するものの、入力精度がよくありません。今回たまたま（4）と同じ話者による録音ファイルで実験しましたが、（4）では正確に聞き取れていた単語が以下のように入力されてしまいました。

彼女自身　　⇒カナダ人
コーチング　⇒工賃
駐在要員　⇒　従業員

原稿を作る際に相当の後戻り作業が必要そうです。文字起こしという意味では実用するのは厳しいかと思います。デジタル一眼レフのマイクはおまけみたいなものなので、そういうものですかね～。

（1）スマートフォン
ファイル形式：.wav

30分の音声ファイルで実験したところ、最初の5分で3回止まって超萎えました。耳で聞くと結構クリアに録音できているかなぁと思っていたのですが、やっぱり違うんですね。スマホは従来通り、漫画アプリとTwitterのために使うことにします。笑

導入する際のおすすめ

上記より、以下の4ステップで導入することをおすすめします。

（1）ご自身のPCにステレオミキサー機能があるかを確認する。

（2）これまで取材などで録音ファイルで実験する。

（3）精度を確認する。

（4）実用できそうであれば、本格導入する。

以上、「文字起こしを楽にする新技」についてレポートでした。

ここから有料おまけエリア↓

この方法は本当に超楽なのですが、お察しの通り（1）ステミキ搭載のPC（2）それなりの録音機器の両方が必要なのが弱点です。

ここまでお読みいただいた方で、「自分も試してみたいが、ステミキ搭載のパソコンが手元にない」「細かい設定が面倒だから、とりあえずこれまでの取材音声で試してみたい」方もおられるかと思います。

そんな方のために「中村が実験を手伝うチケット」を発行します。

使い方は以下です。

①このnoteをご購入いただく。
②有料エリアにチケットがあらわれます。
③私のTwitterのDM あてに、
（1）noteのお名前
（2）チケット画像のスクリーンショット
（3）実験をしたい録音ファイルの共有アドレス（Google DriveやDropboxがおすすめ）
をご連絡ください。
④共有頂いた録音ファイルを最初の5分間だけ、私の環境で（ステレオミキサー＋Google ドキュメント）文字起こしをしてお返しします。

【注意点】
・このチケットは中村が飽きたら終了します。気になる方はお早めにどうぞ！
・有効期限は、2021年1月25日です。
・コンプライアンス上問題のない音声ファイルのみご共有をお願いします。

正直、ステミキさえあればすぐに環境構築ができます。自力でなんとかできそうな方はご購入いただく必要がありません…！！それでも良い方のみご購入下さい。

（以下にはチケットと、使い方の説明があります。他には何もありません。）

ここから先は

208字 / 1画像

¥ 500

ログイン

サポートをどうもありがとうございます。大切に使わせていただき、新しい行動を起こして、また役に立つ情報をお届けしますね。