意気揚々と文字起こしの自動化を試してしょんぼりした話

2018年5月30日 16:23

育児で休業中、ライター業に復帰したらぜひとも試そう、とひそかに楽しみにしていたことがあった。

文字起こしの自動化、である。

以前noteで話題になっていた平野太一さんの記事「SoundFlowerとwriter.appを使った、自動文字起こし術決定版」などもお気に入りに保存し、ほかにも人から話を聞いたりして、「おお、ついに文字起こしから開放される時代が！革命だ！」とわくわくしていたのだった。

※ちなみに本noteはお役立ち記事ではなく、お役立たないエッセイである。自動文字起こしのノウハウを知りたい方は数あるネット上の記事を検索されたし。

＊　＊　＊

ここでまず、文字起こし作業に縁がない方のために、数年前までの文字起こし作業のイメージを共有しておきたい。

文字起こし作業とはひとことで言うと「己との闘い」だ。わたし調べ。

PCに向かい、おもむろに文字起こしソフトを起動。

イヤホンを装着し、一文くらいを聞き取って（タイピングも同時に進めながら）、ショートカットキーで一時停止ボタンを押し、残りをテキストとしてタイピングする。そしてまた、場合によっては少し巻き戻しをして、次の一文くらいを聞き取りつつ、タイピングをしていく。

ただそれだけの作業だ。

聞く、一時停止、（巻き戻す）、書く。
聞く、一時停止、（巻き戻す）、書く。

ただそれだけの作業を、普通のインタビューなら1時間分ほど、じっくり話が聞けた長めのインタビューならば2、3時間分ほどひたすら繰り返すのだ。

ちなみに例として、「ただそれだけの作業だ」というフレーズがあったとして、これを口頭でいうとだいたい2秒くらいである。それを今ストップウォッチかけてタイピングしてみたら、約4秒半であった。低めに見積もってもそれだけでざっくり2倍。

実際の文字起こし作業では、音源が聞き取りづらければ何度も巻き戻しをしたり、ミスタイプがあってタイピングし直したり、集中力が続かずに作業のスピードが全体的に落ちてきたりする。

一般的に、文字起こしにかかる時間はもとの音声の3〜5倍くらいだと言われているらしい。聞き取りにくい環境の2時間のインタビューなら、10時間くらいだろうか。

＊　＊　＊

そんな感じなので、最初はよし！やるかと元気にとりかかるものの、

聞く、一時停止、（巻き戻す）、書く。
聞く、一時停止、（巻き戻す）、書く。

これをひたすら続けるうち、息切れしてくる。

いやー、もうずいぶんやってきたな、少なくとも半分は越しただろう。そう思って進捗をチェックすると、まだ音声データの1/4ほどしか進んでいないではないか！

あぁ、果てしない……。ここで絶望の二文字が頭をよぎる。

そしてスラムダンクじゃないが、この絶望がまた疲労感を倍増させるのだ。

すでに息切れした状態で、なんとか次の一文、一文を進めてゆく。いつか終わりがくることを知っているから。がんばれ、もうちょっとだ……。

そしてこの作業は孤独だ。向き合うのは己のみ。否、PCの画面と、イヤホンから聞こえてくる音声のみ。

この精神状態は、持久走に似ている。

いつか終わる、いつか終わる、と言い聞かせながら、重たい足を前へと運び続けるのだ。

これが、己との闘いと言った所以である。

＊　＊　＊

そう！

だからこそ、少し前に賑わっていた「自動文字起こしすごい！小人さんが寝ている間に仕事してくれる時代がきた」騒動は、わたしの中ですさまじい希望の光だった。

ああ、ついにこの時代がやってきた！

と、育児の傍ら、目からウロコの思いでスマホを握りしめていたのである。

音声入力とか、勝手にまだまだ実用に耐えないレベルなんじゃないかとか思っていてごめんなさい。

「テープ起こし」と言われるように、昔から続いてきた文字起こしという作業が、21世紀になってもまだこんなに属人的なのおかしいだろう絶対どうにかなるだろう、と思いながら、でも目の前の原稿が積もり積もっていく中で、意識朦朧としながら文字起こししていた若かりし頃のわたしおつかれ。

わたしがおばちゃんになった時代には、ついに文字起こし自動化が一般的な時代になったのだ！すばらしい！みんな、ありがとう！開発者のみなさん！そしてそれを実践してわかりやすい記事をあげてくださっているみなさん！本当に！！！

もうそんな感じで、テンションはハイパー。

それはそれは、楽しみにしていたのだ。

＊　＊　＊

そして、復帰後、ひさびさのインタビュー記事。

いつもなら原稿にとりかかる前に、まず文字起こしで1日近く心身が消耗するなぁ……とテンションが低いが、今回は違う。

なんたって時代は変わったのだ！

ネット上に先人たちがまとめてくれたノウハウ記事を見ながら、意気揚々と｢Soundflower｣をインストールし、音声の入力と出力を設定する。

「writer.app」にアクセスし、文字起こしの画面を準備する。音声データをアップロードする。詳細設定をする。

ふむふむ、あとは音声データを再生すればいいのか。よし。

ああ、楽しみだ。

ついに、ついにわたしの小人さんがお仕事をしてくれるのだ……！！

ポチッ。

……。（10秒経過）

……。（20秒経過）

あ、あれ？

おかしいなと思い、もとのデータを聞き直してみると、きちんと冒頭から音声は録音されている。

あ、わかった。これはあれだな、なんか設定がおかしいんだ。だってみんなあんなに上手くいっているんだもの。

そう思ってヘルプを見たり、マイク設定を確認してみたりするが、おかしなところは特に見当たらない。

＊　＊　＊

うーん。じゃあやっぱり、ノイズかぁ。

そう、この音声データはガヤガヤとした喫茶店でのインタビューだったので、周囲の雑音が入り込んでしまっているのだ。

ちょっと調べてみたら、「ノイズがある場合はAudacityなどでノイズ除去をしてから音声をアップロードするとよい」という情報が目に入った。

ふむ、なるほど。

ということで今度はAudacityをダウンロードし、Web上の説明にお世話になりながらノイズ除去処理をほどこす。

ノイズは多少マシになったものの、ゼロには程遠い。

とはいえ人間の耳で聞けば、問題なく話している内容を聞き取れる。まあ、さっきよりはだいぶノイズも軽減したし、大丈夫だろう。

処理済みのデータを書き出し、再び「writer.app」に戻ってアップロードする。

……。（10秒経過）

……。（20秒経過）

か、変わらない……！

くやしいので数分そのまま待機してみたが、結局ほぼ白紙のままだった。

ただ、途中でポッと、ほんの一文だけ文字起こしされてしまった箇所もあった。

それはつまり、設定自体に問題があるわけではないのだということを示している。音声データにノイズがあるため、他の部分はすべて認識できない。そういうことだ。

この事実にぶちあたったときのわたしの落胆といったらない。

期待なんか最初からしなければよかったのに、もう諸手を上げて期待してしまっていたぶん、裏切られたときの落胆ぶりはすごい。

「なんだ！なんだぁぁああああああああ！今までの努力をかえせええええ」

と突っ伏して泣き叫びたい気分だった（心のなかでやっておいた）。

＊　＊　＊

つまりは、単純に、期待しすぎたのだ。

自動文字起こしがこんなにもノイズに弱いなんて、思っていなかった。

だってみんな、自動文字起こしすげえすげえって記事は見かけたけども、自動文字起こしノイズに弱すぎて使えねえって記事をわたしは目にしていなかったのだ。

なんだよなんだよこんちきしょう！と思いながら、「自動文字起こし」「ノイズ」で検索していたら、いや、もうすばらしくよくまとまっている、わたしの知りたかったこと全部書いてくれている記事がもうとっくにあった。ごめんなさい。

【↓引用元】音声認識を使った｢文字起こしの自動化｣を3つの方法で試して比較！夢の｢寝て起きたらテキスト化｣は可能なのか？
https://www.lifehacker.jp/2018/04/mojiokoshi_voice_recognition.html

総合的にみると、シーンを限定すれば活用できるものの、人間の耳の良さ、認識能力にはまだ追いついていないのが現状です。

どのサービスも雑音に弱く、環境音が入り込むと認識精度が大きく低下しました。カメラのシャッター音や紙をめくる音、マイクを通じた会場内での反響など、さまざまなノイズが入り込んだためか、発表会での登壇者スピーチの音源では認識精度が極端に悪く、ほぼ文字として認識されませんでした。

これらを踏まえると、｢自動音声入力｣による効率化を目指すのであれば、
1．雑音を拾いにくい録音システムを導入する。または編集アプリでノイズ除去処理を行う。
2．正しいイントネーション、聞き取りやすいボリュームと滑舌で話す。
3．他の人物と発言タイミングが被らないように気をつける。
などの条件をクリアーできてはじめて、音声認識ツールによる自動音声入力に委ねられるラインになります。

いや、もう、おっしゃるとおりです。

前提条件が大事なんですよ。いやだなぁ、もう、自分の録音環境設定を棚上げして怒るなんてこれだからおばちゃんは……ええ、ぐうの音も出ません。

では確実に音声入力で録音音声をテキストに変換するにはどうすればいいのか？というと、筆者はイヤホンで音源を聞きながら、同じ内容をマイクに向かって喋り、自身の声を音声認識させるといった方法を利用しています。

オーディオミキサーアプリも必要なく、音源をイヤホンで聞き、そのままマイクに向かって喋るだけ。認識精度や使い勝手を考えると、作業にはSpeechnotesが適しているでしょう。

もうね、最初からこの記事を見つければよかった。

そうしたら、ここまでいろいろ試行錯誤した数時間の間に、自分の声で音声認識させて、今ごろ文字起こし終わっていたもの。

というわけで、この記事を見つけてすぐ、自動文字起こしはすっぱりとあきらめた。おとなしくアドバイス通りに、音源を聞きながら自分の声でリピートし、Speechnotesで音声入力させるという形で作業を遂行した。英語のシャドーイングを思い出す。

なお、音声入力自体はとても快適であった。

たまにミスタイプはあるものの、はっきりゆっくり発音すればかなりの精度で変換までしっかりしてくれる。

むしろ最初からこの方法を試していたら、「音声入力すごい！精度すごい！未来きたんだなぁああ！数年前にこの方法があれば……！」くらいのテンションで感動できるレベルだ。すばらしい開発者の方々の努力の結晶である。

しかし、自動文字起こしへの期待と落胆を旅してきてしまったそのときの自分には、その純粋な心が薄れてしまっていた。なんともったいない。

＊　＊　＊

結果として、「口頭でリピートするだけで文字を入力してくれる」というのは、やはり手動でタイピングするよりはるかに効率がよかった。

ただしゃべっていればいいので姿勢ももたれかかったりとある程度自由がきく。手動タイピングに比べれば疲労度も少なく、快適に作業は終了した。

若かりし頃、この手段を当然のように使えていたら間違いなく、文字起こしに割いていた労力と脳みそを原稿の質向上や本数の増加にささげられたに違いない。

自分の声でリピートして音声入力、十分すばらしいじゃないか！

しかし、なんだろうこの気持ち。

金の斧あるよ！と言われて、あー、ごめんやっぱ金の斧まだできてなかった、銀の斧使っといて〜、鉄の斧よりは格段にいいからさ！と言われたようなこの気持ち。

つくづく、過度な期待はするもんじゃない。

＊　＊　＊

書きたいだけ書いて、ようやく気持ちが落ち着いてきた。

ええ、やっぱりね、noteを書くのはこころの浄化作用がありますね。

雑音を拾いにくい録音環境、がんばろっと……。

自作の本づくりなど、これからの創作活動の資金にさせていただきます。ありがとうございます。