見出し画像

自動文字起こしツールを賢く使うには?

これはM&Aクラウド アドベントカレンダー2021の13日目の記事です。

M&Aクラウドでライターをしているみょんです。当社のM&Aプラットフォーム上の募集記事や成約インタビュー、オウンドメディア記事などを書いています。

6日目を担当したデザイナーの池田さんが社内のSlackで「私に書いてほしいテーマ」を募集し、すぐにレスポンスがたくさん付いていたので私も真似をしたら、しばらく閑古鳥でした(泣)。

今回のお題「テック」縛りでライターが書けるテーマって、ライター以外から見てもイメージが沸きにくいのですね。私自身、テックから一番縁遠い仕事をしている自覚はあって、普段使っているテックというと、自動文字起こしツールくらいです。これも今年使い始めたばかりですが、予想外に作業効率化できているので、今回はこの「自動文字起こし」について書きたいと思います。

文字起こしとは?

文字起こしと言われても、ピンと来ない方もいるかもしれません。文字通り、人がしゃべった言葉を「文字に起こす」ことです。TVのテロップなども文字起こし作業で作成されているはずですし、会議の議事録作成なども文字起こしと言えます。突飛な例ですが、警察の調書なども文字起こしの一種でしょう。

今、挙げた例たちは、文字起こしそのものが最終成果物ですが、私が普段している取材音声の文字起こしは、あくまで記事を書くための補助的な作業。時間がないときなど、取材中に取ったメモと記憶を頼りに記事を書き、記憶があやふやな部分だけ録音を聞いて確かめる、「文字起こしレス」なやり方もしています。

私はなぜ文字起こしをするのか?

とはいえ、実際のところ、私は取材後かなりの確率で文字起こしをするか、外注しています。対談や座談会記事の場合は90%、取材対象者の一人語り記事の場合でも70%くらいは、いったん文字起こししている感覚です。手のかかる(あるいはお金のかかる)作業ではありますが、やはり文字起こしをした方が、いろいろな面で仕事の質が上がり、最終的には記事の質につながるんですよね。以下、文字起こしをするメリットを挙げてみます。

①取材に集中できる

インタビュー中は、取材対象者の話にリアクションしながら、次の質問を考えるというマルチなタスクをこなしています。ここにメモを取る作業も加わると、その分インタビューそのものに使える脳のメモリが減ってしまいます。逆にメモ取りから解放されれば、それだけ相手の話に集中でき、いい質問もできるので、取材の“穫れ高”がアップします。

②取材後に復習しやすい

どれだけ事前準備をし、どれだけ取材時に集中しても、その場で100%話を理解できるわけではありません。そもそも100%の理解はどこまでいってもあり得ない気がしますが、取材時の40%を復習で60%にするくらいのことはできると信じています。

復習には録音を早回しで繰り返し聞く手もありますが(実際やったこともあります)、文字起こししてプリントしてしまえば、電車の中などいつでもどこでも取り出して読めますし、視覚的に頭に残ります。取材後、実際に原稿を書き始めるまでは、取ってきた材料を頭の中で寝かせたり、こねたり、成形したりする作業で、基本PCもいらないので、“材料”が数枚の紙で持ち歩ける状態になっていると、特にリモートワークの今は便利です。

③記事構成を考える手がかりになる

記事を書き始める前に、どこから話を起こし、どう展開していけば、大切なポイントをもれなく拾いつつ、スムーズに最後まで行きつけるか、頭の中でプランを描きます。プランAがうまくいかなそうなら、次はプランB…とトピックの登場順をいろいろ組み替えてみるのですが、このとき文字起こしを読みながら頭に刷り込んだ視覚的なイメージ(何ページのどのへんにどんな発言が出てくるか)が役立ちます。よくホワイトボード上で付箋を並べて議論の整理をしたりしますね。あれと同じことを頭の中でする際に、プリントされた文字起こしの部分部分(の脳内イメージ)が、付箋と同じ役割を果たしてくれます。

④取材対象者の言葉遣いや口調を再現しやすい

特にインタビュー形式や対談・座談会形式の記事では、「その人らしい語り口」を再現することも大切です。原稿を書く段階で、ときどき文字起こしに戻って「実際はどんな言葉を使っていたか?」「どんな流れでこの発言をしていたか?」を確かめ、取材対象者の個性や取材時の臨場感を記事に振りかけています。

自動文字起こしツールを使ってみた

自動文字起こしツールの存在は数年前から知っていたものの、一度試してみたら精度がいまいち…で、実用したことはありませんでした。でも今年、急に社内外の取材が重なった時期に、苦肉の策で自動文字起こしツールを試してみたところ…技術の進化ってすごい! 想定をかなり超える精度で応えてくれ、自分でイチから起こすよりかなり時間短縮できたので、ここ数カ月愛用しています。

今、私が使っているのは「toruno」のトライアル版です。句読点はもちろん、人名や地名、社名などもかなり再現してくれますし、テキストダウンロード時の形式が選べる(txt/csv)のも便利。csvで落とすと、タイムコードと発言内容が別の列に入ってくるので、発言内容だけを取り出すことができます(私にはタイムコードは不要なので。数秒ごとに発言内容の中にタイムコードが書かれていると煩わしいのです)。

スクリーンショット (213)

自分でイチから起こす場合、1時間の音声であれば、だいたい5~6時間かかります。一方、取材中に「toruno」を起動して自動起こししておき、取材後に録音を早回しで聞きながら手動修正していけば、2~3時間でかなり使える文字起こしが仕上がります。結構画期的!

私は回し者でもなんでもないですが、ここで「toruno」の仕事ぶりを実際のサンプルを使ってご紹介します。

●自動起こしテキストA
なんか普通にもう何だろう、もう入ってくださいっていう話でもなくて早坂の人が来ても心配になり、一緒に会社を大きくしようっていう人の方のシンプルな思いで強化しちゃって、はい。何かやる方が、俺はいいと思うしそういう関係性の方がちょっと気持ちよく長続きすると思ってるんで、うん。ちょっと長続きする人たちが多い方が会社を決めるかなと思っています。
●手動修正済みテキストA
普通に、入ってくださいっていう話でも、入らせてくださいという話でもなく、シンプルに一緒に会社を大きくしようっていう。シンプルな思いで共感し合ってやる方が俺はいいと思うし、そういう関係性の方が気持ちよく長続きすると思ってるんで。気持ちよく長続きする人たちが多い方が、会社が大きくなるかなと思っています。

●修正箇所表示A

スクリーンショット (201)

手動修正時には、実際には発言している言葉(「なんか」「ちょっと」など)も一部削除しているので、音声の再現という意味では「toruno」君、かなりがんばってくれています。「入らせてくださいという話でもなく、シンプルに」が、なぜか「早坂の人が来ても心配になり、」になってしまったのはご愛敬ですね。

もう一つの例を見てみましょう。

●自動起こしテキストB
長続きした本庁写真に繋がるのは、その肥満度プラットフォーム人材というのが世の中にないからですね。所管なのでなんでMアンドA×ITの人材っていう中にいないから、CDどっちも難しいことしてるんでいいんじゃ採用採用できないうん。長く言ってもらっ、Mondayプラットフォームっていうものに関して、貰う人は嫌がらず笑顔を暑さになるんで、うん。
●手動修正済みテキストB
長続きした方が企業価値最大主義に繋がるのは、M&Aプラットフォーム人材というのが世の中にいないからですね。M&A×ITの人材って世の中にいないから、どっちも難しいことしてるんで、中途採用で採用できない。長くいてもらって、M&Aプラットフォームっていうものを理解してもらえる人が積みあがるほど、それが資産になるんで。

●修正箇所表示B

スクリーンショット (202)

「toruno」君、ちょっと苦戦しています。全体に6割くらいの出来でしょうか。もちろん、これでもイチから起こすのに比べると、作業者の負担はかなり小さいのですが。

ただ、このインタビュー、Bより前の部分で「M&A」を正確に自動起こしできている箇所もたくさんあるので、できれば「toruno」君には「これは『肥満度プラットフォーム』の話ではないのではないか?」と気づいていただきたかったです…。きっと将来はそういう忖度も可能になるのでしょうか。

お世話になっている「toruno」君の名誉のために、成績のいい例もお見せします。

●自動起こしテキストC
ちょっと横道擦れるかもですけど、さっきのあの人事評価制度席スタートさせたのは、なぜそのタイミングだと判断しましたっていうところになりますか。
●手動修正済みテキストC
ちょっと横道それるかもですけど、最近、人事評価制度をスタートさせたのは、なぜそのタイミングだと判断しましたっていうところになりますか。

すごい。「それる」が「擦れる」、「最近」が「席」になってしまったのみで、あとはすべて正確です(「さっきのあの」は実際には発言しています)。

●自動起こしテキストD
ここってさっきの長続きしてもらわないと困るとはコンフリクトしないんですか。
●手動修正済みテキストD
ここってさっきの長続きしてもらわないと困るとはコンフリクトしないんですか。

こちらは100点! 「toruno」君はやればできる子です。

今回、A~Dのサンプルは、すべて同じインタビューからピックアップしました。起こし箇所によって「toruno」君の出来にバラつきが出たのはなぜか、真面目に考えてみると、①出てくる言葉が一般的かどうか(「企業価値最大主義」などはあまり一般的でない例)、②話者の話すスピード、③音声の鮮明さの3つが大きい印象です。

「toruno」君にとって難易度高めだったAとBは同じ話者の音声で、かなりの早口です。Aで「入らせてくださいという話でもなく、シンプルに」が「早坂の人が来ても心配になり、」になってしまうところを見ても、早口ぶりが分かりますね。

CとDも同じ話者で、この人はゆっくりめ。実は、起こし作業者でもある私の音声です。A・B話者の声はWebを介しているのに対し、私の声は直に「toruno」君に聞かせているので、鮮明でもあります。

では、AとBの自動起こしをそのまま手動で直すのではなく、私がゆっくり言い直して「toruno」君に聞かせれば、もっと精度の高いテキストを返してくれるのか…? 実験してみました。

●吹き込み直しテキストA
普通に入ってくださいっていう話ではなくて入らせてくださいっていう話ではなくて、シンプルに一緒に会社を大きくしようっていうシンプルな思いで共感しあって、やる方が俺はいいと思うし、そういう関係性の方が気持ちよく長続きすると思っているんで、気持ちよく長続きする人が多い方が解釈を聞くなると思っています。
●手動修正済みテキストA
普通に、入ってくださいっていう話でも、入らせてくださいという話でもなく、シンプルに一緒に会社を大きくしようっていう。シンプルな思いで共感し合ってやる方が俺はいいと思うし、そういう関係性の方が気持ちよく長続きすると思ってるんで。気持ちよく長続きする人たちが多い方が、会社が大きくなるかなと思っています。
●吹き込み直しテキストB
長続きした方が企業価値最大主義に繋がるのはM&Aプラットフォーム人材というのは世の中MアンドA×ITの人材というのが世の中にいないから、どっちも難しいことしてるんで。中途採用で採用できない。長くいてもらって、M&Aプラットフォームというものを理解してもらう人が積み上がれば積み上がるほど、それが資産になるんで、
●手動修正済みテキストB
長続きした方が企業価値最大主義に繋がるのは、M&Aプラットフォーム人材というのが世の中にいないからですね。M&A×ITの人材って世の中にいないから、どっちも難しいことしてるんで、中途採用で採用できない。長くいてもらって、M&Aプラットフォームっていうものを理解してもらえる人が積みあがるほど、それが資産になるんで。

吹き込み直しの際は、「toruno」を起動したうえで、AとBの録音を流し、自分が覚えていられる長さで再生を止めて復唱しました。「toruno」は、録音再生部分は「相手の発話」、私の復唱部分は私(アカウント登録者)の発話と区別してくれるので、自動起こしテキストをcsvでダウンロード後、話者でソートをかけ、復唱部分のテキストのみを取り出しました。

正直、実験前はこのやり方は実用には適さないだろうと思っていたのですが、結果は予想以上でした。「会社が大きくなる」が「解釈を聞くなる」になったのを除き、謎の言葉になってしまった箇所はありません(「企業価値最大主義」までちゃんと出ました)。これだけ正確に自動で出してくれるなら、吹き込み直し後の手動修正はしなくて済みそう。実際に試してみる価値はありそうです。

音声の状態さえよければ、2021年現在の自動文字起こしはかなりの精度を発揮してくれるのですね! 今後もテック音痴なりに、ツールの進化をウォッチしつつ、最適な使い方を探っていきたいと思います。

明日14日は、売り手サポート部門の加藤さんです。お楽しみに!

この記事が気に入ったらサポートをしてみませんか?