見出し画像

音声とテキストはシームレスになれば最強かも(と言ってみる)

こんにちは。音声ポッドキャスト配信×LPwebディレクターの堀内崇です。

音声はコンテンツになるけど…

音声配信がコンテンツになることは最近急激に盛り上がってきていますが、やはり王道の「テキスト」「動画」「画像」には叶いません。

それもそのはず、音声は「見えない」から。だから音声が人間が生み出すオンラインコンテンツの中でも最後発になったと考えます。

音声は見えにくいので炎上しにくいぶん、テキストや画像のように瞬時に触れられないという欠点があります。時間をかけないとコンテンツの全てに触れられなという点は動画も同じですが、動画は視覚情報が大きいため、すぐにわかりやすく伝えられます。

さらに、「音声は検索されない」という致命的な欠点があります。
あのGoogleでさえも音声の中身・いわゆる話しているトークの中のワードまでは検索できません。

さらに、耳が不自由な方には音声コンテンツが届けられない…などの点でも音声は不利な面があります。

音声が簡単にテキストにできたら検索される

しかし、しかしですよ!(温度感高め)
音声って、膨大なテキスト情報の源泉なんです!

私たちは普段から言葉を口から発して、コミュニケーションをとっています。第三者とのコミュニケーションはもちろん、自分へのコミュニケーションとしても音声を使っている方は多いと思います。要は独り言ですけど(笑)

独り言は発しなくても、考える際に自分の声を想像して言葉を考え、言葉を編んでテキスト情報として発信しているはずです。

この音声が、すぐにテキスト情報に変換・再現・触れることができれば、

・Googleに検索される
・視覚情報としても生かされる
・音声に触れる時間がない場合もテキストで補完できる
・耳の不自由な方にも音声コンテンツを触れてもらえる

といった音声がもつデメリットがカバーできるのは想像に難くありません。

国内でもこういったメディアがあることはご存知ですか。

書き起こしメディアのログミーです。

ここでは著名人の講演などが書き起こしでテキスト化されています。
もとは動画なので音声コンテンツではないのですが音声だけを抽出してテキスト化されています。

最強なのは音声とテキストの併記だと考えます。

コンテンツとしての最強は音声コンテンツ×テキスト+(写真&動画)ですね、音声コンテンツには、テキストや動画にはない人柄を伝えることができます。

この音声とテキストを両方併記するのが最強じゃないかなと思うんです。

テキストではどうしても伝わらない温度感やニュアンス感、同じワードでもイントネーションの違いから伝えたい意味あいが変わるんです。
メールやメッセージでは伝えにくくても、電話で話せばわかるってことがありますよね?あれと同じ感覚です。

たとえば、中野秀俊さんのポッドキャスト「社長の人生を変える法律相談所」で、法律コントのシーンがあるのですがテキストにすると・・・

堀内たか社員:社長、カスタマーサポート課の小岩井さん、今週もずっと休まれているそうでしてついに休職届が提出されました
中野さん社長:なにィ!?困るなぁ。。もうクビだよ。
堀内たか社員:社長、それは解雇規制でできないってお伝えしたはずですよ
中野さん社長:チッ!バレたか。しょうがないから休職は受理するよ。まぁ、しかし、ウチは超絶ホワイト企業なのになんでこうなるかな
堀内たか社員:(社長はいっつも白旗上げてますけどねぇ)
中野さん社長:おい!?なんか言ったか?
堀内たか社員:いやいやなんでも!!当社は残業ゼロが自慢ですもんね
中野さん社長:そうなんだよなぁ
堀内たか社員:でも小岩井さん先日クレーマーから電話で2時間激詰めされたことからの精神的なショックが大きかったと
中野さん社長:あぁ〜サポート課は、、つらいよなぁ。。
堀内たか社員:ですよね、小岩井さんがかわいそう。。
中野さん社長:まぁいい、小岩井さんには当社指定の心療内科に通うように伝えておいて!補助するからと。
堀内たか社員:はい!
中野さん社長:で、そのクレーマーという輩は誰だよ、俺がガツンと言ってやる!
堀内たか社員:うちの会社では有名な岩鉄岩男(ガンテツイワオ)さんでして
中野さん社長:なに?あの岩鉄(ガンテツ)さん!??
堀内たか社員:はい
バタ)倒れた効果音
堀内たか社員:社長?どうしたんですか?
中野さん社長:もうオレはダメだ・・鬱だ、ビョーキだ、再起不能じゃあ〜〜〜
(ポカーン)
堀内たか社員:・・・帰ろ。。

という感じで、いかにも「台本」という感じにしかなりませんが音声だと

こんな感じで、音声を聴いてもらえばテキストと音声では印象が変わります。

検索に強いテキストと人間味や微妙なニュアンスを伝える音声がかけ合わせれば、生で伝えるくらいの温度感が再現できる上でも最強ではないだろうか。と、考えるのです。

書き起こしは大変。今、注目しているのは…

とはいえど、書き起こしはたいへんすぎる!!!

私も経験ありますが1時間の音声を普通に書き起こすだけで5時間かかります。「あー」とか「えーと」とかの「ケバ取り」もやりながら読める形にしようとするものならば、なおさらです。

ですが、ここ最近はAIの発達によりだいぶ省力化されてきました。

中でも注目しているのが、「VOITER」

(ごめんなさいPRではありません)

PRではなく、アフィリエイトでもないためあくまで紹介だけにとどめます。音声をテキスト化することってなかなか難しかったんですが、ようやくボイスレコーダータイプで音声をテキスト化するのが現れたと思いました。

音声の文字化は本当にコストがかかることでしたのでどこまでコストが削減できるのかがすごく楽しみですね。



この記事が気に入ったらサポートをしてみませんか?