見出し画像

ボイステック革命がやってくる!ざっくりわかる音声市場のはなし【3万文字総まとめ】

はじめに

実はこのnote、2021年の正月に8割ほど書いていました。そう、音声SNS「Clubhouse」が大旋風を起こすほんの少し前です。

当時はまだ「音声?なにそれ?今さら?」という雰囲気で、このnoteのタイトルも「今さら本当に音声の時代なんてくるの?ざっくりわかる音声市場のはなし」でした。

そしてClubhouseの大旋風。Voicyの大躍進。アメリカや中国企業の音声市場への大規模投資。音声市場は一転して注目の市場となりました。

だからこそ、こうしてあなたもこのnoteにたどり着いたのではないでしょうか。でもClubhouseは一瞬でブームは去ったし、あまりまだ自分自身の生活に音声は浸透していない。「なんだかラジオを始めたりしている企業や個人も増えてきたけど、なんでだろう?」「音声の面白さをまだ体感できていないな…」そんな方がまだ多数派なのが事実です。

このnoteでは、「なんだか音声が注目らしいけどしっくりこないな・・・」そんな方が音声市場についてざっくりイメージが湧き、そして音声の未来にワクワクできるような内容をお届けします。

読み終えた頃にはきっと、「音声って・・・ステキかも!」と思えるでしょう。3万文字と長めなので、ここでひとまずスキやブックマークしていただき、章ごとに分けてお読みいただくのがオススメです。

音声の時代がくる?

「音声」は、きっとあなたが想像するよりもずっと生活に溶け込む未来が来る、そうぼくは思っています。「Clubhouseは一瞬で廃れたじゃないか」とか、「動画のほうが面白い」とか、「動画の方がリッチ」なのに、なんで?と思うのが普通の感覚ですよね。

でも、それって実は音声が流行ると言われている理由から考えると、ちょっとズレた観点。例えばその理由の1つとして、音声は動画とは全く異なる土俵に立っているからです。

はじめに、音声の時代が来るという根拠でぼくが一番印象的な言葉をご紹介します。

「動画はあなたの可処分時間を奪うが、音声はあなたの時間を拡張してくれる」

どうでしょう…少しだけでも音声に興味を持ってくださいましたでしょうか。

このnoteの内容について

ちょっとでも期待感を持っていただいたかなというところで、このnoteの内容と、読むとどんな状態になるかをお伝えします。

このnoteでは、「なぜ音声の時代がくると言われているのか」の回答を、様々な角度からご紹介していきます。読み終えた段階では、「音声?何それ美味しいの?」という状態だったあなたも、音声の良さや可能性についての大事な要点を語ることができるようになっているはずです。

このnoteで対象外の範囲

音楽やASMRは少し触れるかもしれませんが、あくまで「しゃべり」や「解説」的な「音声コンテンツ」をこのnoteで言及する対象の範囲とさせていただきます。(ASMRなどシンプルな話以外も強烈に興味はあるので、それは別途書くかもしれません…)

なぜぼくが書くのか

申し遅れました、ゆとと申します。ぼくは普段、Webサービス企業のプロダクトマネージャーという職種で働いておりまして、日々調査も含め様々なWebサービス/アプリに触れています。つまり、サービスへの感度が人一倍強いというわけです。

そして、ぼくは根っからの音声配信マニアです。大学時代からAMラジオにハマりました。近年はPodcastやVoicyのヘビーリスナーとして、少なく見積もっても毎日3時間以上音声コンテンツに触れています。

さらに、リスナーとしてだけでは飽き足らず、2020年からはstand.fmやPodcast番組を開設し自ら音声配信を累計500回以上行っています。

しつこいですが、完全なる筋金入りの音声配信マニア。

なぜぼくが書くのかを改めてまとめると、
・サービスへの感度が人一倍強いから伝えられることが深い
・リスナー、配信者としても音声配信マニア

というあたりが理由です。

AMラジオ:音楽中心のラジオでなく、芸人さんのしゃべりが中心のラジオ。例)オールナイトニッポン

それでは、早速本題に入っていきましょう。

第1章 音声コンテンツの5つの特徴

まずは、音声コンテンツってどんな特徴があるの?という疑問に回答していきましょう。ざっと、音声コンテンツには以下のような特徴があると言われています。

<音声コンテンツ5つの特徴>
① 動画はあなたの可処分時間を奪い、音声はあなたの時間を拡張してくれる
② 音声はその人が丸ごと届く「人を届けるメディア」である
③ デバイスにとらわれず、もはやスマホすら必要としないのが音声
④ 音声は最新テクノロジートレンドとの相性も良い
⑤ 音声広告はノイズ度が低い、また新しい可能性がある

いかがでしょうか。音声に対するイメージが少し変わったり、「音声…期待できるかも!」と思えてきたのではないでしょうか。

それでは、一つ一つご紹介していきます。



1.1 動画はあなたの可処分時間を奪い、音声はあなたの時間を拡張してくれる

音声の良さは、なんと言っても自分の時間に侵食してこないことです。

よく、「音声はながら聴きができるから良い!」という主張があるのですが、もちろんそれは事実で100%正論なのですが、ぼくは本質的な価値はそこじゃないと感じています。

では何が本質の価値はなにかというと、やっぱり拡張性です。起業家のけんすうさんやstand.fmの創業者である中川綾太郎さんが、音声は広義のARだよねということをおっしゃっていました。

ARとは
Augmented Realityの略。「拡張現実」の意味。実在する風景に、デジタル合成などによって作られたバーチャルの視覚情報を重ねて表示し、人間の現実認識を強化して拡張する技術、またはコンピューターによって拡張された現実環境を指す。「拡張現実感」「強化現実」「増強現実」とも呼ばれる。
出典1-1:AR | IT用語辞典 | 大塚商会

音声には「自分の生きている世界が、音声があることでちょっと違う景色が見えたり、違うバージョンの世界が見える」そんな力があるのです。

シンプルに言い換えると、音声は自分の世界を拡張してくれるというわけです。だから、音声は広義のARだよねと言えるのです。

この音声の拡張性の1つの面が、「ながら聴き」です。

通勤、通学、家事、風呂、運転中、ランニング中、散歩中、買い物中、勉強中など、ながら聴きのシーンは数え切れないほどあります。

日本ではもしかすると会社によっては大問題になってしまうかもしれませんが、アメリカでは仕事中のPodcastは当たり前とも言われています。

もう1つだけ、イメージしやすい拡張性の事例をご紹介しておきましょう。

それは、「副音声」です。副音声といえば昔からテレビで行われていて、近年はテレビ業界でも面白い活用法が増えています。

例えばスポーツ中継を観る時に真面目な解説を聴くかノリノリの熱い解説を聴くか、というように。これをもう少し深ぼってみましょう。それでは、想像してみてください。

テレビ画面をみて、スマホにつけたイヤホンを耳につけるのです。スポーツ中継という視覚情報は固定ですが、音声は無限大になりませんか?

スポーツ好きなタレントの実況解説を聴いてもいい、好きなスポーツ選手の実況解説を聴いてもいい、友人達と接続して会話を楽しんでも良い。

スポーツ観戦という体験が、音声によって無限に拡張されます。

そしてこれは、スポーツ観戦が特異な例というわけではございません。映画、テレビ、美術館、博物館、観光スポットなど、どんな体験でも音声で好きに拡張ができるのです。



1.2 音声はその人が丸ごと届く「人を届けるメディア」である

その人らしさを表す情報は、実は「声」に一番乗っているとぼくは感じています。Voicyという音声メディアも、声は「人を届けるメディア」(※1-2)と表現しています。

※1-2 出典:なぜいま音声メディアが注目されているのか。発信側からみた意外なメリット

試しにぜひ「音声配信らしさ」を、インターネットで検索してみてください。きっと、よく見かけるキーワードは、以下のようなもの達でしょう。

・人間性
・人柄
・温かみ
・感情
・熱量
・個性
・親近感

とても、その人らしさが現れるものが多いですね。

データアナリティストでnoteでも有名な樫田光さんも、【音声はパーソナリティを消費するメディアである】(※1-3)とおっしゃっています。

テキストは「コンテンツ」そのものを消費させる傾向が強いメディアであるのに対して、音声は「パーソナリティ」を消費するメディアであるという側面があります。話している内容、だけではなく「誰が」「どういう背景で」「どういうトーンで」話しているのか、といったより人間の全人格的なコンテクストを摂取する志向が強いと言えます。
出典1-3:stand.fmを始めた話・その理由・そこかわらかってきたこと

声は人を届けるメディアだからこそ、聴き手もそれを踏まえた聴き方になるということですね。

少々別の話ですが同じ人からの「情報」でも、「テキスト」で受け取るか「声」で受け取るかで記憶の残り方や印象が違ったりします。

これが、人の声の力というわけです。


1つだけご紹介したい有料の動画があります。

それは、キングコング西野さんがやられている有料のYoutube配信「スナック西野」で、Voicy代表の緒方さんがゲストでいらした回。

全編学びになるのですが、個人的にとても共感した言葉を1つだけ。

「声に乗っかる余計な情報が面白い」

その人の状況、気持ち、感情の揺れが良くも悪くも乗ってしまうのが声なのです。月額590円はかかってしまうのですが、音声配信について気になる方にとってはこの1本で590円の価値はあるのでぜひご覧ください。



1.3 デバイスにとらわれず、もはやスマホすら必要としないのが音声

スマホ全盛期の現代ですが、音声はもはや、そのスマホすら必要としないのです。

GoogleHomeやAlexaといったスマートスピーカーがイメージしやすいのですが、当たり前ですがスマートスピーカーは声だけで簡単に操作ができるのです。

ただ、スマートスピーカーはイメージのしやすいサンプルでしかないです。だってこのスマートスピーカー的な機能、どんなデバイスに搭載されても良いと思いませんか?

スマホでもスマートスピーカーでもないデバイスに話しかけて、応答がある。音楽も聴けるし、情報収集もできる。そして、人の面白い話や説明も聴ける。言い換えると、街中の至るところ、生活の至る所に声が溶け込む可能性があるよね、というイメージです。

この楽しみな未来については、テクノロジーと絡めて第4章でみていきます。



1.4 音声は最新テクノロジートレンドとの相性も良い

楽しみな未来と密接に関わる話として、音声は最新のテクノロジーとの相性が良いという特徴が挙げられます。

例えば音声×AIだけでも、

・音声入力
・音声認識
・自動字幕
・Text-To-Speach
・声質変換

など、挙げたらきりがないくらいの領域があります。

しかもこれらの研究開発の多くは、GoogleやAmazonといった最先端企業やスタートアップ企業が凌ぎを削っているのです。

それだけ「音声」に注目が集まっているということですね。音声とテクノロジーについては、詳しくは第4章でみていきます。



1.5 音声広告はノイズ度が低い、また新しい可能性がある

音声広告、聴いたことありますか? まだVoicyやstand.fm、Radiotalkといった音声配信プラットフォームでは、自動で差し込まれるような音声広告は導入されていません。(2021年11月現在)

前振りになってしまうのですが、ぼくはいわゆる広告を見るタイプではございません。

Webサイトの記事の途中に掲載されるバナー広告、Youtube動画の冒頭や途中に差し込まれる動画広告、検索結果の一番上に掲載されるリスティング広告をクリックしたことがないのです。

そんなぼくですが、実は音声広告には嫌悪感を抱いたことがないんですね。それどころか、聴きながらその広告が気になって検索をしてみたことすらあります。

例えばボイスメディアVoicyでは現在、自動で差し込まれるような広告はないのですが、チャンネルによってはスポンサーがついていることがあります。

その場合チャンネルのパーソナリティ(配信者)自身が「この番組は、●●●な■■■の提供でお送りいたします」のように話されるのですが、これがまた良いのです。

好きなパーソナリティさんが話しているからというのも、もちろんあります。それに加えて、「スポンサーさんがそのチャンネルに共感して応援しているのかな?」とか、「理念が近いのかな?」そんな気持ちになるのです。

広告で、そんな気持ちになったことありますか?

数値としても、動画広告の視聴完了率は10%~20%に対し、音声広告の完聴率は98%(※1-4)というデータもあるそうです。


※1-4 出典:ラジコオーディオアドに関する資料

ちなみに余談ですが「いちばんやさしい音声配信ビジネスの教本 人気講師が教える新しいメディアの基礎」の著者は株式会社オトナルというデジタル音声広告のリーディングカンパニーの方々です。



第1章のその他参考文献

・【日本の音声メディア・音声コンテンツ一覧】成長する音声市場を概観

・stand.fm採用ページ

私たちは音声コンテンツは文章よりも感情が伝わりやすく、動画よりも気軽に発信できるフォーマットで、作業しながら消費できる面白いフォーマットだと考えています。発信の気軽さに対して伝えられる情報量は多く、楽しそうに話している声を聞くと聞いている側も嬉しい気持ちになり、熱意ある音声は真剣に耳を傾けてくれます。
出典:stand.fm採用ページ



第2章 発信媒体として音声配信を選ぶ7つのメリット

ここからは、あなたが発信者として「音声」を活用するメリットを7つご紹介します。

発信媒体として音声配信を選ぶメリットは、以下の7つです。

・発信コストが極小
・コンテンツが資産化する
・自分らしさで真っ向勝負ができる
・ニュアンスまで伝わるから炎上しにくい
・複製されにくい
・リスナーの生活の一部になれる
・マネタイズ方法が整いつつある

特にマネタイズについては、日進月歩で進化しています。数ヶ月後には状況がまた大きく変わっている可能性は高いです。それだけ、音声は成長途上の市場です。

それでは、一つ一つみていきましょう。



2.1 発信コストが極小

もちろん人によるところはあります。テキストと動画、音声で発信する際のミニマムのコストを想像みてください。

音声は極論、「しゃべった時間=発信にかける時間」になる可能性があるのです。これは、テキストや動画ではほぼほぼあり得ないですよね。

これは究極の状態であり得ないでしょ?と思うかもしれませんが、実際Voicyの人気パーソナリティさんで何人もこの手法を取っている方がいらっしゃいます。

「今日はVoicyで何を話そうかな」と考えながら日常を過ごすタイプの方もいます。脳科学者の茂木健一郎さんなんて、Voicyの収録ボタンをポチっと押してから何を話すかを考えると仰っていました。

さらに音声での発信は色々隠しやすいというのも、発信コストが小さいメリットの一つです。

先ほどの発信コストの例で、「動画も無編集でUPすればコスト同じじゃないか?」と思った方、鋭いです。しかし、動画だとその背景など映り込むものを考慮したり、自分のコンディション(顔、服、髪など)も整える必要がありますよね。

音声の場合は顔や服、髪、背景が隠れているのはもちろん、「ながら配信」すらできてしまうのです。

例えばイケダハヤトさんのVoicy「#イケハヤラジオ」では、子どもをあやしながらや、料理をしながらの配信をされたりもしています。

このようにながら聴きだけではなく、ながら配信もできてしまうのも音声の魅力です。



2.2 コンテンツが資産化する

「ストック」か「フロー」かと言う観点をご存知でしょうか。

フローとは流れと言った意味です。
フロー収入、フロービジネスとは常に顧客との関係は継続的ではなく、都度顧客と関係を築き、その時々に応じて収益をあげて行くスタイルです。
(〜中略〜)
一方で、ストックとは蓄積を意味します。
ストック収入、ストックビジネスとは蓄積型の売上、収入構造を持ったビジネスの事を指します。顧客を囲い込み、持続的にサービスを提供しながら長期的に収入を上げて行こうという考え方です。
※2-1 出典:ストックビジネスとフロービジネス

社会派ブロガーのちきりんさんが「どちらが良い悪いでなく、各発信メディアの性質を理解して情報発信はした方がいいよね」という旨をVoicyで話されていました。とてもわかりやすかったのでこちらもぜひ聴いてみてください。

音声コンテンツに関しては、テーマにもよりますがフローよりもストックの要素が強いと言われています。

例えばお気に入りの配信者さんと出会った時、数百回ある配信を初回から過去配信を一気に聴くことも珍しい話ではありません。

ぼく自身、Voicyでは聖丁(旧サウザー)さん澤円さんの配信を過去に遡って聴いています。

例えば聖丁さんはチャンネルを作るときに意識したこととして、「古くならないコンテンツにする」ということを挙げられています。

実際2021年の今、第1回から聴き始めてもなんら古くない内容となっています。ときどき読み返すバイブル本のように、繰り返し聴けるコンテンツに仕上がっているのがさすがです。

もう1つ、意外かもしれない例をご紹介します。

ぼくの大好きなPodcast番組の1つに、ゆとりっ娘たちのたわごとという番組があります。

この番組は「スタバの端っこで繰り広げられるような、ゆるい女子トークを盗み聴きできるpodcast」です。

この一言で説明できるし、内容もまさになところがすごいのですが、それは一旦置いておいて…

このような「雑談」的なテーマでも、ファンになったリスナーは、昔の配信から一気に聴いてしまうのです。

バチェロレッテが…などの時事性の強いテーマで話していたりもするのですが、それでも、なのです。

意外じゃないですか? この理由については、ApplePodcastのレビューを見るとヒントがある気がしています。

ゆとりっ娘たちのたわごと カスタマーレビュー(一部抜粋して転載)
・生活の一部
・友達になりたーい!
・生活、いや人生のお供
・ゆるくてずっと聴いてられます
・混ざりたくなるような女子トーク
etc…
※2-2 出典:ゆとりっ娘たちのたわごと カスタマーレビュー


このように音声は意外とストックの面が強く、コンテンツが資産化するのです。

ちなみに余談ですが聖丁さんの冒頭の挨拶や話し方は、これから音声配信する方にもきっと学びになるはずので、ぜひ参考にしてみてください。



2.3 自分らしさで真っ向勝負ができる

自分らしさで真っ向勝負ができるというのは、言い換えると「あなた自身」を丸っとそのまま届けることができるということです。

つまりあなた自身に何か魅力があれば、滑舌が多少良くなくても、声がイケボじゃなくても、プレゼンのような話し方ができなくても、聴かれる音声配信を作ることは可能です。

ちょっと安心した方も多いのではないでしょうか。ぼく自身、声にも滑舌にも自信はないのですが、意外と褒められたりすることも多く驚いています。

例えば、北野唯我さんのVoicyのタイトルコールだけでも聴いてみてください。北野さんは「著者(ちょしゃ)」がうまく言えませんし、お世辞にも滑舌が良いとは言えませんが、フォロワー数は2021年11月現在で1万人を超える人気番組になっています。

念の為補足しておくと、ぼくは北野さんのチャンネルの大ファンで、いつも勉強させていただいています。(滑舌に関しては勇気づけられています。)

声は、脳みそに直接殴り込みをしてきているんじゃないかというくらい感情に直接訴えかけてくるという特徴もあります。なので「この声ちょっと…」、「この話し方はちょっと…」と聴いてもらえないパターンももちろんある、ということは補足させていただきます。

お伝えしたいのは滑舌がよくないとか、イケボじゃないから聴かれないということはないということです。

そして、プレゼンテーションのように綺麗にきっちり話せる必要もありません。いわゆる繋ぎことばや、考えながら話すのも魅力になるのが音声配信です。

勘違いしていただきたくないのは、あくまで「伝える技術」は必要ということです。普段リアルな世界で誰かと話す時に、プレゼンテーションのような話し方、組み立て方なんて気にしないですよね?

ぼくがよく拝聴しているベテランの配信者さんでも「えーと」など、ちょっと言葉に詰まるようなシーンは普通にありますが気になりません。どもっても噛んでも、結局のところ最後はあなたが魅力的かどうか、が大事ということです。

人気の配信者さんで特に共通の資質としてあるかもしれないと感じるのは、「補足説明」が上手いということです。話しながら、ここがちょっと伝わりづらかったかも、とリアルタイムで気づくのです。こういうスキルが音声配信では大事かもしれませんね。


2.4 ニュアンスまで伝わるから炎上しにくい

炎上しにくいというのも音声配信の魅力の1つです。

まずは真逆の、最も炎上しやすいメディアについて触れておきましょう。炎上しやすいメディアといったら、何が思い浮かびますか?

そう、みなさんご存知のTwitterです。Twitterが特に炎上しやすいのは、実はTwitterの良さでもある140文字というルールが大きく起因しています。

140文字という文字数では、どう伝わるかの大部分が受け手に依存します。つまり、主張の背景や前後の文脈、ニュアンスを伝えるのはほぼ不可能なのです。だから、Twitterは炎上しやすいのです。

もう勘づいた方もいらっしゃるかと思うので、音声の話に戻しましょう。

音声は炎上しやすいTwitterのほぼ対極に位置しているから、炎上しにくいということです。

音声では切り取られた主張だけが一人歩きすることはほぼないです。前後の文脈やニュアンスまで、全部届けられるから、誤解を生みにくいのです。

別の観点で、動画と比較しての炎上のしにくさも説明ができます。

一説によると、内容のイメージを自分で考えると否定的になりにくいと言われています。(※2-1)言い換えると、受動的な状態よりも、能動的な状態の方が否定的な感情になりにくいというわけです。

「音声は非常に受動的じゃないか。」と思うかもしれませんが、思考としては逆なんですね。映像も何もないからこそ、想像力を働かせてイメージをする余白がある。

だから、音声は否定的になりにくい傾向にあるのです。

※2-3 出典:ポッドキャストの配信で人生が変わる「22. 声には感情や人柄が表れる/AD⚡️DC~ActionをDoすればDreamはComeする~」

さらにもう1つ、リスナーが 高学歴かつ高収入なユーザーが多いということも、炎上しにくい理由とも言われています。

アメリカのEdison Researchの調査によると、Podcast(3章で解説するが、音声配信の手法の1つ)では以下のようなデータがあります。

毎月ポッドキャストを聞くユーザーの45%が収入$75,000以上世帯であり、34%が修士以上の学位を保有している。 なお、アメリカ人口に対するそれぞれの割合は、$75,000以上の世帯収入家庭が全体の35%、修士以上の学位保有者が23%となっている。以上から、ポッドキャストユーザーは、高学歴かつ高収入な傾向にあるこいうことがわかる。
※2-4 出典:ポッドキャスト広告がブランドの認知度UPに役立つ3つの理由

このように少々びっくりするほどの高学歴で高収入なユーザーが音声配信を好むということがわかります。そしてこれは同時に、音声広告の可能性が大きいという主張にも繋がっています。


メリットとしてあげられる炎上しにくいと近いのですが、音声配信の代表的なデメリットに、以下のようなことがよく言われています。

・バズらない
・拡散性が著しく低い

Twitterでバズって数日でフォロワー●万人!みたいなドリームは、音声配信で起こる可能性はほぼ0なので、いさぎよくあきらめましょう。


2.5 複製されにくい

音声での発信は複製されにくいというメリットもあります。

もちろん、音声を文字起こし(テキスト化)してnoteなどに転載することは可能です。しかし実際問題、複製の労力がテキストのコピペと比べものにならないくらい大きいので、複製されにくいというわけです。

ここで1つ、音声配信の特徴を1つ思い出してみましょう。それは、声には「その人らしさ」が詰まっているということです。声にはその人の状況、気持ち、感情の揺れといったさまざまな情報が乗っています。

つまりテキスト情報だけをコピーしても価値の一部、場合によっては全く価値にならないこともあるでしょう。

複製する労力が大きく、価値の一部または価値が複製不可能。それが、音声です。



2.6 リスナーの生活の一部になれる

音声配信が生活に組み込まれているような方は、例えば以下のようなタイミングで音声配信を聴きます。

・歯磨きしながら
・化粧をしながら
・駅まで歩きながら
・電車に乗りながら
・料理をしながら
etc…

何かの「スキマ」というよりは、日常生活にON(プラス)されるのが音声です。「よし、音声配信を聴くぞ」と構えて時間を作ることはほとんどなく、何かをしているときに自然に聴いている状態です。

とはいえぼくの場合「よし、音声配信を聴くぞ」と思うパターンもあります。でもその場合も、音声だけ聴くわけじゃないんです。

「この人の音声を聴こう!」そして、「料理をしよう!」のように、何かしらの動作と紐付けているのです。

オトナル代表の八木たいすけさんも似たようなシーンがあるようで、こんなことをつぶやかれていました。

「音声はながらで便利!」を超えて、生活に無くてはならないものになっています。

ぼく自身、日々のルーティンで聴く音声配信/ラジオがほぼ決まっています。例えば寝起きでキングコング西野さん、朝の準備中はイケハヤさんや新R25の渡辺さん、夕方の料理タイムは澤円さんやちきりんさん、ランニング中はハライチのターンやヨブンのこと、などなど。

このように生活に溶け込んでいるので、一つ一つへの思い入れはかなり深いです。ただ、生活に深く入り込んでくるからこそ、実はいつも聴くチャンネル数は多くありません。

全配信必ず聴くと決めているのが約10チャンネル、よく聴くのが20チャンネル〜30チャンネルほど。たまーに聴くチャンネルまで入れても50チャンネルほどでしょう。

1日数時間は音声配信/ラジオに触れているぼくでこのくらいの数字です。生活にどっぷりと溶け込む代わりに、リスナーにとってのお気に入りチャンネル数はそんな多くはならないということです。

※音声SNS的にもっとライトな発信やライブなどコミュニケーションが中心であれば、数百人程度とつながる場合もあると思います。ただしそのような場合、生活に溶け込んでいるのは「あなた」ではなく「プラットフォーム」です。

以上のことからも、音声配信は万人にウケる大衆メディアではなく、少数にでも深くささるニッチな専門メディアの方が相性が良いとぼくは考えています。

TwitterやYoutubeのように数十万フォロワー目指そう!というよりは、ニッチな領域で数百人〜数千人から愛されるほうが健全な状態というイメージですね。



2.7 マネタイズ方法が整いつつある

マネタイズ方法が整いつつあることも、音声市場が盛り上がる追い風になっていますね。

音声配信のマネタイズ方法は、王道として以下の4種類があります。

① チェンネルのスポンサー広告
② 月額課金
③ 配信時間(配信数)
④ 音声コンテンツ販売

冒頭にも触れましたが、このマネタイズの進化がこれから起こる大きな変化の1つです。日進月歩で進化しており、数ヶ月後には状況がまた大きく変わっている可能性は高いです。

それでは、一つ一つみていきましょう。



① チャンネルにつくスポンサー広告

最もシンプルなマネタイズです。あなたのチャンネルに企業などのスポンサーがついて、月額●万円をいただくといったモデルです。「1.5 音声広告はノイズ度が低い、また新しい可能性がある」でご紹介したように、ボイスメディアVoicyがはじめに実現したマネタイズ方法もこのスポンサー広告です。

Voicyのスポンサーの仕組みは面白く、パーソナリティ(配信者)自らが配信のオープニングやエンディングにスポンサーコールを読み上げます。

それも1度録音した音声を使い回すわけでもなく、毎回の配信でパーソナリティさん自身が「この番組は、●●●な■■■の提供でお送りいたします」のように読み上げるのです。

1.5でも触れましたが、このカタチでのスポンサー広告には不思議な力があります。それは例えば、スポンサー企業がそのチャンネルに共感して応援しているのかな?」とか、「理念が近いのかな?」そんな気持ちになるということです。

もちろん、この形式がスタンダードになっていくかはわかりませんが、企業側から見た広告効果も他の媒体とは異なることは間違いないでしょう。

そういう意味でもチャンネル(配信者)につくスポンサー広告というマネタイズ方法は、今後も注目です。

余談ですが、プラットフォームを通さず個人スポンサーをつけてマネタイズしている場合も見かけます。プラットフォーム自体にスポンサー機能が用意されていなくても、個人で契約を結べば実現できるということですね。(※ただし、利用規約で禁止されている場合もありますので、必ず利用規約をご確認ください)



② 月額課金

音声配信でも月額課金、いわゆるサブスクリプションモデルでのマネタイズが一般的になりつつあります。

まずは表面的なお金の流れをご説明します。

音声配信で行われる一般的な月額課金は「リスナーが特定のチャンネルに月額料金(500円など)をお支払いすると、課金リスナー限定配信が聴ける」といったマネタイズモデルです。

ボイスメディアVoicyやstand.fmではすでに機能として公開されていて、stand.fmであれば今すぐに開始することができます。

Voicyとstand.fmの月額課金サービスについて紹介されているページ
ボイスメディアVoicy 「Voicyプレミアムリスナー」
stand.fm「月額課金チャンネル」

"表面的な"お金の流れは上述した通りで間違いないのです。しかし音声配信の月額課金モデルは、実は単純なお金の流れでは説明しきれない面白い方向性で浸透しつつあります。

何が面白いかというと、体験価値が全く新しいことです。ただし今から述べる体験価値が定着して広く普及していくかはまだまだ未知ということはあらかじめお断りを入れさせてください。

ボイスメディアVoicy代表の緒方さんは月額課金「プレミアムリスナー」機能への想いとして、以下のようなことを語られています。

パーソナリティはその人たちに向けて「ありがとう」という感謝の気持ちを込めて、特典的な配信をするという形になっています。

なのでリスナーさんがプレミアムリスナーという名目でサポートしているのは、特典放送ではなく、普段のレギュラー放送のほうであると言いたかったんです。

ここは大事なところです。「プレミアムリスナー」であって、決して「プレミアムコンテンツ」ではありません。課金することでプレミアムなコンテンツを楽しめるようになるのではなく、あなたがプレミアムな存在になるのです。

※2-5 出典:「声で活躍する人をつくりたい!」 Voicyプレミアムリスナーに込めた思いを語ってみる

つまりプレミアムリスナー機能とは、パーソナリティさんの通常配信(無料配信)を支える特別なリスナーであって、その特典として、プレミアム放送が聴けるというもの。

これがVoicyさんが届けたい体験価値です。お金の流れだけでサービスを考えてしまうと、辿り着けない世界観ですよね。

ただし、これはあくまでサービス提供者側の想い。リスナーがこのような感覚で利用できていなかったら、なんの意味もない空想話というわけです。

ところで、実はぼくもあるチャンネルのプレミアムリスナーになっていました。これは個人的な感想ですが、結論から言ってプレミアムリスナーというお金の使い方は、気持ちよく新しい体験です。

お金の使い方の種類・意味合いとしては「支援」や「ギフト」に近い感覚でした。ただ一方で、どうしても損得勘定もしてしまっている自分がいたのもまた事実です。

継続を検討した時に、「プレミアム配信の回数」と「月額料金」から「結局、プレミアム配信1回いくらで聴けたんだ?」という算出をしました。やっぱり、この数値がどうしてもわかりやすい指標になってしまうからでしょうか。

このようにぼくのケースでは、Voicyさんの狙っている体験価値が半分届いて半分課題として残るといった結果になりました。

ぼくがプレミアムリスナーになった感想は、別のnoteにまとめておりますので、気になる方はそちらもご参照ください。



③ 配信時間や配信数に比例した収益

stand.fmが2020年9月より「再生時間」に基づいた収益化を始めました。そしてボイスメディアVoicyも、「再生数」に応じた収益化をが2021年より開始(※2-6)すると発表しています。(※2-6 2021年11月12日現在、まだ配信数に応じて収益化するプログラムはリリースされていません。)

それぞれの収益化の説明を以下に引用いたします。ここでstand.fmは明確に「広告」を表示する可能性に言及しているのが特徴的です。

投稿の再生時間に基づいた収益を受け取ることができます。将来的には広告を表示し、その収益の一部を還元することを想定しており、SPP対象チャンネルの投稿の前後に広告が挿入される場合があります。
※2-7 出典:stand.fmパートナープログラム (SPP) とは
ボイスメディアVoicyは、音声需要の拡大にこたえ、配信者に対して、再生数に応じて収益化できるプログラムを2021年より開始する。
※2-8 出典:ボイスメディアVoicy、配信者に対する再生数比例の収益化プログラムを2021年より開始※ ボイスメディアは株式会社Voicyの登録商標です

勘のいい方はすでにお気づきでしょう。そう、この再生時間/再生時間に応じた収益が得られるというこのモデルは、ゆくゆくは現在のYoutubeのように広告が挿入されることを想定しているのです。

Youtubeをそのままなぞるなら、番組冒頭や途中、終了後にユーザーにパーソナライズされた音声広告が入ることになるでしょう。

現状、日本では音声コンテンツが浸透しきっているとは言えない状態なので、各社ともに広告に対して慎重です。きっと、ユーザー体験を落とさない広告ってなんだろう?など、音声広告のあり方を各社検討しているのでしょう。

だから各社ともにまずは実際には広告を表示せず、資金調達をした資金を活用して、自腹で配信者に収益をお支払いする形からスタートしているのです。

とはいえすでに音声コンテンツが当たり前に浸透しているアメリカでは、答えは出ています。アメリカではYoutubeのように冒頭や合間、終了後に音声広告が入るのが当たり前になっています。



④ 音声コンテンツ販売

いわゆる書籍や有料noteの音声版というイメージのマネタイズ方法です。ある特定の音声コンテンツを聴くために、料金をお支払いするというパターンですね。

実はこのマネタイズ方法は、まだ音声配信プラットフォームで実現がされていません。(※2021年11月12日現在)しかし、音声コンテンツ販売自体はすでに可能です。

ではどう音声コンテンツを販売するかというと、noteやBASEなど、誰でもデジタルコンテンツを販売できるプラットフォームを活用するのです。例えばVoicyでも大人気の聖丁さんは、2016年からnoteを活用してオーディオブックを販売しています。

noteやBASEで音声コンテンツを販売する場合には「音声ファイル」を販売することになるので、聴く側のITリテラシーが少なからず必要です。

このような事情もあり音声コンテンツ販売が定着するのは、音声配信プラットフォームが音声コンテンツ販売に対応する時の可能性が高いとぼくは予想しています。


以上4つが、王道と言われている音声配信のマネタイズ方法です。

とはいえ実は、色々なWebサービスと掛け合わせればマネタイズ方法は無限大です。例えば、以下のようなマネタイズをされている配信者の方がいます。

・投げ銭
・有料リスナーコミュニティ運営
・アフィリエイト広告
・グッズ販売
・イベント開催

王道の4つや、これらのどれかから1つだけマネタイズ方法を選ぶというより、色々な方法を掛け合わせている配信者の方が多い印象です。

有料リスナーコミュニティを運営して、本などを紹介したらアフィリエイトリンクを説明欄に掲載して、たまに公開収録のイベントを開催して、番組限定グッズも販売しちゃう、といったように。

これは余談ですが、ボイスメディアVoicyとstand.fmはリリースするマネタイズ方法の順番が真逆で面白いです。気になる方はぜひ、調べてみてください。



第2章のその他参考文献

・「音声コンテンツ」って実際どうなの?再ブレイクの理由と、意外と手軽な活用法!

・クリエイターが知っておきたい「音声コンテンツ」の知識:種類・市場・将来性など

・YouTube、TikTok、複数のSNSを活用する時代。新たに音声配信を選ぶインフルエンサーが急増

・【海外事例】Podcast(ラジオ)のマネタイズ、YouTubeの10倍の広告単価も。



第3章 「今」のくらしや音声配信市場

第1章では音声の特徴を、第2章では音声配信をするメリットをご紹介してきました。ここまででも、あなたはとても「音声」についてのイメージがかなり湧いてきているのではないでしょうか。

ここからはより具体的に、現在の音声配信市場がどうなっているのかを中心にご紹介していきます。



3.1 音声配信やネットラジオ系サービスが多数生まれている

まずは、音声関連(音楽を除く)のサービスについてみていきましょう。音声関連のサービスは色々な切り口で分けることができます。

例えば配信者目線であれば、ポッドキャスト(3.3で解説します)なのか「独立系サービスなのか。リスナー目線であれば芸能人や著名人など、「どんな人が配信しているサービスか」など。

どんな切り口の仕分け方法があるか興味がある方はぜひ、音声関連のサービスについてまとめている記事をネット上で探してみてください。「音声配信 サービス まとめ」などで検索するとたくさん出てくるはずです。

音声業界全体を俯瞰して把握したい場合は、ボイスメディアVoicyが作られた「音声配信サービス業界カオスマップ」がわかりやすいので、そちらもぜひご覧ください。

※3-1 出典:音声スタートアップVoicy、「音声配信サービス業界カオスマップ」2020年版を公開


ここでは、以下の2種類で分類して紹介してみます。

・特定の人だけが配信できる音声配信サービス/インターネットラジオ
・誰でも配信ができるサービス/インターネットラジオ

配信したい方からすると、どこが配信のハードルが高い/低いのか。また音声配信を聴いてみたいという方からすると、どこが(比較的)安定感高く質の良いコンテンツが多いのか。

まずはそんなイメージで見てみてください。実際にはかなり特徴があるのですが、それは3.2でご紹介します。

特定の人だけが配信できる音声配信サービス/インターネットラジオ
・Radiko
・Voicy
・AUDee
・GERA
etc…
誰でも配信ができる音声配信サービス/インターネットラジオ
・Podcast
・Radiotalk
・stand.fm
・Spoon
・私を布教して
etc…

ざっと挙げるだけでもこんなところです。思ったより多い!と感じた方も多いのではないでしょうか。

数年後、伸びているサービスがどれかはわかりません。でもこれだけは言えるのは、それだけ音声市場への期待値が高いということです。

最後に音声市場の可能性を表す余談ですが、音声市場は連続起業家の参入が多いというのも特徴です。



3.2 音声配信プラットフォームは、それぞれ個性が強い

音声配信サービスは、それぞれがとても個性が強いのもまた特徴です。

配信してみようかなという場合にも、リスナーとして使ってみようかなという場合にも共通して、まずは各サービスの特徴を理解してから使うことをオススメします。

例として、stand.fm、Radiotalk、Voicyをご紹介します。機能比較は別途ネット上の記事を参考として挙げるので、ここでは目指している世界観やそのサービスがなぜ存在するのかという視点で書いてみます。


stand.fmの特徴

まずはstand.fmさん。目指している世界観としては、音声版のYoutubeだという話をよくされています。

現段階では、音声配信プラットフォームというよりは音声SNSという側面が強い印象で、 ライブ配信を中心に自然発生しているコミュニティが特徴的です。

とはいえロンドンブーツ1号2号の田村淳さんなど、芸能人やスポーツ選手などの参入も目立っています。2020年末、急にシカゴカブスのダルビッシュ有選手がライブ配信をされて話題になったことも記憶に新しいです。

特に最近では芸人さんの一人喋りコンテンツなども増えてきて、ライブ配信だけでなく収録コンテンツも豊富になりつつある印象です。

ユーザーにとって使い方の余白大きいというところも、音声版Youtubeという世界観を打ち出しているからこその特徴ですね。


Radiotalkの特徴

Radiotalkは代表である井上佳央里さんの想いがとても詰まっていることがよくわかるアプリ。井上さんは色々なメディアで深夜ラジオ好きを語られており、Radiotalkもその雰囲気が引き継がれています。

Radiotalkの特徴は、まさに以下のような部分です。機能だけ見るとLIVE配信や収録放送などstand.fmとバッティングする部分は多くあるのですが、コンセプトは全く異なることがよくわかりまよすね。

実名を名乗り、他人の目を見ながら話すには大きなハードルがある。なのでラジオトークでは、自分の顔写真やアイコンを掲載しなくても、自分の番組が配信できるような設計をしています。自分の顔写真を出しても良いですが、自分とは別の新しい人格を作り、日常を一切気にせずに脳内を解放することもできる。
※3-2 出典:ラジオに人生を救われた、若き女性起業家が目指す「話せば食べていける世界」

これがまさに今のRadiotalkの特徴ではあるのですが、記事内ではなぜこの着想に至ったかまで語られているので、ぜひ読んでみてください。

Radiotalkが目指していることを一言でいうと、脳内おもしろ人間の開花だとぼくは解釈しています。

他の音声配信プラットフォームと比較して、なんだか誰だかよくわからないけれど、とても喋りが上手い人がたくさん活躍しているという印象が強いですね。

Radiotalkが目指しているのは、話すこと、トークというもの自体に経済圏が生まれる状態にして、それを文化として育てていくことです。とした時に、市場をけん引する人が必要で、それは音声から生まれなきゃいけない。YouTubeから生まれたYouTuberが居なかったら、芸能人も注目していなかったでしょうから。
※3-3 出典:トークから「経済圏」を生み出す... Radiotalk井上社長に聞く、音声配信の2020年とこれから

話すことが苦手な人でも遊ぶように話せる、リスナーは共感するRadiotalkerと話を通じて遊べる、そんな体験を提供してまいりました。結果としてRadiotalkerとリスナーとの間に熱い絆が築かれ、そこには新たな「個の熱狂経済圏」が生まれています。
※3-4 出典:音声配信プラットフォーム「Radiotalk」が約3億円の資金調達を実施



Voicyの特徴

一番、日本に声の文化を創ろう!という意志の強さを感じるのがボイスメディアVoicy。

Voicyでは配信者(パーソナリティ)を徹底的に絞ります。これも、配信者と一緒に声の文化を創るという気持ちでやっているからこそのフローですね。

なぜ全員が発信者になれるCGMにしなかったかという理由については、Voicy代表の緒方さんが、以下の記事で語られていました。

裾野を広げるのではなく、スターを生み出す。TwitterやYoutubeではなく、どちらかというとVoicyは声のNetflixを作ろうとしているんですね。(※最近は、声のnoteという表現をされているのもお見かけしました)

ちなみに詳細な関係性はわかりかねますが、Voicyの配信者(パーソナリティ)全員にVoicy社員が担当につくのも特徴です。

また、Voicyの配信者(パーソナリティ)は何かしら特筆した専門性や実績がある方しかいません。色々なジャンルの配信があるのですが、やっぱり学びになるコンテンツや、そんなすごい方の雑談が聴けるというイメージが強いです。

とはいえ最近ではかなりの勢いでジャンルを広げてきているので、この印象も2021年末、そして2022年にはどんどん変わっていくのでしょう。



他にも、私を布教して、Spoonなど色々なアプリがあります。ぜひアプリを実際に使ってみて、特徴を見極めてみてください。

また、各アプリの比較は以下の記事の表や図がとてもよくまとまっていました。

※3-5 出典:【2021年保存版】音声配信メディア/アプリ8社徹底比較!おすすめプラットフォームと国内外の市場変化



3.3 Podcastという仕組み・概念

stand.fmやVoicyといった音声配信プラットフォームはいわば、独立国家です。それとは全く異なる仕組みなのが、Podcastです。

ここで、Podcastの仕組みにも触れておきましょう。ちょっと1度ではイメージしにくいので、まずはなんとなく20%くらいを理解しようという感覚で読んでいただくのがちょうど良い内容です。

日本ではまだどうなるかわかりませんが、海外ではこのPodcastの形式での音声配信がメジャーです。「Podcast…聴いたことはあるけれど、何が何だかわからない。」正直、そんな方がほとんどですよね。

実は、Podcastというのはかなり特殊なもので、Voicyやstand.fm、radiotalkと並列の関係の存在ではないのです。Podcastとは何かを文字で説明すると、以下のようになます。

あるルールに則った形式でタイトル/説明文/音声ファイルなどをインターネット上に公開する仕組み

この配信の仕組み自体が、「Podcast」。また、その仕組みを使って配信した番組自体のことを「Podcast」と呼ぶこともあります。

いかがですか?正直ちょっとわかりにくいですよね。少しでもわかりやすくするために、簡易的なイメージ図をご用意してみました。

podcastの仕組み

①がインターネット上にPodcast番組を公開するための便利ツール、
②がPodcast(音声ファイルURL、タイトル、説明文などのセット)
③がPodcastを聴くアプリ

厳密に正しい説明でなく、ざっくりイメージするための説明だとご容赦ください。

Podcastという形式で公開された番組は、Spotifyをはじめとしたさまざまなアプリで楽しむことができる。これだけ理解できれば、まずはOKです。

ぼくの配信でもAnchorというアプリを活用して、Spotify/Apple Podcast/Amazon Music/Google Podcast/Podcast Addictなどから聴けるようになっています。

もしかすると2021年、2022年にはPodcastが主流になっているかもしれません。もっと知りたい方は、ぜひ調べてみてください。



3.4 「メディア」としての音声配信は、聴きたいコンテンツは足りないし出会いにくい

これはどの音声配信プラットフォームでも言えることなのですが、まだまだコンテンツの数は動画やテキストと比較して足りていません。

またコンテンツのジャンルも、いわゆる本屋さんのようにはまだ網羅されていないのが現状です。

量やジャンルについては時間の問題で解決すると思いがちなのですが、実は単体の課題ではないのです。合わせて、解消しなければならない課題があります。

それは、音声は新しいコンテンツを非常に探しにくいということです。

Youtubeの関連動画のようなリコメンドロジックや検索性といった<技術的>な課題も、もちろんあります。

ただそれ以上に動画やテキストと比較して、音声は新しいものを聴くハードルが高く感じるという<心理的>な課題が大きいんですよね。

ボイスメディアVoicyさんも、新しい音声コンテンツを聞いてもらうために、様々な検討を重ねてきていますが、抜本的な解決策はまだ見つかっていなさそうです。

僕らがやろうとしていたことって、たとえば音声コンテンツの内容を3行まとめにするとか、YouTubeみたいにアイキャッチのところに情報をたくさん詰め込んで面白いと思わせるとか、書き起こして検索エンジンに適応させるとか、パーソナライズして「あなたにピッタリです」と言ってみるとか、そういったこと。
※3-6 出典:Clubhouseの流行、Voicy代表としては「悔しいけど、間違いなく追い風」 【声の履歴書Vol.41】

新しい音声コンテンツに出会いやすい環境が整った時が、音声市場がまたグッと盛り上がるタイミングの可能性が高いです。

そして、そのタイミングは意外と遠くない気もしています。それは、今は一旦ブームがさったClubhouseのような音声SNS的なサービスが、その役割を担う可能性があるからです。

Clubhouseや類似のTwitter Space、Spotify Greenroomで「もっと話を聴きたい!」と思える人に巡り合ったら、VoicyやPodcastといったストックコンテンツを聴くという流れが生まれるのです。

Clubhouseブームの頃に、Voicy代表の緒方さんもこのように話されています。

Clubhouseのサービス設計はすばらしいが、Voicyは違う世界にいる。Voicyは、コンテンツをアーカイブでき、発信者が労力をかけずに発信できるように設計している。ClubhouseからVoicyにくる人も多く、相性がいい。たとえるなら、Clubhouseは発信を流していくTwitterで、Voicyは読み物としてのnoteのようなもの。
※3-7 出典:【速報】G1@Clubhouse⑫「音声メディアの未来」緒方憲太郎×あやたん×阿部重典×堀義人

Clubhouseや類似の音声SNSが今後、しっかりと上記でいうところのTwitterの役割に育っていくかはまだまだわからないのが、音声市場の面白いところですね。



3.5 音声配信は「コミュニケーションツール」としても盛り上がりつつある

このnoteでは「音声コンテンツ」をメインに取り扱っていますが、音声配信はそれだけではございません。

いわゆる「コミュニケーションツール」としても、音声配信はもっともっと浸透してくる可能性が高いと言われています。

コロナ禍の2020年3月頃からじわじわと音声SNS的な盛り上がりを見せてきたstand.fmや、2021年2月頃にブームをつくったClubhouseが良い事例です。

その頃のClubhouseは芸能人や各業界の著名人などのいわゆる声の大きい人がステージ上に立ちスピーカーとり、それをその他大勢の人がオーディエンスとして聴くスタイルが多かったですよね。

でもおそらく音声SNSが一般に広く浸透したときには、それこそ「部室」のような場所になるのではないかと考えています。それは例えば、こんな体験です。

授業をさぼって部室に行ったら、たまたま友人Aもサボっていてちょっと楽しく話す。そうすると他の友人B、Cもやってきて、気づいたらわいわい楽しんでいた。

ここで強調したいのは、偶然的な体験だということと、ここから出るのも自由ということです。「そこにいなければならない」もなく、自由に出入りができるようなイメージですね。

実際、Clubhouseも会話中のルームから退出するボタンは「ピース」ボタンになっており、出入りの気軽さを担保しています。

もう1つ、日本の音声SNS「stand.fm」の事例もご紹介させてください。stand.fmの楽しみ方はライブと収録放送という2軸と、配信者とリスナーという2軸があります。

stand.fmさんから正確なデータが開示されているわけではないので感覚値でしかありませんが、とても多くの割合のユーザーが4軸の全てを楽しんでいる印象です。

stand.fm上でのSNS的な繋がりが価値になっているため、「知っている、仲良しなあの人の話だから聴きたい!」という状態が多いのです。言うなれば、コンテンツよりもコミュニケーション重視ですね。



3.6 広告費はまだアメリカの1/400?音声配信市場のデータまとめ

音声配信市場の各種アプリについて、ユーザー数や利用時間、動いている金額などのデータからも、音声配信市場の「今」をみていきましょう。

実はアメリカを中心とした海外では、音声が一昔前から根付いていました。

それでも日本では全く浸透してこなかったので、日本では音声の時代は来ないのでは?ともよく言われてきたのは事実です。でも、その流れも2020年頃から大きく変わりました。

音声配信市場は2020年、コロナ禍という状況ともあいまって、非常に伸びたのです。

ボイスメディアVoicy代表の緒方さんも、2020年末のインタビューにて『「音声メディア元年」に近づいた年でした。』と話されています。(※3-7)

※3-8 出典:いよいよ「音声メディア元年」に近づいた、Voicy緒方CEO・・・メディア業界2021年の展望(15)

音声メディア元年に「近づいた」という、なんとも曖昧な表現だった2020年末。2021年1月にClubhouseも日本にやってきて、2021年が音声メディア元年になる可能性はまたさらにグッと大きくなっているのではないでしょうか。

以下が公表されている様々な文献から集めた、2020年の各種データです。

国内
・Voicyは2020年、ユーザー数が4倍(週次の聴取者数)(※3-9)
・stand.fmはMAU(月間アクティブユーザー)数十万、滞在時間約80分(※3-10、※3-11)
・月間アクティブユニークユーザー数は昨対比400% ※2020年8月時点(※3-12)
・日本のデジタル音声広告の市場規模は2020年に16億円、2025年には420億円と予測(※3-13)

海外
・アメリカでは月に1回以上podcastを聴く人は約9,000万人以上に増加。6年間で人口(12歳以上)の12%→32%に成長(※3-13)
・アメリカでは2018年の時点で12歳以上の44%の人が「これまでポッドキャストを聞いたことがある」と回答(※3-14)
・アメリカでは「月間でポッドキャストを聞いている」と答えた人は26%と、4人に1人は月間でポッドキャストを利用している(※3-14)

一足先に音声の文化が根付いている海外でもさらに伸び、そして日本の音声市場もやっと追い風になっています。

加えて、黒船のようにやってきたClubhouseは、既にMAU(月間アクティブユーザー)が100万人ともいわれています。

2022年は、ますます音声配信市場は目が離せなくなりますね。

※3-9 出典:Voicy 再生数に応じて収入が得られる仕組みでユーザー獲得強化

※3-10 出典:株式会社stand.fm採用ページ

※3-11 出典:音声配信アプリ「stand.fm」が5億円調達、配信者への収益還元プログラムも開始

※3-12 出典:Radiotalk、博報堂DYメディアパートナーズ、日本初導入! Radiotalkで「インタラクティブ(双方向)音声広告」を配信開始

※3-13 出典:デジタル音声広告の市場規模は2020年に16億円、2025年には420億円に

※3-14 出典:音声コンテンツの未来とは?音声メディアが切り開く音声市場



第4章 「未来」のくらしと音声配信

Voicy代表の緒方さんの著書「ボイステック革命  GAFAも狙う新市場争奪戦」では「スマホの次の時代は"音声"だ」と言い切っています。

※4-1 出典:スマホの次の時代は“音声”だ 声のブログ「ボイシー」が目指す未来

それだけ、音声の時代とはぼくらの暮らしを変化させうる可能性が高いのです。さらに、音声は最新のテクノロジーともとても相性が良いというのも面白いところです。

最終章である第4章では、音声によって未来がどうなっていくのかをちょっと覗き見できる、そんな事例をご紹介していきます。



4.1 副音声がすごい

音声ならではの特徴を生かした「副音声」。副音声はぼくらの体験を大きく進化させる可能性がある活用法の1つです。

1.1にも述べたように、音声コンテンツはあなたの体験を拡張する「広義のAR」でといえます。

音声ガイドアプリの33tabは、実際に街歩きをしながら音声ガイドアプリを聴く想定のコンテンツも多数配信されています。例えば関取花のどすこい鎌倉散歩では、鎌倉の名所ごとにコンテンツが用意されています。

「あなたが旅をするという体験」はそのままに、「好きな音声」を重ねるという体験の拡張ができるのが、音声ガイドの魅力ですね。

もちろん、音声ガイドに特化したアプリでなくてもこのようなコンテンツは作成可能です。例えば、キングコングの西野さんは、Voicyを使って美術館の音声ガイドや、新作絵本の副音声を配信されています。

旅の音声ガイドの事例を出しましたが、「音声ガイド」に活用される可能性のあるものは、「何でも」といっても過言ではありません。美術館や科学館、博物館はもちろん、世界中のモノ/サービスの全てが副音声の対象になり得るとぼくは思っています。

副音声の体験価値は、音声を追加することで、世界中の至るモノ/サービスを、自分の好きな人や専門家を通して見ることができるということです。

同じコンテンツを「専門家」から聴きたい人もいれば、「好きな人」から聴きたい人もいる。それが、音声なら可能です。

ちなみに例えばstand.fmの限定URL公開機能を活用すれば、他のWebサイトやアプリ、QRコードでそのコンテンツへのリンクを貼ることが可能です。すでに特別なアプリや機材を使わなくても、美術館や博物館、観光スポットなどさまざまな箇所に副音声をつけることができるのです。



4.2 音声や音声に関わる周辺のテクノロジーの進化がすごい

音声は最もアナログに近い温かみのあるメディアですが、実は最新テクノロジーとの相性も抜群です。そこで本節では、音声×〇〇といった形で音声と掛け合わせて使われるテクノロジーについて、ご紹介していきます。

ご紹介するのは以下の5つ。

① 音声認識がすごい
② 翻訳がすごい
③ テキストを読み上げるText-To-Speachがすごい
④ 「音声クローン」技術がすごい
⑤ 声を変化させる声質変換がすごい

他にも好きな音声配信を見つけるためのテクノロジーや、音声配信を簡単にするためのテクノロジーも盛り上がりを見せています。

① 音声認識がすごい 

音声認識とは、音声を機械が認識してテキスト化する技術です。この技術はまさにAIの発展とともに進化しており、ここ最近の音声認識の精度には本当に驚きです。

例えば株式会社オトナルの代表取締役八木太亮(やぎたいすけ)さんは、なんとご自身の著書のほとんどを音声入力で書かれたと語られています。

※4-2 出典:いちばんやさしい音声配信ビジネスの教本 人気講師が教える新しいメディアの基礎

騙されたと思ってぜひ、音声入力を試してみてください。中身のテクノロジーが分からなくとも、その凄さを実感できるはずですよ。

他のイメージしやすいすごい活用法としては、「自動字幕」があります。この技術の凄さも、Youtubeで自動字幕を表示すればすぐに体感できます。

アナウンサーレベルの滑舌の自動字幕ならできるという時代はとうの昔で、今では一般的な滑舌の自動字幕の正確性もとても上がっているのです。

このように、「音声がテキストデータに変換される」音声認識技術はかなり精度が高くなっております。本節の最後のメッセージとして、このように音声認識技術が進化すると、音声配信市場にはどのような影響があるのかをお伝えさせてください。

今のところ、インターネット上にある音声コンテンツの中身は、まだまだブラックボックス化しているのが現実です。つまりぼくら一般ユーザーとしては、音声コンテンツの中身で検索をかけられない。タイトルや説明文にそのキーワードが書かれていない限り、その音声コンテンツに検索で出会うことができないということです。

これが、音声認識がさらに進化した近い将来には、音声コンテンツの中身で何を話しているのかまでがGoogle検索などの検索対象になる可能性があります。また、検索対象だけでなく音声プラットフォーム内でのコンテンツリコメンド技術もより進化するでしょう。

このように、リスナーとしては楽しみな進化が訪れるはずです。ただ、ブラックボックス化しているのが音声の良さとも言えるのもまた事実です。というのも、音声だからこそ油断して話してしまうような内容がまた魅力的だったりするからです。

発信者の意思でコンテンツの中身の解析を許すか否かを決められるなど、そんな世界になるのではないかとぼくは想像しています。

② 翻訳技術がすごい

「翻訳」は音声と一見関係ないテクノロジーですが、実は音声との組み合わせがとても良いテクノロジーの1つなのです。勘の良い方であればお分かりかもしれません。そう、音声認識×翻訳の掛け合わせですね。

実は音声市場での面白さを語るには、音声認識×翻訳×〇〇というように、もう1つの掛け合わせが必要です。なので一旦ここでは、音声認識×翻訳のイメージの解像度を上げておきましょう。

音声認識×翻訳の掛け合わせとは、以下のような流れのイメージです。

① 口で話した音声の内容を機械が認識する
② 認識した音声を、音声認識技術によりテキストデータ化する
③ テキストデータを別言語のテキストデータに変換する

これがリアルタイムにできるとしたらどうでしょうか? リアルタイム音声認識×翻訳というテクノロジーです。色々あると思うのですが、代表的な活用事例としては、グローバルなWeb会議です。

参加者それぞれが母国語で話しながらも、聞き手は自らが設定した言語での字幕で読むことができる、そんなイメージですね。

代表的な翻訳サービスであるGoogle翻訳やDeepLといった翻訳サービスのレベルがすごいことは、気軽に無料で試してみて実感できるはずです。ぜひ、試してみてください。

③ テキストを読み上げる音声合成がすごい

さらにテキストデータを機械音で読み上げてくれる、音声合成というテクノロジーもどんどん進化しています。

音声合成技術の進化により、いわゆるニュースを正確に読み上げるといった仕事はアナウンサーの仕事ではなくなるかもしれません。

ここ最近、ぼくがよく乗っているJR東日本の電車内のアナウンスも機械音に置き換わっていたのですが、その時の体験が音声合成技術の進化を物語っていたのです。

放送を聴くと、母国語である日本語ではイントネーションの不自然さが気になり、「あ、電車の車内アナウンスも機械音に変わったんだ」と気付いたのです。ですがその後に流れた英語などの外国語の放送を聞いても、それが機械音かどうかは判断ができませんでした

でも冷静に考えて日本電車で日本語だけが機械音なわけがなく、他の言語も含めて全て機械音だと、改めて認識させられたのです。そのくらい、音声合成で発される音声は自然なレベルに近づいているのです

さらに面白いのは、このテクノロジーを応用すると例えば、音声認識でテキスト化された文章を翻訳して外国語にし、それを読み上げるという掛け算が可能です。

近年は海外のWebサイトも自動翻訳機能によってかなり自然に日本語で閲覧することができてきましたが、それの音声版が可能になる未来もそう遠くなさそうです。 その未来を予感させてくれる技術が、次の④でご紹介する「音声クローン」技術です。

④ 自分の声を他言語化する「音声クローン」技術がすごい

自分が話した声のまま、リアルタイムで外国語に変換してくれるような技術も研究がされています。

※4-3 出典:「あなたの声」のまま変換、グーグルの新しい翻訳システム

個人的にとても気になった面白い研究なのですが、4-3の記事は2019年に書かれたもので、その後の研究進捗は見つけることができませんでした。

とはいえこのように母国語が異なる人同士でリアルタイムに母国語でコミュニケーションが取れる未来は面白いですよね。

例えば母国語だとわかる話している人の特徴が、変換された言語でも表現ができるようになったら、いわゆる翻訳的なぎこちなさもなくなるのではないでしょうか。

今、何語で話しているかを気にすることなく、世界中の人と会話ができるような未来が来るかもしれません。

これはリアルな世界だけでなく、インターネット上の音声コンテンツでもとても革新的なことになる可能性があると私は思います。

なぜなら言語情報以外の音声ならではの特徴を、他言語で届けられる可能性があるからです。具体的に言うと、人の感情や本人性といった音声の特徴を含めて、外国語で届けられるということです

例えば「日本の最新ニュース」みたいな情報は翻訳でも価値ですが、お笑い的な音声コンテンツの面白さは、翻訳では伝わりにくいですよね。それが、このような音声クローン技術が進化すると実現できるというわけです。

このような技術の対応言語が増えて精度も上がれば、音声コンテンツがもともと何語で話されたかなど気にすることなく、母国語で楽しむことができるのです。

想像してみてください。シリコンバレーの最先端情報Podcastを、まるで日本語で話されているかのように楽しめます。韓流スターの言葉も、日本語で自然に入ってきます。もしかすると、映画の吹き替えも行う必要がなくなり、本人の声でそれぞれの国の言語に変換されるような未来が来るかもしれません。

日本発の日本語コンテンツも、海外で当たり前に楽しんでもらえる時代がくるかもしれないと考えたら、とてもワクワクしますね。

※4-4 出典:自分の声を多言語化する「音声クローン」技術の可能性

⑤ 声を変化させる声質変換がすごい

まだまだ研究段階の技術ですが、自分の声を誰かの声に変換する技術「声質変換」もどんどん進化しつつあります。

※4-5 出典:誰の声でも100人の声に変えられる声変換システム

特に注目しているのは、声質変換をリアルタイムで行う技術。ロボット声や不自然な声ではなく、なりたい声にしかもリアルタイムで変換ができる未来はそう遠くはないかもしれません。この技術があることで、好きな声でネット上で活動することができます。

※4-6 出典:リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

自分以外の声で自然に発信することができるようになれば、これまで声を公開して発信することが難しかったような方の話を聞きやすくなるのではないかと思い、ワクワクしています。

他にも例えば声質変換技術と音声合成技術を組み合わせた事例として、One's Voiceの声を再現・復元するサービも大変興味深いです。これによりALS(筋萎縮性側索硬化症)などにより話すことが難しくなった方や、亡くなった家族の声を復元することができます。

※4-7 出典:One’s Voice



4.3 世界中に音声がストレスなく染み込んでいく

1.3でも述べたように、音声の特徴の1つとして「デバイスにとらわれず、もはやスマホすら必要としないのが音声」があります。

つまり、音声はとても自由。世界中のモノと接続されてスマホを通して音声が聴こえてもいいし、モノから直接音声が聴こえても良いのです。街中でどこからともなく聴こえてくる音声というのも出てくるでしょう。

街で聴こえてくる音声は、旧来型のいわゆる音声ガイドというよりは、1人1人の趣味嗜好にあった音声です。好きなアイドルが観光地を解説している声かもしれないし、あなたの友達が過去にその場所を歩いているときの思い出トークかもしれません。世界中が、あなたの気分や好みに合わせて音声で拡張されるのです。

またそのときつけているイヤホンは当たり前にフルワイヤレスイヤホンです。そしてイヤホンをつけているかつけていないかも忘れてしまうくらい、耳に馴染むものに進化しているはずです。

このフルワイヤレスイヤホンとまた相性が良いのが「音声AR」。何か観光スポット(例:大仏)に近づくとイヤホンから声が届き、ちょっと離れると声が小さくなる、そんな技術が音声ARです。ARというと視覚情報の拡張をイメージすると思いますが、これは現実世界に聴覚情報を拡張するという試み。

例えば、脱出ゲームやスタンプラリー、遊園地などのエンタメ施設に音声ARを加えても面白そうです。

1つ、脱出ゲームでイメージを少し膨らませてみてみましょう。

まず情景として異質なのが、それぞれがフルワイヤレスイヤホンをつけながら行動するということです。とはいえ未来のフルワイヤレスイヤホンはつけている感覚もなく、周りの音を自然に取り込むので、イヤホンを付けながらも会話をして協力してゲームに取り組めます。

ゲームに取り組む中で、脱出ゲームのヒントとなるポイントに近づいたタイミングが「音声AR」の出番です。ポイントに近づくと、イヤホンから音が聴こえます。そして、近づくと大きくなり、遠ざかると小さくなる。もしかすると、チームの1人1人で、聞こえる音が違うなんて仕掛けもあるかもしれません。 

このように視覚での謎解きだけでなく音声も組み合わさることで、楽しみ方が拡張されます。音声は、あなたの世界をひとまわりもふたまわりも拡張してくれる可能性があるのです。

※4-8 出典:音声AR



4.4 モノ/サービス販売×音声の可能性も大きい

音声は、モノやサービスの販売の訴求にもとても効果的なのではないかといわれています。社会派ブロガーのちきりんさんも定期的にVoicyでオススメ商品やご自身の書籍をご紹介しており、その可能性をTwitterでもつぶやかれています。

このような音声コンテンツでの訴求はもちろんですが、リアル店鋪での音声活用の可能性も注目です。

ポップや商品自体にQRコードがついて、音声コンテンツにリンクされるというものを想像してみてください。

例えば本屋さんで書籍やポップにQRコードがあり、サクッ音声で好きな人のレビューが聴けるとしたら、書籍の帯などの訴求よりさらにグッと惹きつけられる気がしませんか? 帯にホリエモンさんが一言でおすすめしているだけでなく、そこのQRコードから2〜3分の音声コンテンツが聴けるイメージです。

また、4章冒頭でも触れたVoicy代表の緒方さんが書かれた「ボイステック革命  GAFAも狙う新市場争奪戦」も、実はただの書籍ではございません。

この書籍と連動して、以下のような音声コンテンツを無料で楽しむことができます。ちなみに音声はもちろん、著者であるVoicy代表の緒方さんです。

・はじめに
・おわりに
・プロローグ<ボイスドラマ>
・書籍発売後の経過報告
・対談

これらをどのように実現しているのかの答えは、ボイステック革命の表紙にあります。

よく表紙を見てみてください。よく見ると、書籍の表紙にQRコードを掲載されていますよね。(帯ではなく、表紙です…!)

このQRコードを読み込むと、ボイステック革命の書籍用のVoicyチャンネルに遷移するのです。そこで、音声コンテンツが無料で楽しめます。

ここまで、ボイステック革命と連動した「無料」の音声コンテンツだと強調していたのにはわけがあります。

実はこの書籍の試みで最も面白いのは、ボイステック革命のVoicyチャンネルではプレミアムリスナー制度を導入しているということです。つまり、書籍代のお支払いだけでなく、追加で音声に課金するリスナーが存在するのです。

このように書籍のマネタイズポイントが音声があることで拡張される可能性があるのです。ちなみにプレミアムリスナー限定のコンテンツとしては、一部の対談コンテンツや裏話が配信されています。

ちなみに、とはいえこの「有料課金」の試みは一筋縄ではいかなかったようです。発売月である7月のプレミアム配信(有料課金ユーザー向けコンテンツ)が32再生で、8月は45再生などでした。(無料配信を途中からプレミアム配信に切り替えたものは除く)

このモデル自体は大成功とは言えないかもしれませんが、このように書籍と音声が密に連動するようなコンテンツが、これから増えていくかもしれませんね。



おわりに

ここまでお読みいただき、ありがとうございます。少しだけでも、音声ってもしかしたら未来をつくるかも?と思っていただけていたのではないでしょうか。

〇〇×音声は、極端な話なんでもありです。しかも音声は、メインにもサブにもなれるというオールマイティプレイヤーです。いや、どちらかというとサブであることのほうが多いですよね。ぼくは音声のそんな控えめなところが好きなのかもしれません。

きっと音声は、「水」や「米」のように生活へ自然と馴染んでくるはずです。ぜひ、あなたの生活にもう1歩「音声」を取り入れていませんか?

最後に余談ですが、実はこのnote、Clubhouse旋風より前に8割ほど書き上げていました。ただClubhouseがやってきたことで、公開を見送っていたという経緯があります。Clubhouseにより今さら音声?と言う風潮がなくなったため、このnoteを公開する必要もないのかな?と感じていたのです。

ただ、半年以上noteを下書きのまま眠らせて改めて気づきました。まだまだ音声について体系的に、文章で理解できる情報は少ないことに。だからこそ今回、このようにnoteを公開することにしたのです。

Clubhouse旋風や2021年前半の流れを踏まえて大幅にリライトしたため、辻褄が微妙に合っていなかったり、流れが不自然なところもあったと思います。それにも関わらず、ここまでお読みいただき本当にありがとうございました。

感想はぜひTwitterに  @utoc11 にメンションをつけてつぶやいてください!またぼくの音声配信はとてもとてもニッチなのですが、ここまでお読みくださったあなたなら楽しく聴けるかもしれません。

ぼくが音声マニアのため、音声をネタにした配信も多く行っています。ぜひご興味あるテーマから聴いてみてくださいね。



本編で直接引用などはしなかったが、勉強になったページ

・緒方憲太郎(Voicy代表)「第一弾「音声メディア」市場はなぜ拡大するのか?──米国・中国の最新事例に学ぶ【2020年版】」

・緒方憲太郎(Voicy代表)「第二弾音声エンゲージメントの可能性──インフルエンサー・企業の最新事例から考える 【2020年版】」

・日本の若者がPodcast番組をもっと聴くようになるには? 10代が自身の視点で考察

・強みは「スクリーンの獲得競争」からの脱却–THE GUILD 深津貴之さんと考える音声メディアの可能性

・Voicy:【公式】VoiceTech最前線「アメリカの音声市場について(D4V永瀬さん勉強会)」


音声市場や音声メディアに関する音声配信をしているおすすめ番組/配信

・※終了|スキを伝える音声の可能性(松島功さん × りょかちさん) #noteフェス

・Voicy:Voicy 緒方憲太郎 & 文化放送 村田武之「ラジオポッドキャストみらい会議」

・Podcast:「ポッドキャストの配信で人生が変わる」

Podcastに限定して役立つ話だけではなく、「音声」全般の話が多めです。

いただいたサポートは、新しいサービスづくりのための活動資金とさせていただきます!