コンテンツ制作の次世代トレンド：AIのサポートによるコンテンツの未来

株式会社キメラ

2020年11月17日 11:23

こんにちは。キメラです。

noteで新しいマガジンをはじめます。「Ximera MEDIA NEXT TRENDS」です。メディア、パブリッシャーが知っておきたい、次のトレンドについて掘り下げていくマガジンになる予定です。

第1回となる今回は、AIの発達により変化が訪れているテキスト／音声コンテンツの制作方法について取り上げます。

具体的には、AIによる文章の自動生成、コピーライティングサポート、音声読み上げの3テーマについて、テクノロジーおよび関連するスタートアップをご紹介し、未来のコンテンツ制作のスタイルを考えてみたいと思います。

AIによる文章の自動生成

コンテンツ作成において、文章を書くのは長らく人間の役割でしたが、AIもかなり自然なかたちで文章が生成できることが明らかになってきています。

多くのメディアですでに取り上げられていますが、イーロン・マスク、サム・アルトマン率いるOpenAIによって提供されているAIモデルのGPT-3で、投稿文章をインプットとして学習させ、テーマを与えることで自動的に文章生成を行うことが可能になりました。

OpenAIを使ったとあるユーザは、5000文字ほどのブログを自動生成、人工的に作られたことは伏せた上で公開したところ、シリコンバレーの起業家やエンジニアの間で有名なニュースキュレーションサイトのhackernewsでランキング1位になるということが起こりました。サイトを訪れたほとんどの人はそれがAIによって生成されたとは気が付かず、AIによるコピーライティングがかなり自然になっていることが証明されたのです。

ほかにもGPT-3は文章生成だけでなくテキストで表現できるものをすべて扱えるため、部分的ですが、Web／アプリ画面のパーツ、ソースコード、ギターのタブ譜など、さまざまなものの生成が可能で、ベータアクセスでその可能性が広く研究されています。

さらに直近ではMicrosoftがGPT-3の独占ライセンス契約を結び、メディアでも実験的にGPT-3をニュース記事作成（新聞寄稿）に使う事例（英: Guardian紙）が現れました。特にオピニオン系では、メディアの記事としても成立することが明らかになりました。生成された文章の原文は英語ですが、こちらのnoteにてGuardian紙がGPT-3を使って行ったこととDeepLを使った全文訳を見ることもできます。

一方でOpenAIの代表であるサム・アルトマンはGPT-3は多くの人が思うほど完璧なものではないとコメントしており、「GPT-3が万能である」、「ライターがいらなくなる」という思い込みは避けるべきだと考えます。ここで考えるべきは、AIがコンテンツ制作の実行部分で大きなサポートになる可能性がある点です。

ビジネス面では、文章自動生成ゲームによるサブスク収益を得ているスタートアップも存在しています。文章自動生成型のシナリオゲーム『AI Dungeon』では、自分の次の行動を自由記述で書くことができます。

例えば、「味方がやられた。次にどうする？」という場面で、自然文で「遠くへ逃げる」とタイプする（選択肢を選ぶのでなく、次にしたい行動を「自由に書く」）と、「遠くへ逃げる」文脈を感じ取り、次のシナリオ展開の文章を自動生成します。

これによって、ゲームは何度やっても、同じ展開になることはなく、ほぼ無限に楽しむことができます。AI Dungeonはユーザ作成シナリオの追加、ランダム性や長さの調整機能など、自動生成シナリオのカスタマイズをプレミアム機能（月額 $9.99 約1,050円）の一部として提供し、マネタイズを図っています。

AIによるコピーライティングサポート

ニュース記事、ブログ、キャンペーンなどのテキストコンテンツの制作において、どのような文章スタイルで書くかは各社や個人で明示的にしろ、暗黙的にしろ一定のスタイルガイドが存在します。ある会社、あるプロダクト、ある個人の文章スタイルが、ライティング自体の個性、顧客への適切な理解を生み出します。

文法については従来から機械的にレビューすることは可能でしたが、文章スタイルに関しては、人によるレビューによって修正がなされていました。しかし、近年これをAIでカバーしようとするスタートアップが現れています。

USのスタートアップであるWriterは、文章作成においてAIの分析により、スタイルガイドや価値観に合わない言葉にフラグを立て、修正案のレコメンドを行ってくれるサービスを提供しています。

例えば顧客向けの文章で、無神経な言葉を使っていたり、ネガティブな言葉を使っていると思われる場合には、それを知らせ、企業がブランドガイドラインを遵守できるようにしてくれます。また、文章の複雑さや段落の長さ、トーンなども考慮してくれますし、置換対象の言葉にチェックをつけるだけでなく、どのような言葉遣いに置換するのがふさわしいかもレコメンドしてくれます。

これら機能が意図しているのは、通常のスペルや文法の間違いだけでなく、フォーマルさ、文体によるメッセージ性の強弱、活気など、ブランドを定義するのに役立つ指標をチェックすることができる点です。

とくにチームでコンテンツ制作を行っている場合、ブランディングのトーンを揃えることができ、メディアとしての文章スタイルの特徴を均一化できるメリットがあります。

AIによる極めて自然な音声読み上げ

これまでPodcastや動画を制作するにあたり、人間が内容を考え、発声することでコンテンツを制作してきました。自身の声色や話し方のトーンが強みになる人がいる一方、コンテンツ自体は良いにも関わらず、自身の声や話し方がイマイチで伝えたいことが伝わりきらないことは、従来からあった課題です。

またプライバシーの理由から自身の声色を使いたくない場合もあります。これに対して音声読み上げソフトウェアを使ってコンテンツを生成することは広く行われてきましたが、そのほとんどは人間の発声と比べると自然に聞こえない、また声色についてもカスタマイズができないものがほとんどでした。

そんな中、2017年にGoogleによって、極めて自然な形での音声読み上げの研究プロジェクト「Tacotron」が発表されました。サンプル音声が発表されると、その自然な読み上げに注目が集まりました。2020年10月現在でも最新のサンプル音声を聞くことができ、そのテクノロジーの進化を感じ取ることができます。

Tacotronの研究では、同じ文章でも、ただ自然な音声読み上げることだけではなく、モデル化手法の違い、どの単語にアクセントを強くおくか、発生速度をどの程度にするかなど多数のパラメータ調整によって、微妙なニュアンスの違いを人工的に作れることを示しています。

Tacotronは自然な音声生成を達成しましたが、実用にはまだ問題があると言われています。人工音声スタートアップのWellSaidLabによると、Tacotronは15秒程度の音声に最適化されており、1秒のオーディオクリップを作成するのに3分かかるという点で、10分以上のコンテンツを作るという現代のコンテンツ制作のスタイルには合わないと主張しています。

これに対してWellSaidLabは制作速度、品質、長さに焦点をあててモデルを再構築しました。その結果15のAI音声モデルを使って、1分程度の極めて自然な人工音声のクリップを約36秒で出力できるソリューションを提供しています。現在はプロの声優による音声モデルが主ですが、今後ユーザ自身の音声モデル、人工的に作成される音声モデルなどが出てくる可能性があります。

AIによる音声読み上げは、テキストさえあればそれを代替するものになるため、記事やBlogコンテンツを音声化／動画化する、それも自分の好きな声色やトーンを自由に使うということが可能になります。

コンテンツ制作の未来はどうなるのか

これらのテクノロジーの発展を見ていると、人間がコンテンツのテーマ、材料、ブランディングガイドラインを与え、AIがその実行を担うという未来が考えられます。今回ご紹介した3つの事例だけでも、コンテンツの生成のパイプライン（テキスト生成 => テキストブランディング調整 => 音声生成）を作ることが可能になっています。

技術的には多くの要素が実用可能なレベルに達しており、あとはそれをサポートするソフトウェアの選択肢が多く出てくることで、プロ向けも個人向けもエコシステムがより発展する可能性があります。

こうしたAIのサポートによるコンテンツ生成によって、参入障壁は大きく下がり、コンテンツの量産化、高品質化がさらに進み、今よりも圧倒的な量のコンテンツ生成がなされ、競争が促進されるいうことも考えられます。この流れが起こった場合、コンテンツ自体の価値が下がることにもなり、メディアのビジネスモデル自体にも大きな影響を与えるでしょう。

現時点ではやや早計ですが、コンテンツ制作で強みを出していくために、(1) 企画やネタを考える創造力、(2) いかに多くの学習用のインプットをAIに食わせられるか、 (3) AIの挙動を理解し適切なソフトウェアを組み合わせ、いかに使いこなすか　の3点を意識した人材や企業がより価値を出せる時代に突入していくことが予想されます。