データサイエンス×演劇　〜トピックモデルによる舞台のジャンル・特徴分け　PART１〜

2020年9月26日 02:03

こんにちは、Yu_Seです。
先日9月19日から劇場の観客収容率・収容人数の上限も緩和されて、少しずつ元の世の中に戻りつつある状況ですね。
それでも、依然として国内での新型コロナウイルス感染者数は一定数存在する訳で、まだまだ予断を許さない状況ではないかと思います。

今回の記事は、「データサイエンス×演劇」ということでPART1・2・3の3部構成で、データサイエンスを応用した舞台のジャンル・特徴分けについての実験結果とその考察をまとめてお送りしたいと思います。

とはいっても、「データサイエンスとはなんぞや？」とか「トピックモデルってどんなモデル？」と思う方も多くいらっしゃると思うので、なぜ私がこのようなテーマに挑戦して取り組んでいるか、順を追って説明していきたいと思います。

なぜ舞台のジャンル・特徴分けをするのか？

私は演劇に特化したWebアプリ開発を進めていきたいと思っています。特にコロナ時代に入ってその想いは強くなりました。
具体的なアプリの機能の全てはここではお話できませんが、一言で言えば「演劇のプラットフォーム作り」です。このアプリに無料会員登録していれば、観劇も演劇制作も今までよりもさくっと行える、そんなサービスをイメージしています。

そのアプリの中に、私がどうしても入れたいと思っている機能があります。それは、ユーザー一人一人にオススメの公演情報を自動的に提示してくれる「公演情報レコメンド機能」です。
以前私が行った演劇に関するアンケートの集計結果にも、「自分の好みに合う公演情報を獲得しにくい」といった悩みが困りごと・悩みごと項目の上位にありました。これは、いざ自分が観たことない劇団の公演に足を踏み入れようと思っても、どの劇団を観たら良いか全く見当がつきにくいことを意味するのではないでしょうか。その結果、劇団単位で新規観客をなかなか増やすことが出来ていないんじゃないかと思っています。

そこで、ユーザーの趣味嗜好に合わせてアプリの方が自動で「あなたにオススメの公演」を提示してくれれば、「この公演今まで知らなかったけど、自分の好きなジャンルと一致しているし観劇してみようかな？」と思って知らない団体の公演でも観劇しやすくなる可能性があるのではないかと思っています。
これによって、観劇する側にも公演を企画する側にもメリットがあり、観劇をするという行為がもっと身近なものになる第一歩だと思っています。

この「公演情報レコメンド機能」を実装する上でどうしても必要となってくるのが、正確な舞台のジャンル・特徴分けです。舞台のジャンル・特徴分けが正確に行われないとその作品を届けたいユーザーにレコメンド出来なくなってしまいます。
例えば、アングラ劇が好きなユーザーAとコメディが好きなユーザーBがいたとして、舞台のジャンルがアングラ劇のもの、コメディのものと正しく分かれていればユーザーAにアングラ劇を、ユーザーBにコメディをレコメンド出来ますが、舞台ジャンル・特徴分けが正確でないとユーザーBにアングラ劇をレコメンドすることになってしまい、レコメンド機能としての意味がなくなってしまいます。

つまり、この「公演情報レコメンド機能」が正しく機能するようにするために、正確な舞台のジャンル・特徴分けが必要となってくる訳です。

前回の演劇アンケートの反省点

以前行ったアンケートで、「好きな舞台のジャンル」という質問項目で回答して頂いた結果を以下に示します。

好きな舞台のジャンル_アンケート集計結果

このアンケートでは上の25の舞台ジャンルを設定して実施したのですが、「現代劇」という項目が突出して多い結果となってしまいました。

今考えてみると、この「現代劇」というのはジャンルの括りとして広すぎると思いました。現代劇の中にも、「恋愛・ラブストーリーを扱った作品」「家族を扱った作品」「サスペンスを扱った作品」など色々あると思います。そこをしっかりジャンルとして組み込まないといけなかったと思っています。

つまり、「公演情報レコメンド機能」を実装する上で必要となってくる舞台のジャンル・特徴分けは上記の25のジャンルでは不十分であり、もっと的確なジャンル・特徴分けをしないと精度の良いレコメンド機能にはならないと感じています。

余談ですが、以前行った演劇関係者に関するアンケートの全貌が気になる方はこちらから辿ってください。
前編は「演劇を観る」に関するアンケート、後編は主に「演劇をする」に関するアンケートになっています。

データサイエンスを使った舞台のジャンル・特徴分け

本題に戻って、ではどうやったら「公演情報レコメンド機能」が正しく機能するような適切な舞台のジャンル・特徴分けができるのか？

主観で思いついたものをジャンルとして挙げていっても、当然漏れがあったりレコメンドとして正しく機能するのか検証出来ないという問題があります。
主観的にではなく客観的に舞台のジャンル・特徴を捉えることによって、漏れがなくレコメンドが精度良く機能出来るかの検証も行えるんじゃないかと思っています。

では、客観的に舞台のジャンル・特徴分けをするためには何をしたら良いのか？ここで私が冒頭でキーワードとして出している「データサイエンス」が使えると思っています。
データサイエンスとは、「データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのこと」（wikipediaより）です。要はビッグデータを分析することによって、ある物事に対してマクロな視点で体系的に捉えることができ、それによって有益な情報が得られるということです。
近年では、AI（人工知能）ブームもあってビッグデータ解析は注目を集めました。情報化社会が加速して膨大なデータが毎日のように生成されていく昨今、AIブームが去ってもデータを分析して知見を見出していくという「データサイエンス」はますます重要になってくると思っています。

「Togetter」という膨大な舞台情報データ

このデータサイエンスを使えば、客観的に舞台のジャンル・特徴分けがなされて、漏れがなくレコメンド機能の精度の検証まで行えると思っています。
ここで問題なのが、データサイエンスを使うためには舞台に関する何らかのデータが存在しないといけません。さらに今回舞台のジャンル・特徴分けをするためには、ある程度様々な公演の特徴を示す情報も保持しているデータでないといけません。

今回私が着目したのは、Togetterという過去に行われた舞台のTwitter上の感想を各公演毎にまとめたサイトです。
こちらを調べてみると、古いものでは8年ほど前の公演の感想までまとまっており、「演劇」または「小劇場」タグで絞ると数千件分の公演の感想が存在します。
こちらのTogetterのTwitterでの舞台感想データを入手することによって、舞台のジャンル・特徴分けが出来るんじゃないかと考えています。

WordCloudを使った公演の特徴

Togetterサイトの公演感想は、「スクレイピング」という手法によって各公演単位で感想をデータ化して抽出出来ます。
スクレイピングは、「ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと」（wikipediaより）であり、プログラミングを実行することで時間はかかりますが自動的に抽出することが出来ました。
スクレイピングの具体的な方法に関しては、後日Qiitaの方で記事を投稿するのでそちらをご参照下さい。

さて、スクレイピングして各公演毎にTwitterの感想が一つずつデータとして格納されたファイルが用意できたら、ここからがいよいよデータサイエンスのメインとなります。
ここで、Twitterの感想からどのような形で舞台のジャンルや特徴が分けられるかをイメージしていきましょう。

Twitterの感想には様々なワードが含まれています。舞台を観劇した感想なので、「面白かった」「楽しかった」といった感情を表すワードは頻出しますが、その他にも役者の名前や劇場の名前、舞台のストーリーに関するワード、「照明」「音響」といった舞台美術に関するワードなど様々あると思います。
その中で、舞台のジャンル・特徴分けに使えそうなワードは限られてきます。例えば、役者の名前や劇場の名前、劇団名は使えそうにありません。
使えそうなワードは、例えばミュージカルだったら「歌」とか「ダンス」とか「美声」とか「熱唱」とかになるでしょう。コメディだったら「笑い」とか「爆笑」とか「ツボ」とか「ボケ」とかになるでしょう。
このような感じで、舞台のジャンル・特徴分けはTwitterの感想に含まれている固有名詞を除いた名詞である程度見分けがつけられそうな予感がしました。

そこで、今度はスクレイピングによって抽出された各公演毎のTwitterの感想データの文章に対して品詞分解を行って名詞だけ取り出そうと思いました。この時私は「形態素解析」という処理を行いました。形態素解析とは、「文法的な情報の注記の無い自然言語のテキストデータ（文）から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素（Morpheme, おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの形態素の品詞等を判別する作業」（wikipediaより）を指します。
分かりやすく説明すると例えば公演の感想で、「大泉洋さんの演技がとても面白かった」という文章があったとしたら、「大泉洋（名詞・人名）」「さん（接尾語）」「の（助詞）」「演技（名詞）」「が（助詞）」「とても（副詞）」「面白かっ（形容詞）」「た（助動詞）」という様に品詞で分けていくということです。
そして今回の舞台のジャンル・特徴分けで使えそうなのは名詞のみなので、形態素解析後は名詞に絞っておきます。
この形態素解析もプログラミングによって実行させているのですが、詳しくは後日Qiitaの方で記事を投稿するのでそちらをご参照下さい。

ではここからは、具体的にいくつかの公演をピックアップして、その公演のTwitterの感想に含まれるワードの種類とそのボリュームについて見ていきましょう。
今回は、各公演に含まれるワードの種類とそのボリュームが分かりやすく表示されるように「Word Cloud」というものを作成してみました。
Word Cloudはどこかで見かけたことある人もいるんじゃないかと思いますが、あるテキストに含まれているワードをボリュームの多いものは大きく、ボリュームの少ないものを小さく可視化した図のことです。

文章で説明しても伝わりにくいと思いますので、早速具体的な図をお見せしたいと思います。
まずは、2019年秋に本多劇場で上演された劇団柿喰う客の新作公演「御披楽喜」のtwitterの感想をWord Cloudで可視化してみました。私自身、こちらの公演は実際生で拝見はしておりませんが、自粛期間中にYouTubeにアップされていた映像を拝見して、恐ろしいセリフ回しの速さとスピード感に圧倒された記憶があります。

柿喰う客の「御披楽喜」のTwitterの感想の名詞をWord Cloudで可視化した結果はこちらです。

wordcloud_柿喰う客新作本公演『御披楽喜』ご感想まとめ

「柿喰う客」といった劇団名、「本多劇場」といった劇場名も入ってしまいましたが、Word Cloudをご覧いただくと「セリフ」や「スピード」「エネルギー」「情報量」「テンポ」「痴気」といった台詞回しの速さやスピード感の凄い作品だったことが強く感じられるワードが目立っていることが分かります。

続いて、2019年に東京と大阪の二都市で上演された、劇団壱劇屋の「PICKA ROON!」のTwitterの感想をWord Cloudで可視化してみました。
劇団壱劇屋は、関西を中心に活動するダンスパフォーマンスと殺陣演技を主軸とした演劇団体です。

壱劇屋の「PICKA ROON!」のTwitterの感想の名詞をWord Cloudで可視化した結果はこちらです。

wordcloud_【東京公演】東阪二都市ツアー2019劇団壱劇屋「PICKAROON!」感想まとめ

目立つワードは、「殺陣」「カッコ」「アクション」「迫力」「キレ」「武器」「衣装」「盗賊」といったいかにもエンタメチックで殺陣演舞も組み込まれた見応えのある舞台だったことが伺えるかと思います。先ほどの「御披楽喜」とはまるで系統の違う作品であることがWord Cloudからも伺えます。

次に、2020年2月に再演された青年団の「東京ノート」「東京ノート・インターナショナルバージョン」のTwitterの感想をWord Cloudで可視化してみました。
「東京ノート」は私も吉祥寺シアターで千秋楽を観劇しましたが、物凄く独特な世界観で舞台上で複数の役者が同時多発的に発話をするという会話劇で、自分がまるで喫茶店の中で見知らぬ客の会話を盗み聞きしている錯覚に陥りました。詳しい感想は、下記のリンクに書いていますのでご参照下さい。

青年団の「東京ノート」のTwitterの感想の名詞をWord Cloudで可視化した結果はこちらです。

wordcloud_青年団『東京ノート・インターナショナルバージョン』『東京ノート』感想まとめ

これもまた今まで出てきた「御披楽喜」や「PICKA ROON!」とは全く異なる可視化結果になっています。
「東京ノート」は会話劇なので、「会話」「台詞」「戯曲」「同時多発」「発話」といったワードが目立ち、先ほど私が書いた「舞台上で複数の役者が同時多発的に発話をする」という感想ともリンクするような結果になっているのではないかと思います。また、「美術館」「絵画」「フェルメール」「戦争」といった「東京ノート」のストーリーの舞台設定や背景と関連するワードも散見されます。

最後に、2015年秋に上演され池袋演劇祭にも出展されたインプロカンパニーPlatformの「その探偵の名、」のTwitterの感想をWord Cloudで可視化してみました。
インプロカンパニーPlatformは、インプロ（即興劇）を主軸に演劇活動を行うパフォーマンスチームで、インプロ業界を代表する劇団といっても過言ではないでしょう。

Platformの「その探偵の名、」のTwitterの感想の名詞をWord Cloudで可視化した結果はこちらです。

wordcloud_「その探偵の名、」感想まとめ

このWord Cloudの結果も、今まで登場した３公演と全く異なるワードの集まりであることが分かります。
まず注目したいのは、「インプロ」「即興」といった即興劇・インプロに関するワードが目立つことが分かります。これは即興劇なので当然の結果かもしれません。
また、「探偵」「犯人」「推理」「容疑者」「事件」といったサスペンス要素のあるワードもかなり目立っていることが分かります。ここから、「その探偵の名、」のジャンルはサスペンスであることも分かりますね。きっとある事件の犯人を追う探偵になった気分で即興芝居をやったみたいな作品なのでしょう。

もっと沢山の公演のWord Cloudも見ていきたい所なのですが、キリがないので一旦ここまでにしたいと思います。
このように、Word Cloudを使って公演のTwitterの感想に使われているワードとそのボリュームを可視化することで、ある程度その公演のジャンル・特徴が感想に使われるワードで分けられそうであることがお分かり頂けたかと思います。柿喰う客の「御披楽喜」だったらハイテンポな舞台、壱劇屋の「PICKAROON!」だったら殺陣舞台、青年団の「東京ノート」だったら会話劇、Platformの「その探偵の名、」だったらインプロ×サスペンスと。

ただ一つ一つ公演毎にWord Cloudを作成して舞台のジャンル・特徴を判定していると日が暮れてしまうので、データサイエンスを使って公演感想に使われたワードから自動的に舞台のジャンル・特徴を生成して分けていく手法をこれからは使っていきます。その手法こそ、タイトルにも書かれている「トピックモデル」という自然言語処理の応用技術なのです。

ですが、トピックモデルの話については続編の「データサイエンス×演劇　〜トピックモデルによる舞台のジャンル・特徴分け　PART2〜」以降で紹介させて頂き、本記事はここまでとさせて頂こうと思います。
PART2以降では、トピックモデルとは一体何なのかという説明と、全2623公演に対して舞台のジャンル・特徴分けをした結果、どんなジャンル・特徴が現れたのかついて見ていくので、是非そちらもチェックして頂けると嬉しいです。
PART1からいきなり長文の記事となってしまいましたが、最後までお読み頂きありがとうございました。
ではでは。

この記事が気に入ったらサポートをしてみませんか？