見出し画像

第一回! TIFに出るとしたらどのSideMユニットがよさげなのか検討会~!! #MマスP自由研究大会2022夏

こちらのTwitter企画に参加しています

アイドルマスターSideMと自由研究というワードが同時に目に入ったのは、確か企画発表があった当日のことであった。なるほど、こんな機会を使わないと絶対にやらないけれど、一個検証したいことがある。当社比、夏休みの自由研究にはぴったりだ。提出するのは9/1というのも、いい。私は山下次郎Pだ、彼の誕生日を祝うことにもなろう。

ところで、私は8割ほど宿題をやったあと達成感に満ち溢れて全てを忘れ、残り2割(自由研究など)を夏休み終了直前に思い出し、実は工数にすると5割くらいまだだったことに気付くタイプである。ここまで来る前に、少し泣いた。

あらすじ

TIFとは、Tokyo Idol Festivalの略。イメージを伝えるならば、アイドルコンテンツを嗜むと分かる「最後の方に出てくるでけえフェス」だと思ってほしい。
三次元においても、ここに出られることをアイドルちゃんたちはまず目指している。気がする。

私はかねてから悩んでいた。アイドルマスターSideMのアイドルをTIFに出すならば、一体どのユニットがいいんだろう、と。男性が出られないとか言っている人は二丁目の魁カミングアウトを聞いてください。私は『リバ』で踊り狂うくせに『LOUE』で毎回泣きます。いやしかし、VをUにして不完全な愛を表現するのはただひたすらに天才なのよ……そう言うの好きでしょプロデューサーさんたち……

話が大きくずれた。女性アイドルだとフィロソフィーのダンスのファンだ。
今回は、定量的な観点でなんとか出場させるアイドルを決定できないものか、試してみることとした。

予想

もふもふえんが勝つ気がしている。理由は弱くて、「最近のアイドル名ってこんな感じなとこがある」という、ただそれだけ。一方、神速一魂とか彩、S.E.Mは負けそうな気がする。神速が「神に愛されし速さで燃やす唯一つの魂」を略して「神速一魂」だったら、ワンチャンあったか。

ちなみに、この4組を出したのは担当が所属しているからであって、他意はない。

使用するデータ

今回はTIF2022の出場アイドル一覧、これだけを参考資料として採用することとした。このページだけで200組強のアイドルが名を連ねている。
なお、今回は詳細な検証は省いた。例えば、各出演者がソロなのかユニットの一部なのかで分ける、などの集計はしていない。また、パフォーマンスするアイドルたちのみにターゲットを絞り込むため、チェアマンである長濱ねる氏は除いている。

名前データ抽出

今回は、一番やりやすげな名前からの推定を行っていく。
データ抽出を行う際に登場するのは、どこのご家庭にもあるPower Automate Desktopである。

……どこのご家庭にも、は盛り過ぎだが、どこのWindows 10以降のPCをお持ちのご家庭でもやろうと思えばやれるのは本当だ(無料版が使える)。説明をきちんとやろうとするとむちゃくちゃ面倒なのでざっくり言うと、「手でペチペチやっているような仕事を自動でやってくれるアプリ」である。悪用はするな。
本アプリを使ったことはなかったが、こういう感じのことはするタイプの副業についているため、比較的スムーズに作業を進められた。勘とフィーリングとGoogle検索でふんわりとアイドル名称抽出フローを作っている。変数名とかも適当にそれらしき名称をつけてくれるので、すべてを委ねた。分かる人向けの書き方をすると、とっつきづらさはあるものの、順番に何個かの取得したいdivを選べばそこからループを予測し、CSSセレクタを自動でいい感じに作ってくれるのが最高に便利だ。それをちょっといじる(:eq消すくらいのもん)だけで対象のdivを一括で指定できてめっちゃ楽であった。少なくとも、コーディングをするよりは早く組めたと思う。

黒塗りはファイル名

ちなみに、データを自動で取ってくるとか言う話を聞くと「ンマー! サーバに負荷! F5アタック!」みたいな反応をされる方もいるかもしれないが、このツールで画面を開く回数は最初の1回のみ。人間が見るのと変わらねえな、ということで、ご容赦いただければ。
このフローの実行結果として、229行に渡るアイドル名リストが完成した。Wikipedia上での数と一致しているので良しとしよう。

黄色枠は「全角入っとるぞ」エラー、無視してください

追記(2022/09/03)

私からのお願いです。

ここで単語間類似度の計算に頓挫する

本当はもりもりプログラムを書いて、SideMアイドルユニット名とTIFアイドルユニット名との類似性を示すよく分からん数字を取ってきてどうこう、とかしたかった。わかる人向けだと、本来は Python × gensim × word2vec で遊びたかったのである。
しかし、私が試したかった方法ではそれぞれが出てくる文章がある程度のボリューム必要らしく(詳しくないので流し読みレベルだけど、文脈に出てくる時の形や周りで使われている単語がどのくらい似ているか、で類似度を測るのが一般的っぽい)、今回の検証で200オーバーのアイドルに関する文章を集めるのは残り時間的に無理であり、使うことができなかった。

調べた方法と種類

  • 文字数

  • 文字バイト数(今回使わず)

  • アルファベット/数字/ひらがな/カタカナ/漢字/全角半角記号の利用有無

とはいえせっかく出したリストだし、スプレッドシートに流し込み、アイドル名ごとの文字数とか出てきた文字種とかで判定をして、どのユニットを出すのがよいのか、雑にでも検討していくことに。
Googleスプレッドシートでの作業だったので、文字数はLEN関数、文字種の抽出はREGEXMATCH関数でごりごり抽出。結果をピボットテーブルに落とし込んだ。

調査結果

文字数

シャニマス除外前

ちゃんと差が出てびっくり。ただし、TIFの文字数最大値の31文字は身内である「アイドルマスターシャイニーカラーズ (ストレイライト、シーズ)」だ。やだなあびっくりさせるなよ、と一旦このデータを削除したところ、最大値は26文字の「月に足跡を残した6人の少女達は一体何を見たのか...」になった。十分長いしなんかすごい設定だ。長い理由はそもそも被らない名前って長くなっていくものだからと、「略称ありき」だからなのかしら、という印象。ちなみに前述のアイドルさんの略称はツキアトとのこと。足跡以降の残り22文字はどうした。ちなみにシャニマス削除後でも平均値の1の位、8に変化はなかったため、TIFアイドル名称の平均値は8文字という結果にブレは出なかった。
対してSideMは最小文字数の1文字ユニットを2つ(W、彩)抱えるなどだいぶコンパクト。一番長いのは「DRAMATIC STARS」だった。言われてみればそう。

結果から見ると、選抜するのは8文字前後(7~9)のユニットで良さそう。

文字種

見づらいのですが心の目で感じ取ってください

TIF、SideMともに、一番多いのはなんとアルファベット(とスペース)のみで構成されたアイドル名だった!!

よく考えたら当たり前なんだわ。
逆に、TIF側の34.50%ってめちゃくちゃ低い印象。
ここからは完全に推測だが、TIF側はまずソロアイドルを抜いていないことから少なめに出るのはなんとなく分かる。それでも少ないけれど、カタカナのみアイドル名が11.35%となっており、足すと45%くらいになって、なるほどカタカナで英語を書いてるのかもね感が出てくる。アイドルマスターシャイニーカラーズ(ストレイライト、シーズ)の SHHis みたいな扱いのアイドルがいるのか、そもそも正式名称からアルファベット表記をカタカナにひらいて書くのが流行っているのか。略称考えるときはカタカナのが楽かも、そういえば。

とりあえず、TIFの分布率トップ3は以下の順位なので、SideMでも同様の条件で残るユニットから選ぶこととする。

  • アルファベットのみ

  • カタカナのみ(SideMには存在しない)

  • アルファベット+記号

結論

アイドルマスターSideMからTIFに合わせた参戦をさせるなら、このユニットから選ぼう!!!

7~9文字でアルファベットのみor+記号
  • Jupiter

  • Altessimo

  • Legenders

  • C.FIRST

TIF側の文字数中央値(7.00)を加味すると、ジュピとクラファがよりベターと言える。
思ってた100倍「ガチでよさそう」な結果になってしまった。クラファが残ってるのがすごい、いい。もしかして、きちんと令和アイドル戦争の傾向と対策を考えたのか……? ないか……。
また、文字数だけだと「THE 虎牙道」が入ってくるのだけど、文字種で抜けてしまった。TIFの性質を考えると、意表を突くためにあえてお出しするのはありだけれども、合わせていくなら確かに選ばないかな、感がある。これもまた割と納得できる結果。

考察と感想

本来やりたかったことが頓挫してしまったので最終的には雑な分析を行っただけとなった本自由研究であったが、雑なりに割と許せる結果も出せたし、「アルファベットだけ名称が減ってる」という、近年のアイドル名に感じていることを実際に手で得ることができたのはよかった。
選ばれたからには思う存分TIFでも戦ってきてほしい(SideMの出演予定はありませんし、今年のTIFは終わっています)。

追加研究するとしたら、アイドルに関する文章を集める仕組みを作って(Power Automateともうちょい仲良くなればいけるような気がしている)マジの類似性抽出に着手するとか、あるいは「2013年・2014年ごろのTIF出演リスト」を使って同様の比較をするのがよさそう。多分だけど、古いデータのほうがSideMの割合に近くなるのだろう。近くならないんだったら、アイドルマスターSideM自体がオーパーツの可能性がある。マーケット調査関係なく設定を決めて、8年残ってることになるわけで……。

他の観点を加味していくとしたとき、やりたかったのは「全宣材写真の色平均を取ってSideMのユニットカラーとあてる」である。分かる人にしか伝わらない話をすると、TIFのサイトの宣材写真はCSSで背景として埋め込んであり自動取得が一筋縄ではいかず、かつ、ファイル名を統一してフォルダ名でユニークを保たせる「保存を絶対許さない」仕様になっており、心が折れてしまったのであった。これももうちょい長く時間取ったらやれそうな気はしなくもない。

次回のお題は検討中。というか、これを機会に「なんか勉強しといたほうがいいのは知ってるけどやる元気がない」系統の学習はSideMを絡めてやればできてしまうのかもしれない、と思った。ある程度頭で理解できている情報で遊ぶのはとても楽しいということが分かったからだ。
例えば、ゆくゆくは、クソイベントタイトル予測(むちゃくちゃありそうだけどバカ)とか作りたい。これは最悪バッティングによりゲームに迷惑をかける可能性があるので、さすがに非公開である。マジで死んでもかぶらないものが出来上がったら公開もあり得るので、どうぞ私のクソタイトル作成能力に期待していてほしい。

謝辞

この投稿を作るきっかけをくださったすずな様、ばりばりモダンなフロントエンドからサクッと名前を吸い出してくれたPower Automate Desktop、標準で正規表現が使える関数を用意してくれているGoogleスプレッドシート、こんな茶番をこんな最後まで読んだあなたに、ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?