見出し画像

ヨルシカの歌詞はあ行から?統計からわかるヨルシカの歌詞の特徴?

はじめに

この記事は、熊本大学工学部公認サークルKuMA(Kumamoto university Metaverse Architect)のアドベントカレンダー第9日目の記事です。

KuMA(Kumamoto university Metaverse Architect)とは直訳で「熊本大学メタバース・アーキテクト」です。

その名の通り、メタバースでの新しいVRの在り方の研究・開発、それを応用したVRゲームの開発など、主にVR技術を中心に活動をしています。

(HPはこちら)


このような活動をしている中で、ヨルシカの歌詞の分析なんてメタバースに全く関係のない記事を書いてもよいのでしょうか……?

なんだかとても心配になったので、代表に聞いてみましょう。

代表とのライン(掲載許可済み)

はい。どうやら大丈夫そうですね。

では、

私はヨルシカの文学性の高い歌詞と、サビに入ると突き抜けてくるようなメロディがとても好きで、よくイヤホン越しに聴き、歩きながら歌っています。

ある日、道行く人に怪訝な顔をされながら、ふと気付いたことがあります。

「ヨルシカってあ行から始まる言葉が多くないか?」

気になっては仕方ありません。調べてみましょう。

(一応ここで保険をかけておきますが、この記事は趣味と冗談で書いているので、叩けば叩くだけ埃の出る、古い布団みたいな記事です。「へー、そんなこともあるんか。おもろ。」くらいの気持ちで見ることをお勧めします。)



調査方法

まず、どのように調べるかの大まかに説明すると、以下の3通りで行います。

1.日本語全体を調べる

2.ヨルシカの歌詞を調べる

3.できたグラフを見比べてみる

調査とその結果

1.日本語全体を調べる

さて方針が固まったので、実際に調査を始めていきます。

この調査をするにあたって、まずは日本語全部の言葉の分布が知りたいなと考えました。
そこで、goo辞書さんを用いまして、「あ」から始まる言葉、「い」から始まる言葉、……「ぼ」から始まる言葉というように検索をかけていき、単純にその検索数を合計しました。

そして、その結果をグラフ化したものが次の図1です。

図1 日本語全体の言葉の分布

「あ行」と「い行」が若干突出しているみたいですね。

次ッ!


2.ヨルシカの歌詞を調べる


用いる楽曲は、アルバムとして出している曲全曲です。

それら楽曲の「曲名」「歌いだし」「サビの始まり」の言葉を調べてみます。

歌いだしとサビの始まりについては、調査対象は1番だけを用いるようにします。

サビ始まりの曲に関しては、Aメロ始まりと同様にカウントします。

その他、サビの始まりは楽曲としての小節との兼ね合いは考慮せず、歌詞を参考にその始まりを決めています。

また、歌詞カードになくとも「ああ」とかが入っていたら感覚と独断と偏見で入れたり入れなかったりします。

その結果を示したものが以下になります。
図2がそれぞれの項目ごとの結果を示しており、図3がその合計値を表しています。

図2 項目別ヨルシカの歌詞はじめの統計


図3 ヨルシカの歌詞はじめの合計

やっぱりあ行が多いじゃないか!!!!!!!!!

特にサビの始まりに関しては、かなりその傾向が多く見られそうです。


3.比較してみよう

それぞれのグラフを並べて置いてみます。

図1 日本語全体の言葉の分布
図3 ヨルシカの歌詞はじめの合計

若干似てはいるものの、全体的にヨルシカの歌詞があ行が多いことがうかがえます。


結論として

図1と図3を見比べるとわかるように、「どうもヨルシカはあ行からはじまるらしい」ということがわかりました。

あ行というのは、日本語の母音の中で最も喉や口蓋を開く発音ですので、大きな音を出しやすく、一番盛り上がるサビの最初に用いられやすいのではないでしょうか。
突き抜けるようなサビという感覚も、ここから感じているのではないかと思います。
ヨルシカの作詞作曲のn-bunaさんであれば、敢えてそうなるように作っているような気もします。

以上より、ヨルシカはあ行から始まりやすいことがわかりました!!!









ここからが本番です


さて、先ほどまでの結論で「ヨルシカはあ行から始まるらしい」と言ってもよいのですが、腐っても私は工学部の身。そんな適当な結論でいいのでしょうか?

いや、良くない!!!

と、いうわけで

もう少し詳しく見ていきましょう。

そもそも、日本語自体があから始まる言葉が多く、「適当に日本語をとってきてもヨルシカと同じ分布になるのではないか?」という疑問が挙げられます。

それが否定できなければ、真にヨルシカはあ行が多いと言えないのではないでしょうか。


検定をやっていこう

このようなときには、検定をもちいるのがよさそうです。
しかし、一口に言っても検定には、t検定やu検定などいっぱいあります。


私「こんなふざけた趣味に合致する、クリティカルな検定なんてないですよね……」


ChatGPT「あるよ。」


私「え??」


chatGPT「あるよ。」

ありました。

こういう技術はじゃんじゃん使っていきましょうね。


さて

実際にこの"p値"が何を指し示しているかはいまいちよくわかんないですが、

おそらく、とある分布を持つ母集団からデータサイズ分(今回は171個)をとった時に、それがどのくらいの確率で起こりえるのかを表しているのだと思います。

例えば、Aが100000000個、Bが3個ある母集団から3つ取ったら、だいたいは[A,A,A]となるはずです。

でも、何回かやったら[A,A,B]になるでしょうし、もっとたくさんやったら[A,B,B]となるでしょうし、もっともっともっとたくさんすれば[B,B,B]になる場合もあるでしょう。

そして、その組み合わせのその起こりやすさがp値であると僕は認識しています。
つまり、p値が大きければだいたいその結果になりやすく、p値が小さければあまり起こらない結果であるといえるでしょう。多分。

これで間違った認識をしても僕は責任は取りません。


コードを用いてみていきます

では、Googe Colaboratoryを用いて実際にやってみましょう。

chatGPTに出してもらったコード

カイ二乗統計量とか何やらいろいろ書いてありますね。なんでしょうねこれ。

カイ二乗統計量:23.6
p値:9.49×10^(-5)

まぁでも、p値が低いということは、それだけ出にくい結果であったということでしょう。


ちょっと余談

さっきの結果からp値が出たのですが、他の値でも遊んでみます。

観測されたデータを母集団の約100分の1の値でやってみましょう

カイ二乗統計量 : 0.02
p値 : 1.00

ほぼp値が1のデータが出ました。つまり、「母集団から適当にとった時の、その標本の値の出る確率」という認識でおおむねあってるみたいです。


検定をしてみた結果

さて、結果としてはヨルシカの統計情報はp値が0.000095でありました。

これは、十分統計学的に有意な差があると言って過言ではなさそうです。つまり、ヨルシカの歌詞の始まりは何らかの偏りがあり、適当に日本語から選んできたわけでないということがわかるというわけです。

しかし、これはあくまでヨルシカの歌詞とサビと曲名の始まりが、日本語の言葉の始まりの分布から離れているという情報だけなので、あ行が多いことの証明にはならなそうですね。


まとめ

統計的に確認したところ、ヨルシカの歌詞は作詞者の意思で選ばれており、日本語の分布と比較して、何らかの偏りがある事がわかった。そして、図3からあ行が多く、それ以外の行が少ないことがわかるので、私達にはあ行が多く見えると考えてよいでしょう。

感想

さて、ヨルシカの歌詞について、いろいろ見ていきましたが、結構面白かったですね。
間違ってそうだなーとは思いつつも、案外好きなことについてなら、いくらでも調べれます。
駄文かつひどい検証でしたが、まぁアドベントカレンダーの記事なんてこんなもんでしょう。
ここまで読んでくれた方はありがとうございます。

そしてまだまだKuMAのアドベントカレンダーは続きます!
メンバーはじゃんじゃん書いていきましょう!!








ところで……

この記事の執筆中に気付いてしまったのですが、これって単に日本語の分布と比較しても仕方ないですよね?
日本語の用いられる言葉にはその出現率に重みがあるわけです。したがって、真に比べるべきなのは「他のアーティストさんの曲の歌詞」ではないでしょうか……??

…………….

やってみましょう……

データはYouTubeの人気曲top100から、ヨルシカの曲と同じ57曲抜粋しました。なお、日本語ではない曲やサビがよくわかんない曲は抜いています。

以下の図4にその結果を示します

図4 YouTube人気曲

比べてみましょう。

図5 ヨルシカとYouTube人気曲との比較

あ、まずい。だいぶ同じ分布だこれ。


おおおおおお、同じように検定で
ししししし、調べてみましょう。

今回、用いる検定はt検定です。
2群間の差を検定するときに使えます。

その結果がこちら(コードはChatGPT君に出してもらいました。)

^^;;

つまり、ヨルシカだけじゃなくて日本の楽曲はあ行から始まる曲が多いってことですね!!


うーーーーーーーーん、、、、


しっぱい!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!


この記事が気に入ったらサポートをしてみませんか?