なろうの傾向の噂が本当か今時小説サーチエンジン作っているプログラマが色々と調べてみたよ!【ノベレコ通信番外編】

長い話になるので先に結論から置いておくが、私がプログラム担当している【Web小説サーチエンジン】ノベレコに、『小説家になろう』の新着チェックの為に使いやすい機能を新規実装したので、みんな使ったり広めたりしてね!!

【Web小説サーチエンジン】ノベレコについては以上のツイートに貼ってあるURLとnote記事を参照してほしい。


小説家になろうでは本当に長文タイトルしか読まれないのか?

まず発端の話をしよう。
もう何度目になるだろうか、ツイッターを見てたら「小説家になろうでは長文タイトルや追放ざまぁや現代ダンジョンしか読まれないんだよ!!それ以外は全部無駄なんだよ!!」という趣旨の嘆きの声が流れてきた。

流石に晒し上げることはしない(というかRTしてなくてどのツイートか忘れたので持ち出せない。ごめんね!)。

(ちなみに筆者はあれらを「長文タイトル」ではなく「口語調タイトル」「自慢タイトル」「出落ちタイトル」と呼ぶべきだと主張しているが、それについては以前記事を書いたので省略し、本記事では「長文タイトル」で統一することにする)

上記記事を書いたりするように、昨今は「長文タイトル」が流行しているという認識はかなり一般的なものとなっている。

一説によると当たり判定問題のせいとも言われるが、今回は原因ではなく真実であるかどうかが気になる。

そういう訳で、せっかくプログラマースキルを持っているので、それを活かして調べることにした。そしてついでにサイト宣伝の一環としてノベレコ側のnoteアカウントに記事を掲載させていただいた。

なろうランキングのタイトル文字長変遷

「小説家になろう」は、親切にもサイトの投稿作品情報を記録して外部からAPIを使い即取得できるようにしている仕組みが提供されている。
それを用いることで過去のランキングを取得し、変遷を調べてみた。

以下の画像はキャプションに示された月における四半期累計ランキング100位までのデータである。

2015年1月

消えてる作品などあったりするデータではあるが、2015年の頃は最頻値が10文字台、平均値も15文字前後であった。

2016年1月

2016年は2015年と特筆するほどの差は見えない。

2017年1月

2017年1月は最大タイトル長82文字が現れ一気に平均値があがるものの、まだこの時点ではそこまでの文字数は外れ値であった。

2018年1月

2018年になると、10文字台と20文字台の量が同等程度になった。
最大タイトル文字数は大幅に減ったが、代わりに平均タイトル長は順調に伸びている。

2019年1月

2019年は最頻値は10文字台に戻ったが、40文字以上の数も徐々に増えだしている。

2020年1月

2020年は遂に平均タイトル長が30文字に達する。
最頻値も30文字台へ。

2021年1月

2021年は遂に最大タイトル長100文字フルに使った奴が登場。
文字数分布もかなり全体的に広がっており、平均文字数もなんと47文字。
おそらくこれが「長文タイトル」のピークだろう。

2022年1月

そして今年の頭。
100文字フルに使ったタイトルが入ってなく、平均タイトル長も36文字まで後退したが、それでも2015年と比べると大きく変化していることがわかる。

結論として、文字数にだけ着目すれば、実際に数年前と比べて「長文タイトル」化の傾向が進んでいること自体はデータ的事実であると言うことができるだろう。
ただ、10文字台以下もランキング最上位から絶滅している訳ではないので、これを以って長文タイトル「しか」読まれない、と表現するのは些か早計であるかもしれない。

なろうに投稿されるのは「長文タイトル」ばかりなのか?

ランキングの「長文タイトル」化は概ね真だというのが解った。
であればその外、ランキングの載ってる奴載らない奴全部ひっくるめた投稿傾向であればどうだろうか。
極論、投稿されてる奴の9割が長文タイトルとかだった場合、全体の比率がランキングに反映されているだけであり偏りとかは無いと言えるのだから。

という訳で、ジャンル別に分けて一週間分の新着データを取得し、その文字数分布を調べてみた。

異世界恋愛
現代恋愛
ハイファンタジー[異世界転生]
ハイファンタジー[異世界転移]
ハイファンタジー[転生・転移含まず]
ローファンタジー
VRMMO
SF[VRMMO以外]

……な、なんか見事なまでに全部10文字台を最頻値とした山型分布!!
割合も現代恋愛とSF[VRMMO以外]が30%台後半、異世界恋愛が26%だが、他はだいたい3割前後が最頻値の10文字台となっている。
何文字からが「長文タイトル」なのかについては個人の意見差があるだろうが、投稿されているタイトルはそんな40文字も50文字もある奴ばかりではないようだ。

……と感じてしまうのは十分にインフレに毒されている、と記事を書き上げた後に気づいた。
「長文」と言うほど長くないが、文章タイトル代表である「俺の妹がこんなに可愛いわけがない。」ですら17文字である。20文字越えたらそれは十分長い方に分類されるのではないか!?

なろうでは追放ざまぁや現代ダンジョンしか読まれないというのは本当か?

そしてもう一方、こちらの方である。

実際、筆者も現代異能バトルを求めているのにローファンタジーランキングで漁っても現代ダンジョンしか出てこねえ!と頭を抱え続けていたので体感的には解る話である。

しかしせっかくデータが取れるのだから、データを取らずに語ってしまっては手落ちであろう。と言う訳で調べてみた。

調べ方はこうだ。
なろうAPIを使い、指定したジャンルで一週間のうちに更新された作品の情報を取得。
それをポイント順にソートし、指定したワードが入ってるかどうかを調べてグラフ化する。

ローファンタジーにおける「異能力バトル」密度
ローファンタジーにおける「異能力バトル」率

試しに取得してみた「異能力バトル」の出現密度がこれだ。
黒い部分が出現している作品で、白い部分がそうでない作品となる。
ポイント順にかかわらず、全体的に満遍なく、3割ぐらいが異能力バトルだった。

ローファンタジーにおける「ダンジョン」密度
ローファンタジーにおける「ダンジョン」率

………そして、「ダンジョン」の出現密度がこれだ。
全体のわずか1割未満でありながら、その多くがポイント最上層にいる。
調べた週に投下された現代ダンジョンものの約半分がその週のポイント上位1割に食い込んでいるし、その週に投下された作品のポイント上位1割の約半分が現代ダンジョンものなのだ。
これは事実「偏っている」と表現してもいいだろう。

非転生転移ハイファンタジーの「追放」密度
非転生転移ハイファンタジーの「追放」率
非転生転移ハイファンタジーの「ざまぁ」密度
非転生転移ハイファンタジーの「ざまぁ」密度

非転生転移ハイファンタジーの「追放」「ざまぁ」もかなり密度が寄っている。
(非転生転移で括っているのはそれらを含めると週間更新数が多すぎて全取得出来なかったからである)
しかもこれは「非転生転移ハイファンタジー」の括りにおいてのみの顕著だ。

異世界転生ハイファンタジーの「追放」密度
異世界転生ハイファンタジーの「追放」率
異世界転生ハイファンタジーの「ざまぁ」密度
異世界転生ハイファンタジーの「ざまぁ」率

意外にも、異世界転生ハイファンタジーの括りではそんなに追放ざまぁの密度は高くない。

異世界恋愛の「追放」密度
異世界恋愛の「追放」率

むしろこここそが本場だろうと思っていた異世界恋愛ジャンルであっても、追放ジャンルは僅か3%とそんなに多くなく偏りもそこまで無い。

異世界恋愛の「ざまぁ」密度
異世界恋愛の「ざまぁ」密度

その代わり、ざまぁはそれなりに多かった。上位出現率もそれなりに高いがハイファンタジー程の酷い偏りを見せてはいない。

異世界恋愛の「婚約破棄」密度
異世界恋愛の「婚約破棄」率

追放の代わりに婚約破棄が使われているのでは、と念のため調べたが、こちらもざまぁと似たような感じとなった。


全てのジャンルにおいてそうという訳では無いが、ジャンル内において評価されている度が異様なまでに偏っているタグは実在する。
この極端な偏りから一つの仮説が生まれる。

ダンジョンや追放ざまぁがランキング最上位を埋めているのは、ポイントを入れるタイプの読者がそれらのタグを検索して巡回しているから、それらにポイントが溜まる傾向にあるのではないかと。

つまり、これらはまさに「流行ってるからポイントが入っている」のだと考えられる。
(無論、それが実際にポイント入ってる作品の価値を貶めるという話ではない。逆にポイントが入ってないことを以てそれらの流行タグを使っていない作品の価値を貶めるなという話に繋げたいのだ。)

「小説家になろう」ではなく「カクヨム」の話ではあるが、それを裏付けるようなデータがある。

添付画像に写っている間中、常に「ざまぁ」が最上位にある。
と言うかなんで浮気とか寝取られとかが入ってるんだよこれ。その需要は全年齢サイトよりもノクターンやDLSiteに行くべきじゃないのか。

とにかく、Web小説サイトを使う層の中に「検索してまで『ざまぁ』を読みたい」層がいると言うのはこうやってデータになっていると言っていい。
逆説、この検索リストランキングこそがジャンルとしての母体支持層の強さであり、ここに入っていないワードが主ジャンルである作品は、内容の面白さを評価してもらう以前に、見つけてもらうことすら困難であることが伺える。
それはシステムとして「正しい」かもしれないが、「悲劇」だ。

以前ノベレコで取ったアンケートでは、Web小説を探すのに使っている手段に「ランキング」「検索」と回答した人が約半数以上で最上位だった。
(そういえばこちらも記事にすると言っておきながら担当者がそれを数ヶ月忘れているので、後でプログラム担当からしっかり怒っておきます)

以前のノベレコアンケート

ランキングを形成するにはまずランキング以外の部分からスコップしてポイントを投じる人間の活動が必須なので、言葉にすれば当たり前だが「検索してポイントを投じる人」によってランキングの基礎は成り立っている。

つまり、風潮を変えたいと思うのであれば、同じジャンルの愛好家に声かけて、積極的に作品のタグ検索からのスコップ&ポイント投じをやっていくのがいいのだと思われる。
君の一票が風潮を変える!と表現すると、だいたい選挙みたいな話になってくる。


だがしかし、スコップ作業というのは楽ではない。
大抵の人は確固たる意志を持ってこのジャンルタグが読みたい!とまでは思っておらず、ぼんやりと「面白そう」な奴が読みたい、でランキングに突入し大雑把な中から探しているのだと思われる。と言うか自分がそうである。

なので求められる要素はこれらだ。
・多くの作品が並んでるのを一度にざっと見ることができる
・ポイントが入っているいないに関わらず一覧の中に入っているのが見える
・ランキングとの差別化のため、長文タイトルや流行タグなどの所謂「ランキング受け」している要素を抽出し、それが強い奴とそうでない奴とで領域を分ける

これらを満たした感じの奴を、せっかくなので作ってみた。


小説家になろうではどれだけの作品が投稿されているのか?

遥か遠い理想郷、まだ小説投稿板のスケールが小さかった時代、投稿作品のチェックは主に新着を見ることによって行われていた。
ただそれはまだスケールが小さかった時代だから出来た話。現代においては小説家になろうだけで1日に数千作品もの投稿が行われているので、とてもじゃないが人間の手では追いかけきれない分量だ。

が。この1日に数千作品も、意外と数字のトリックがある。

最近の環境では、毎日投稿するような奴も多い。
調べた範囲では1日に約4千件更新されていたが、
その調査スケールを一週間に伸ばした場合、更新作品数は約1万1千件。
二週間に伸ばした場合、約1万5千件。
膨大な数値であるのは間違いないが、約1万作品が毎週更新以内の間隔で投下されていると言える。
つまり、毎日更新を確認したところで、その大半は昨日も確認したわコレみたいな奴になると思われる。
要するに、新着チェックはそんな毎日全部見ずとも良い。

更に、これらはジャンルを横断して全部まとめた場合の話だ。
なろう公式が用意しているジャンルで分類すると、数は更に限られ出す。
試しに作成中に調べた「一週間分の投稿量」がこれだ。

恋愛[異世界]全1431件
恋愛[現代]全896件
ハイファンタジー[転生]全1453件
ハイファンタジー[転移]全1363件
ハイファンタジー[その他]全1854件
ローファンタジー全1217件
文芸[純文学・ヒューマンドラマ]全800件
文芸[歴史]全215件
文芸[推理]全98件
文芸[ホラー]全161件
文芸[アクション]全312件
文芸[コメディー]全291件
SF[VRMMO]全253件
SF[その他]全395件
その他・ノンジャンル全300件

(*ハイファンタジーが三分割されているのは、投稿数が多すぎるので分割しないとデータが取得しきれない為)

人気ジャンルで1500前後、そうでないジャンルだと3〜400件ぐらい。
これは本屋の棚1〜2つ分ぐらい、つまりこの中から流し見してピンと来る奴を手に取る程度なら本屋に行けば誰でもできる程度の量にまでなっている。
意外と新着スコップも怖くないように見えてくるのではないか?

ベイズの定理を利用した長文タイトルらしさ分析

こう銘打つとめちゃくちゃ格好良く聞こえるが、やること自体は単純だ。
まず、莫大な数の小説タイトルとタグのセットデータを用意し、それを「長文タイトル」とそうでない奴に分類する。
そしてそれらに含まれている語とタグを分析し、ある語やタグが出てきた場合、もしくは文字数の長さに応じて、何パーセントの確率でどちら側に存在するかを計算する。
それによって作られたデータと、新しく投げ込まれた作品のタイトル・タグを照らし合わせて、どのぐらい「長文タイトル」の可能性があるだろうかを計算する。

そう、やることは単純なのだが、最初に必要なマンパワーが意外と多いのだ……!

集めたデータの一部(タイトルにはぼかしを入れさせて頂いております)

今回は約5000強の作品を収集し、それらをノベレコ運営スタッフの手により感性分類した。

解析したデータの一部

そしてそれらを分析し、このように、このワードが出てきたら何パーセントの確率で「長文タイトル」側にいるかを計算、確率上位で一定回数以上の出現率があったものをキーワードとしてピックアップした。

タイトル長の分析

また、タイトル長でも分析し、こちらも文字数に応じてどのぐらいの確率で「長文タイトル」として判定されるかを計算した。
本調査によれば大体20文字台あたりから「長文タイトル」判定されるものが目立ちだし、40文字を超えればその殆ど全てがスタッフからは「長文タイトル」だと判断されたので、このデータは皆様も活用してほしい。

即興で考えた例1
即興で考えた例2

そして作られた判定器がこんな感じである。
引っかかったキーワード欄を見れば、所謂「構文」に使われている部分が抽出されているのが解るだろうか。

小説家になろう新着作品チェッカーを作ってみたよ!

そして実際にサイトに実装されたものがこちらである。

実物画面(タイトル・作者名は伏せさせて頂いております)

収集してきた作品をシンプルに一覧化。
データ収集開始から初出の作品が解るように色つきでハイライト。
完結・初出・一つのラインとして言われる10万字以上以下でピックアップ出来るような機能を実装。

サイトにユーザ登録しログインすることで、登録したお気に入りタグを有している作品の左側をハイライト表示し、リストのどこに注目すればいいか解るように。
画像には載っていませんが、当サイトでお気に入りリストに登録した作者の別作品もハイライト表示する機能がついており、新作が始まった時に見つけやすくする機能も搭載。

レベル5の終盤(タイトル・作者名は伏せさせていただいております)

そして前述の単純ベイズ分類により、所謂「長文タイトル」に近いかどうかで五段階で分類し、ページ分けを設定。
ランキング受けしなさそうな奴を見つかりやすくするだけでなく、逆に「ランキング受け」しそうなものを狙って探すことも出来る。

スタッフ内で実際にテスト利用してみた感想の声を掲載する。

「ランキングからは見つけにくかったローファンタジーの現代伝奇やボーイミーツガールが見つかってブックマークが充実しました!」

「タイトルの傾向に応じてまとまって掲載されているため、文字数差が違うタイトルを連続で見た時に目が滑る現象が発生しにくくて済むね」

「1ページに数百件載ってるのは多いのではと最初思ったけれども、10件20件ごとにページ送りボタンを押すより楽かもしれない」

「これ作ってる間に昔ブクマした作者が新作書いてたのに気づいたのでこれで発見できたわサンキュー」

「ゼロ年代の頃に匿名板のSS投下まとめでずらりと並ぶタイトルを見て漁ってた時代を思い出して懐かしい」

とりあえず、概ね好評であった。

これでランキングだけでなく新着からも作品を探してみる行為が活発化すれば幸いだ。
そしていい奴が見つかったら、是非ノベレコに登録してみんなに広めるのに協力していただければありがたい。



この記事が気に入ったらサポートをしてみませんか?