脳内に存在する饒舌な批評家の舌を切り落とし、これからの同人小説官能小説作家が活躍するためののなろう18禁傾向分析について(20240614)
はじめに
昨年より本業の主担当業務が大幅に変わり、ナレッジマネジメント等最新の解析、分析のようなことを少しずつ手を付けなければならず、なかなか小説に着手出来ていないのですが、それでもなんとか紐付けようとobsidianや様々なAiに関する勉強をしています。
今回はその中で、20240614現在のなろうR18禁の傾向分析について、本業での作業にも関わる部分を用いて簡単な解析をしてみたので、その結果を共有したい。
なおこれはあくまで参考ではあるものの、解析の中でいわゆる「評価されるWEB小説の書き方」の仮説を含むため、該当箇所については有料部分とさせていただき、与太話に付き合っていただける方の、いわばおひねりとさせていただきたく存じます
それでは以下つらつらと
どうやって解析したか
これまでの自分の傾向として、この部分に時間を割きがちなのでここを意図的にサクッとまとめようと思います。
環境として
OS:windows
プログラム言語 python 3.10
主要ライブラリ mecab,sqllite3など
やり方
1 なろうR18小説情報抽出を実施。
こちらを使って、SQLLITE形式にデータを抽出。
いろんな情報を取り出せる環境を構築しました。以降これをなろうDB抽出と呼びます
2 形態素解析とワードクラウドの作成プログラミングを作成
上記あたりを参照しながら、Mecabによる形態素解析とワードクラウド出力実装を行いました。以降これをMecab解析、ワードクラウド解析と呼びます
簡単な解析結果:タイトルからみる、ノクターン、ムーンライト、ムーンライトBLの傾向
ここからが本題です。
なろうDB抽出により作品のタイトルをすべて引き出し、Mecab解析、ワードクラウド解析を行いました。
これによりMecab解析からは「タイトルに使われた名詞の頻出ランキング」を、ワードクラウド解析からは「タイトルに使われがちな名詞のワードクラウド」が導き出せます。
それぞれを完結作品を対象に見てもらうと、こんな形になります(20240614段階)
ノクターンのタイトル形態素解析結果(ワードクラウド)
![](https://assets.st-note.com/img/1718463156341-55B72VzE11.png?width=1200)
形態素解析頻出トップ20(数字は頻出度合い
話,4001
世界,2899
少女,2402
女,1335
セックス,1155
女子,1111
娘,1085
男,1070
美,1061
奴隷,1021
ハーレム,969
転生,928
こと,881
女の子,852
姉,803
幼馴染,776
魔法,768
ふたなり,716
妹,708
エッチ,697
ムーンライトノベルズ(女性向け)の形態素解析結果(ワードクラウド)
![](https://assets.st-note.com/img/1718463228108-WkFrRPDaQK.png?width=1200)
形態素解析頻出トップ20(数字は頻出度合い
令嬢,1206
世界,1159
恋,1155
騎士,981
話,928
愛,804
王子,749
溺愛,748
姫,691
婚約,621
男,542
転生,531
結婚,512
女,510
こと,492
夜,492
版,479
聖女,472
悪役,451
花,426
ムーンライトBLの形態素解析結果(ワードクラウド)
![](https://assets.st-note.com/img/1718463263880-sPK8GEHV6o.png?width=1200)
形態素解析頻出トップ20(数字は頻出度合い
世界,1389
話,1290
恋,1038
男,710
愛,628
王子,609
転生,578
魔王,527
勇者,522
編,519
騎士,511
こと,387
BL,371
番外,365
日,360
溺愛,353
少年,352
花,350
恋人,342
魔法,331
※少し技術的な話。
形態素解析としては名詞を対象に実施していますが、日本語は名詞に様々な助詞も含むケースがあるので、Mecab解析、ワードクラウド解析それぞれにStopwordを指定しています。上記の結果を抽出するために、結構意図的に指定しています
タイトル部分に書籍化や作品の状態を記載するケースも見受けられましたので、そうしたものは意図的に避けています。
![](https://assets.st-note.com/img/1718463620898-QPdRFXcUjh.png?width=1200)
簡単な解析結果:ノクターン、ムーンライト、ムーンライトBLの会話率問題
なろうDBでは上記の様なタイトル以外に、ユニークな抽出項目として会話率の抽出ができます。
これにより、Web小説のイメージにありがちな、会話文だけで構成された小説ばかりなのでは、という一般的な言説が、真かどうかを図ることができる指標です。
なろうDB抽出において、ノクターン、ムーンライト、ムーンライトBLそれぞれに対して平均、中央値を確認したところ、以下の様な結果になりました。
ノクターン 平均会話率 37.7% 中央値 40%
ムーンライト 平均会話率 36.7% 中央値 37%
ムーンライトBL 平均会話率 39.0% 中央値 39%
ムーンライトの商業ノベルでも比較的地の文が強い印象があるためか、数パーセントとは言え顕著に会話率が低いのが見て取れます。
ただムーンライトBLとなると、ノクターンに近似してくるというのもなかなか面白い結果となりました。
なお今回の解析、ツール作るまでは結構かかりましたが、1度作ってしまうと一時間ぐらいで上記ぐらいの結果はすぐに出せるようになるので、テックに自信がある方は1度やってみると面白いかも知れません。
ここから先は
¥ 200
この記事が気に入ったらサポートをしてみませんか?