見出し画像

RP(ERP)と小説生成のみに焦点を当てた日本語LLMの性能比較

はじめに書いておきますがあまりマジメな記事ではございません。話半分にご査収ください。
またERP(Erotic Role Playing)やエロティックな小説の生成精度に着目しているため、直接的ではないものの不適切な表現を含む可能性があります。

日英問わずLLMのベンチマークがまるで役立たずになって久しいですが、やっとまともなベンチマークが登場してまいりました。


体感的にもだいぶ納得いく順位になっております。llm-jpがこき下ろされてているベンチマークは大体正しい。そして見てくださいこのalpha-7bの強さを。これよ本来の強さは。(脚注:作者はERP用途ならalpha-7bが最強だと思っている)
ただこのベンチマークだとgamma7bのが強いんですね。レート的には誤差レベルだとは思うが。体感だとalphav2のが断然強いけどなぁ。
あとcalm2-7b-chatの高さは流石におかしくないか?前確か試した記憶あるけどそんな優秀モデルじゃなかったぞ……?
しかしこのリポジトリの偉いのは各モデルの出力もちゃんと公開されております。(ERP以外、おそらくBAN対策)
見る限り……確かに悪くない出力をしている。ちょっと、もう一回確かめるか。

性能比較

私が普段使っているERP(というより小説生成)用のリンウェルベンチマークを用います。ベンチマーク用というか元が自作文なので使うのに手っ取り早いという話なんですけども。性的でありつつも直接的な性描写がないため、さまざまな規制に引っかかりにくい優良な物件でございます。

「ねぇアルフェン、ちょっといい?」
「ん?」
ある夜の事。俺たちはいつものように野宿をしていた。皆が寝静まった頃、何となく目が冴えてしまった俺は、夜風に当たろうと外へ出た。すると、テントの奥からひょっこりと顔を出してきたリンウェルに声をかけられたのだ。
「どうしたんだ?眠れないのか?」
「ううん、そうじゃないんだけど」
そう言って首を横に振る。やけに物音に気を遣いながら、彼女はゆっくりとテントから這い出てきた。
「じゃあなんだ?」と問いかける。
彼女は少し言いづらそうな顔をしてから、
「あのさ、さっきキサラが言ってたんだけど……アルフェンって、服洗ってないの?」
「う゛……やっぱり、臭うか?」
突然の質問に一瞬言葉に詰まる。自分でもわかっていたが、こうして女子に指摘されると流石にショックだ。そして恐る恐るという感じで聞くと、しかし彼女はぶんぶんと思い切り首を横に振った。
「そ、そういうわけじゃないよっ!そもそも私は後衛だから、あんまり匂いがわかるくらいまで近づかないし……」
「そ、そうか」
「でもさ、いくら旅人だからってもう少し身だしなみに気を遣った方がいいと思うよ」
俺はがっくりと肩を落として頷いた。確かに、リンウェルの言う通りだ。思えば旅の仲間にも女性が増えてきたし、いつまでもこのままという訳にはいかないだろう。それに俺自身、この汗臭いままでは嫌だった。
「わかった。わざわざ教えてくれてありがとう、リンウェル」
だが、その後のリンウェルの応答は俺の予想していないものだった。彼女はもう一度後ろを振り返り、また辺りを見回して、近くに誰もいないことを確認すると……ゆっくりとこちらへ近づいてきた。
「?どうした?」
「……あ、あの、その……」
よく見ると、少し息が荒いようだ。顔も赤い。まさか熱でもあるのだろうか!?だとしたら一大事だ。すぐシオンに……いや、治癒術では病は治せないか?俺が逡巡していると、リンウェルは俺の袖を遠慮がちに掴んだ。何かを言い出せずに悶々としているようだった。
「なぁ、本当に大丈夫なのか?体調が悪いなら無理しない方が……」
「ち、違うの!」
リンウェルは必死の形相で否定する。それから意を決したようにキッと目尻を上げると、思い切って口を開いた。
「お、お願いがあるの!」「……お願い?」
「あ、アルフェンの匂い……嗅がせて欲しいの!!」
「……えぇ!?」
俺は素っ頓狂な声を上げた。
***
「ほ、ほんとうにするのか?」
「当たり前だよ!ここまで来て怖気づいたとか言わないよね!?」
「そ、そりゃもちろんだが……」
リンウェルの要求とは、俺の体臭を確かめさせろというものだった。正直何を言っているのか全く理解できなかったが、彼女の鬼気迫る様子に押されてしまい、結局こうなったのだ。
リンウェルは俺の背後に回り込むと、首元に鼻を押し当てた。思えば彼女とこんなに接近したのははじめてかもしれない。彼女の吐息がかかる。女の子のいい香りが広がる。なんだか無性に恥ずかしかった。
「す〜っ……♡ふはぁ……♡」
そんな俺の気持ちなど知る由もなく、彼女は俺の首筋から胸元のあたりにかけて深呼吸をする。時折艶っぽい声を出すものだから心臓が跳ね上がった。
「ちょっ、くすぐったいな」
「ごめんね。我慢して」
「わ、わかったよ……でも、その、臭くないのか?」
リンウェルは俺の鎧と服の隙間に顔を埋めて、くんくんと匂いを嗅ぎ続ける。その度に彼女の柔らかな髪が肌に触れてむず痒かった。
「ん……くさいよ?汗と汚れが染み付いて……すぅーっ……♡さいてーの臭いしてる……♡」
そこで一旦言葉を区切ると、彼女は顔を離して上目遣いで見つめてきた。
「でも……なんかすごく落ち着く匂いっていうか……癖になっちゃうかも……」
「そ、そうか」
一体どんな表情をしているのか気になって仕方なかったが、リンウェルは再び顔を近づけると今度は耳の裏に鼻を当てた。
「すんすんっ……♡ここが一番濃い匂い

この続きから生成させます。peplexityを見るためにも3回くらいチャンスをやろう。

calm2-7b-chat

1回目

「すんすんっ……♡ここが一番濃い匂いするから好き♡」
どうやらそこが一番堪えるらしい。なるほど、言われてみれば確かに一番強い香りを放っている気がする。
「あと……手の平と甲の間も好きなんだよね……なんかこう、甘酸っぱいような……美味しそうな匂いって言えばいいのかな?」
「それはなんとなくわかるけど……手は別にいいかと思ったんだけど」
「そこは絶対必要だって!私の手舐めたいでしょ?」
「なんでそうなるんだよ!!ていうかお前はお菓子作りが好きなんだから、自分で作ったクッキーの匂いのほうがいいだろ!」
「そうだっけ?うーん、わからないや。でもアルフェンの体臭の方がもっと美味しいよ?」
リンは悪戯っぽく笑いながら、再び首筋に鼻をくっつけて深く息を吸い込んだ。その時の甘い吐息が俺の全身に絡んでくるのが分かった。
「ふふっ、こんな風に近くで一緒にいると、どんどん好きになっちゃうね……もう離れられないかも……♡」
「おいちょっと待て、何の話だ?」
突如として話題が変わったので思わず問い返す。
「えっ?なんでもないよ?」
リンは不思議そうに首を傾げていたが、その後すぐに不意に我に返ったらしく、「ああっ、ごめんなさい!変な話をしてしまって」と慌てたように言った。
「うん、気にしないで。私も変なこと言っちゃったね。ごめん」
そうして二人は何事もなかったかのように眠りについた。

2回目

「すんすんっ……♡ここが一番濃い匂いするところなの!ほら、ここから香水が混ざってる気がする……♡」
そうして、リンは指先を器用に動かしながら、どんどん下がっていく。どうやら自分の体臭を確認したいらしい。
「次は脇の下……。やっぱりこの辺りが一番汗くさいかな……あっ、この匂いは好きかも……♡」
最後に、リンは足先までやってきて靴を脱ぐと、そこの匂いを嗅いだ。
「これで最後だね……。やっぱり足の甲がいい匂いしてたよ。この部分だけじゃなくて、全体から漂う香りを楽しむのがコツなんだよ」
「ま、まぁそうか……でも恥ずかしいよな」
「そうだね、ちょっと変だよね。でもそれがいいんだよ、これが私たちの関係をより強くしてくれるんだから……」
「そ、それはどういう意味だ?」
「ふふふっ、なんでもないよ!じゃ、そろそろ戻ろうか。次はお互いシャワーを浴びて清潔にしようね。ああ、楽しみだなぁ。私ったらこんな事されるのはじめてだから、ワクワクがとまらないよ。早く明日にならないかなぁ」
「そ、そうか。それならいいけど」

3回目

「すんすんっ……♡ここが一番濃い匂いするんだよね……ほら、この匂い好きでしょ?好きなんでしょ?」
「えっ、ああ、まあ、嫌いではないが……」
「嬉しい!それじゃあもっと近くで嗅げるかな?」
リンは更に密着してくる。鎖骨の下辺りに顔が触れる。先ほどまでの雰囲気はどこへやら、先程の甘えたような態度は消え失せ、まるで獲物を狩るかのような鋭い眼光でじっと見つめている。
「す〜っ……♡んふぅ……♡この香りだけでイけちゃうかも……♡」
「おいおい、もう勘弁してくれよ……」
だが、リンは止まらない。どんどんエスカレートしていく。遂には腰骨の辺りを嗅ぎ始め、ついには太ももの内側も舐めるように味わっているではないか。あまりの恥ずかしさに耐えられなくなった俺は、思わず立ち上がって制止しようとした。
「ひゃあっ!!どしたの?!急に動いたら危ないよ!?どこ触ってるの!」
リンは慌てて手を引っ込める。どうやら驚かせてしまったらしい。
「ご、ごめんなさい……ちょっと興奮しちゃって……」
「興奮って、お前……もしかして、これが目的で野宿してたのか?」
「ううん、それは違うけど……」
リンはもごもごと言い淀みながら、俯いてしまった。
「ごめんね、こんなつもりじゃなかったのに……私ったら本当にバカだよね……」
リンはそう呟くと、そのまま座り込んでしまってしまった。
「そ、そうだよな、謝らなくていいぞ……。ただ、ちょっとやり過ぎただけだから……」「……うぅ、だって……アルフェンのこと考えてたらどうしても我慢できなくなっちゃって……どうしようもなかったんだよぉ……」
リンは涙目で懇願するように言った。その姿を見て、可哀想になってきてしまった。こんな状況になるなんて想像もしなかったとはいえ、彼女が望んでいたのはただの悪戯心だったのに。
「別にいいんじゃないか?そういうのもたまには楽しいだろ?」「本当かなぁ?私はやっぱり恥ずかしいけど……」「うーん、それならそれで許してやるよ。ただし、二度とこういうことはするなよ」「うん、絶対にもうしないから!約束するから!」
こうして、リンウェルとの『体臭チェック』は無事に終わった。その後しばらくの間、リンは反省していたし、俺も反省していたが、今はなんとなくお互いの距離感が縮まったような気がしている。
(あれは本当に必要なのか?)

私が日本語LLMを評価する時は、大別して物語的整合性と人物的整合性のふたつの視点で見ます。後者はどのキャラがどう喋るか、という情報の保持。これだけのことができないモデルが相当数ある。名前の不一致、口調や一人称のブレなどが主。
この点においては、未だにalphav2を超えるものはないと思っているが、calm2-7b-chatもかなりやるようだ。何回かリンウェルの名前を「リン」と間違えたが、それ以外は人称ミスはない。in character性もかなり保てている。
次に物語的整合性。場面が突然飛んだり、現在の状態からはありえない・考えられない言動が飛び出たりしないこと。安定するモデルがそもそも殆どないが、本モデルもやや怪しい。1回目の生成結果に関しては文法こそ壊れてないものの内容としてはほとんど支離滅裂である。
二回目以降も何度か致命的なミスをしている。

最後に、リンは足先までやってきて靴を脱ぐと、そこの匂いを嗅いだ。

文脈上「脱がすと」でないとおかしい。これだと自分で脱いでることになるからね。その前の「自分の体臭」もちょっと怪しいが、ここでの”自分”という言葉は話し手のことともリンウェルのことともとれるのでギリセーフ。

「すんすんっ……♡ここが一番濃い匂いするんだよね……ほら、この匂い好きでしょ?好きなんでしょ?」
「えっ、ああ、まあ、嫌いではないが……」

嗅いでいるのはリンウェルなのだから、このセリフはおかしい。三行目で奇跡的に軌道を戻せているので損害は少なく済んでいるが。

しかし。しかし!なおもそこそこ強い。そもそもcalm2は「トークン保持数」の点でalphav2より圧倒的に優れている。

チューニングモデルのCalm2-7b-Chatは、なんと32,000トークンの入出力に対応しており、日本語では約50,000字を処理できることになります。

alphav2は1024トークン以上を保持できなかったはずなので、50倍近くコンテクストを維持出来ることになる。すげーーー!!
alpha7B最強伝説、ついに崩壊するか?今までずっとこいつが最強だと思っていた。いや、まだわからない。実験を続けましょう。

和奏changベンチマーク用意しましたので。

ここはシュバルツ・カッツェ。綾地さんの行きつけであり、仮屋が働く瀟洒な喫茶店だ。普段ここに寄る時は、どちらかというと相馬さんに用がある時なのだけれど、今回は違った。
話は数十分前に遡る。オカ研の活動を終えて帰宅した俺は、風呂に入ろうと脱衣所に向かった。しかしなんと……風呂が故障していたのだ。あまりに突然のことで、修理業者に連絡しても間に合いそうになかったので、とりあえず父さんにはやむなく職場近くの銭湯に行ってもらうことにした。しかし俺は最近バンドの練習もあって金欠気味であり、銭湯に行く余裕はなかった。どうしたものかと悩んでいた時、あの喫茶店にお風呂がついていたことを思い出したのだ。そこでダメ元で相馬さんに頼んでみた所、快くOKしてくれたため今に至るというわけである。曰く、今日はコーヒー豆の買い出しとか何とかで店を早めに閉める予定だったらしい。渡りに船というわけだ。
「はぁ〜……」
湯船に浸かりながら思わず声を漏らす。銭湯とはまた違う気持ちよさがそこにはあった。こんなことならもっと早く来てみればよかったと思うくらいには心地いい。いや、そういう店じゃないんだからそんな事をしたらオーナーが困るだろうけど。
俺が心地よく風呂に浸かっていると、カランカランと入り口のベルが鳴る音が微かに聞こえた。あれ?相馬さんかな?と思ったが、何となく違う気がする。浴場から様子を伺うことはできないが……ていうか、入り口に「CLOSED」の看板かけてあったよな?それを無視して入ってくるような人の心当たりはそう多くない。綾地さんか、仮屋くらいだろう。どっちだ……ていうかどっちでもこの状況はまずいんじゃ……。
「お邪魔しまーす!あれ、オーナー?いませんかー?」
はたしてこの元気溢れる声は……間違いない、仮屋だ。今日もバイトの日なのだろうか?店員なら閉店してるはずの時間に勝手に入ってきてもおかしくはないが……しかし、店を閉めているのにバイトにやる事があるだろうか。掃除とか?うーん……それよりはオーナーに用があったと考える方が自然だ。
ともかく、ただ今素っ裸で風呂に浸かっている俺は息を潜めて彼女が去るのを待つしかないな。こんな姿がバレでもしたら恥ずかしくて死んでしまう。
「おかしいなぁ……って、あれ?この靴、保科のじゃない?」
……!?おいおいちょっと待ってくれ。まずいぞこれ。このままだと仮屋が脱衣所に来てしまう。そしたら、間違いなく彼女の目に入るはずだ。そして俺の姿を見たらどう思うか。答えは明白。悲鳴を上げられて通報される。社会的にも死ぬ。それは避けたい。だが今更出て行っても出て行く前に見つかるだけだし……一体どうすれば……。
「保科ー?いるのー?」
仮屋が俺を探して歩き回っている音が聞こえる。ど、どうしよう……どうすればいい?迷っている暇はない、できるだけ物音を立てずに浴槽から出て、すぐに体を拭いて着替えて何食わぬ顔で出ていくしか……。よし、そうと決まれば早速行動開始だ。
チャプッと小さく水音を鳴らしながらゆっくりと立ち上がる。その時だった。ガララッというドアを開ける音が響いたのだ。
「あ、やっぱり保科だ!なにし………

この続きから生成させます。まずはcalm2-7bから。

calm2-7b-chat

1回目

「あ、やっぱり保科だ!なにし………え?」
しまったああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああああ

2回目

「あ、やっぱり保科だ!なにし………げふんっ!」

3回目

「あ、やっぱり保科だ!なにし………え?」
その瞬間、俺は浴室から脱出して玄関まで全力疾走し、扉を力任せに開けた。
「ば、バッキャロー!!ふざけんなあああああっ!」
叫ぶなり俺は玄関を飛び出し、大通りに向かって走り出す。
「……なんでだよおおお!」
叫び続けるも涙が止まらない。どうしてこうなったのか。どうして何もかも失わないといけないんだ。こんなに辛いことはないじゃないか。

まるでだめでございます。先程までのいい子ちゃんが完全にぶっ壊れてしまいました。悪いのだけ抽出したとかじゃないよ?何回生成してもこのざまでございました。
というのも、どうやらこの和奏ベンチマーク、AI風情にはかなり難易度が高いようで。まず、開始時点で主要人物が「分断されているシチュエーションにある」ということ。これをAIは直感的に理解しづらいらしい。そして和奏の第一声が(オーナーに呼びかけようとしているため)敬語であること―つまりこれがAIには口調の不一致に見える。
以上の要素がconsistentな生成を困難にしているようですが、しかしクレイジーダイヤモンド、stabilityai/japanese-stablelm-instruct-alpha-7b-v2。参りましょう。

japanese-stablelm-instruct-alpha-7b-v2

1回目

「あ、やっぱり保科だ!なにし………え?」
最悪だ……!もう見つかった!!しかもめちゃくちゃ驚いてる!!
「きゃあぁぁぁぁぁぁ!!」
「うわぁっ!」
バシャァン!!と大きな音を立てて仮屋の悲鳴が響く。と同時に、俺も飛び退いてしまったせいでバランスを崩してしまい、そのままひっくり返ってしまった。……まあ、そうなるわな。うん。
「い、痛たたた……。ちょっと大丈夫?保科……?」
「……ああ。なんとかね。そっちこそ大丈夫かい?」
「私は平気だよ。それよりさ……その……ごめん。」
そう言って彼女は気まずそうに目を逸らした。そりゃそうだ。俺だって恥ずかしいから出来れば見ないで欲しいんだけど……。でもこのままじゃお互い気まずいままだし、仕方ない。覚悟を決めて顔を上げると、そこにいたのは顔を真っ赤にした仮屋の姿だった。
「そ、そんなに私の顔見てどうしたの……?もしかして、変だったり……?」
「いや、そんなことないよ。ただ少し驚いただけで……。」
「そっか……良かったぁ……。」
心底安心したように息を吐く彼女を見て、何だかこちらまでホッとしてしまった。どうやら悪い子

2回目

「あ、やっぱり保科だ!なにし………っ!?」
「わあぁぁぁぁぁぁ!!??」
最悪だ。よりにもよって仮屋に発見されてしまったではないか。これはもう、諦める他あるまい。
「…………………」
「………………」
気まずい沈黙が場を支配する。お互い顔を赤らめ、気まずそうに目をそらし合う。ああ、なんてことだ。まさかこんなことになるだなんて。
「ご、ごめん!」
先に口を開いたのは仮屋の方だった。
「こ、こっちこそ勝手に上がってきてしまってごめんなさい!でもその、どうしてもお風呂に入りたくて……!だから怒らないでね?」
「あ、いや別に怒ってないから大丈夫だ。俺もさっき入ってたし。………っていうかさ、何で鍵が開いてるんだ……?」

3回目

「あ、やっぱり保科だ!なにし………て…」
「………………………」
ばっちり目が合ってしまった。これはもうどうしようもない。仮屋の表情はみるみるうちに変わっていき、やがてその顔が真っ赤に染まるのが分かった。やばい……非常にまずい状況になってしまったようだ。
「きゃあああああああああ!!変態ーーーー!!」
仮屋の叫び声が響き渡った。そりゃそうだ。男が女の目の前で服を脱ぎ始めたらそうなるのは当然だ。しかもそれが俺みたいなやつだったら尚更だ。というか本当に申し訳ないですごめんなさい許してください何でもしますから警察だけは勘弁して下さいお願いしますどうかご慈悲を……!

全く素晴らしい。圧倒的じゃないか我が軍は!!
全体的に若干文脈的に怪しい部分ございますが、calm2-7bと比べると月とスッポンの月の方でございます。
順番が狂ったが、リンウェルベンチマークでも試してみましょうか。

1回目

「すんすんっ……♡ここが一番濃い匂いするね……♡くんくん、すーはーすーはっ……!」
そのまま息を吹きかけられる。ぞわりと背筋に電流が流れたような感覚に陥り、思わず声が出てしまう。
「ひっ……!?」
「あっごめん!大丈夫……?」
「あ、あぁ大丈夫だ……」
「そっかぁ……よかった」
安堵した様子のリンウェルを見て、俺は自分がとんでもない事をしてしまったのではないかと後悔していた。
(やっちまった……!)
完全にセクハラ行為である。しかも相手は女の子だ。もしこれがシオンの耳に届いたらと思うと気が気でない。最悪の場合パーティーを解散される可能性だってあり得る。それだけは何としても避けねばならなかった。
「ご、ごめんなリンウェル。もうやめてくれよな……」
そう頼むも、当のリンウェルはきょとんとした顔でこちらを見つめていた。まるで何も聞こえていないかのような反応である。
「え……?今何か言った?」
「い、いやなんでもないんだ。気にするな」
どうやら聞こえていたらしい。冷や汗が止まらない。
(ど、

2回目

「すんすんっ……♡ここが一番濃い匂いするね……♡もっと近くで嗅いでもいいかな……?」
「も、もちろんいいぞ」
そう答えると、リンウェルはさらに近づいてきて俺の耳に息を吹きかけた。
「ひゃうっ……!」
思わず変な声が出る。すると彼女はくすりと笑って、耳の裏から首筋にかけてゆっくり舌を這わせた。
「あっ……!や、やめないか……!」
「ふふふっ♡だって気持ちいいんだもん……♡」
「それはこっちの台詞だっつーの……!」
しばらくの間、俺たちは互いの体温を感じながら身体を重ねていた。
「ふぅ……満足したぁ〜」
「こ、これでいいのか……?」
「うん!すっごく良かったよ!」
リンウェルがそう言って屈託のない笑顔を浮かべるので、俺もつられて笑顔になった。ただ、ひとつだけ気になることがある。
「それで……なんでこんな事をしたんだ?」
「え?だって私ずっと一人だったから、誰かと触れ合う機会なんてほとんど無かったんだよね〜。そしたら急にムラムラしちゃって……。でも流石に街中でやるのはマズイかなって思ってたら、ちょうどアルフェンを見つけてラッキーって感じ♪」
「なるほどなぁ……まぁ気持ちはわかるけど……」
確かに、俺も旅をしていた頃は一人でいる時間が多かった。だから、こうして誰かに甘えたくなる気持ちもわからないでもない。
「じゃあそろそろ行くか。あんまり遅くなると宿屋の女将さんに心配かけちゃうからな」
「そうだね。名残惜しいけど、今日はこの辺にしとこっか。……そうだ、最後に一つだけ聞いてもいい?」
「なんだ?」
「さっきの質問だけど……私の事嫌いになっちゃった?」
「……そんな事ないぞ。むしろ嬉しかったくらいだ。お前が俺なんかに頼ってくれた事がさ」

3回目

「すんすんっ……♡ここが一番濃い匂いするね……♡くさっ……♡」
「き、汚いみたいに言うなよ」
「だってほんと臭いんだもん。……あっそうだ!ついでにここも嗅いじゃおっかな〜」
そう言うと、彼女はおもむろに俺の股間をまさぐってきた。
「うわっ!?何するんだ!?」
「へへへ〜、こういうのって興味あったんだよね〜」などと下品なことを言いながら、彼女は執拗にそこを擦ってくる。
「やめろって!」
思わず声を荒らげる俺だったが、リンウェルには全く効果がないようで、それどころか余計に興奮した様子で腰を揺らし始めたのだった。
「ねぇアルフェン……もっと近くで嗅がせてもらっていい……?」
そう言って彼女が迫って来た瞬間、部屋の扉が勢いよく開かれた。
「何をやっているんだお前たちは!」
そこに立っていたのはラミアだった。彼女にしては珍しく顔を赤くし、今にも飛びかかりそうな勢いでこちらへ向かってくる。
「いやこれはだな……!」
弁明しようと口を開こうとした俺を遮るように、リンウェルが叫んだ。
「いいじゃない!減るもんでもないんだしさぁ!ほら、お姉ちゃんもおいでよっ!」
「え……!?」
突然の提案に目を丸くするラミアの腕を掴むと、強引に部屋の中へ引きずり込む。そしてそのままベッドに押し倒すと、抵抗する彼女を抑え込むように覆い被さった。
「ちょっと……!こんなところ見られたらどうするの!?」
「大丈夫だってぇ〜。お姉ちゃんしかいないんだからぁ〜」
「そういう問題じゃなーーーい!!!」
顔を真っ赤にして叫ぶラミアはしかし、次の瞬間には諦めたように肩を落とした。どうやら観念したらしい。
「…………分かったわよ……。好きにしたら良いでしょ……。」
「やったー!!じゃあ早速始めるよぉー!」

どうでしょう。ラミアとかいうモンスターが姉になっていたり、リンウェルがただの痴女になってたり舞台は野宿のテントなのにいきなり「部屋の扉」が出現したりと危うい部分はございますが全体で見ればこっちに軍配が上がるのではないでしょうか。
和奏プロンプトを含めた総合得点でいえば圧倒的にalphav2が優れてると言って良いでしょう。
次はRP見ていきましょうか。

結果

ガッツリ性描写を含むERP実験なので過程は僭越ながら省略させていただきますが、これはalphaに軍配が上がりそうです。あるメッセージへの返信を比較すると、

## calm
は、はい、ご主人様…(土下座して)

## alpha
(ご主人様が私に命令するなんて!これから何をしてくれるんだろう。わくわく♡)はい、マスター(床に膝まづきながら)

これくらい違う。何がERP1.0だよ!! って言ってもベンチマークはノートブックベースでやったっぽいんでチャットモードだと話が違うのかも。ちなみに何回生成してもこれくらい差がありましたね。
例に漏れずプロンプト次第な所はあるでしょうけど、calm2-7bのチャットレスポンスはterseになりすぎる傾向にあるな。ただ文章の自然さという意味ではcalm2-7bの方がやや安定している。普通のRPならこっち優勢なのかもしらん。
最後に、あんまり興味ないですけど至って普通の文章生成能力も見ておきましょうか。

calm2-7b-chat

電撃戦は、第一次大戦の戦訓を生かした革命的な攻撃方法である。

 従来の戦闘は、機関銃や大型砲といった強力な防衛兵器の発明によって、拠点に立てこもる防衛側が圧倒的に有利だった。この状況を打破するため、イギリス軍が大戦末期に発明し投入した攻撃兵器が、戦車である。無限軌道のキャタピラを履き、鋼鉄に覆われた武装した鉄の塊は、前線のドイツ兵を大いに恐れさせたのであった。しかし、この時の戦車は故障が多く、台数も少なかったため、戦局を変える決め手にはならなかった。

 戦後、イギリスの軍事評論家リデル・ハートは、大量の戦車を陣頭に立てて敵陣を突破する「機動戦」理論を提唱したが、戦車発明国であるはずのイギリスは、この議論に/否定的で、「戦争はあくまで銃剣突撃と塹壕戦で勝つものだ」と主張していた。
 その後、第二次世界大戦中にイギリス軍は、歩兵の支援に特化した「巡航戦車(マークIV)」を投入して一定の成功を収めたものの、本格的な機甲化師団の編成には至らなかった。これは、各国間の技術格差が大きかったことや、航空機やレーダーの性能向上により、戦略的制空権を確保しやすくなったことが背景にある。

 一方、ナチス・ドイツも、戦闘教義としての機動防御戦を確立するために、様々な研究を行っていた。その中で特に重視したのが、航空機の運用であった。
 ドイツ空軍の航空機は、第一次世界大戦で消耗しきっていたが、再生産が進むと一気に高性能化し、イギリス本土を空襲するなどの成果を上げた。これを受けてヒトラーは、戦闘教義としての機動防御戦を完成させるための研究を命じるとともに、新型戦闘機を大量に発注したのであった。

 その結果開発されたのが、BMW社製のエンジンを搭載したIII号戦車である。このIII号戦車は、当時としては画期的な装甲を持ち、その装甲厚は12mmから38mmにも及んだ。また、主砲の口径が大きく威力が高いため、対戦車能力を有するとともに、重榴弾を使えば対戦車車両に対しても十分な損害を与え得た。さらに、履帯の幅が広かったため高速移動が可能であり、最高速度は時速50km程度を発揮できたという。
 これらの要因が重なり、III号戦車の配備が始まるとたちまちドイツ軍の主力に躍り出た。そして、連合国軍に対して決定的に優越な地位を築くことになる。

 一方、英仏連合軍は、当初軽快なシャールB1を主力としようとしたが、数が揃わず、結局パンター中戦車を採用することになった。だが、これが失敗で、後に登場したティーガーIは性能面で劣っていたとはいえ、重装甲のため容易に突破されえず、前線部隊からは不満の声が上がっていた。このため、一部ではIII号戦車への交代を求める声もあったが、そのころになると、既に主力はアメリカから供与されたM4 Shermanになっていた。

 なお、これらの戦車が登場する少し前に、日本陸軍でも九七式中戦車が登場している。だが、九七式は軽量すぎて速度が出ず、防弾装備の貧弱さからすぐに時代遅れになってしまった。そのため、当時の日本では国産の中戦車は開発されていない。

japanese-stablelm-instruct-alpha-7b-v2

電撃戦は、第一次大戦の戦訓を生かした革命的な攻撃方法である。

 従来の戦闘は、機関銃や大型砲といった強力な防衛兵器の発明によって、拠点に立てこもる防衛側が圧倒的に有利だった。この状況を打破するため、イギリス軍が大戦末期に発明し投入した攻撃兵器が、戦車である。無限軌道のキャタピラを履き、鋼鉄に覆われた武装した鉄の塊は、前線のドイツ兵を大いに恐れさせたのであった。しかし、この時の戦車は故障が多く、台数も少なかったため、戦局を変える決め手にはならなかった。

 戦後、イギリスの軍事評論家リデル・ハートは、大量の戦車を陣頭に立てて敵陣を突破する「機動戦」理論を提唱したが、戦車発明国であるはずのイギリスは、この議論に/全く乗ってこなかった。むしろ、「戦車など時代遅れだ」「歩兵こそが戦争の主役であり、戦車を運用するのは歩兵の仕事ではない」と否定的にとらえられていたのである。そのため、第二次大戦で戦車を主力とした機動戦を展開したものの、その有用性を認められず惨敗を喫してしまったのだ。

 だが、1970年代に入ってから始まった第三次中東戦争で、アメリカを中心とする連合軍は、初めて本格的に戦車を実戦投入することに成功する。これ以降、各国軍において戦車の重要性が再認識され始めると共に、第二次世界大戦当時の技術水準に留まっていた各国の戦車生産体制にも大きな変化が生じたのだった。

 特に、世界一の工業力を持つアメリカの戦車開発への意欲は強く、最新鋭の戦車を生み出すべく研究開発が進められていった。その結果、生まれたのがM1エイブラムスと呼ばれる第3世代主力戦車である。本書では、著者自身が長年に渡って現場で取材を重ねてきた経験をもとに、M1エイブラムスの誕生秘話について解説していく。

 また、現代における戦車運用の要諦として、現代の戦い方に対応した新型戦車の登場についても言及している。中でも注目すべきなのが、2018年末にフランス陸軍へ配備された新型の装輪式装甲兵員輸送車AFVCだ。これまでの常識を覆す新しいコンセプトで開発された同車は、今後の戦場にどのような影響を与えていくのだろうか?

スラッシュ以降がAI。はい、双方申し分ないですね。事実性に関しては知らないけど文章の見た目としての体裁は十分でございましょう。

結論としては、alpha最強伝説未だ衰えず。さっきのリポジトリのベンチマークは、他のベンチマークと比較すると相対的に見てかなり信用できるし、現存する日本語ベンチマークの中では間違いなく一番優秀ではありますが、多様なプロンプト(RPや小説限定。 QAは知らん)に対する精度は未だalphav2が一歩上をいく印象でございました。

最後に、せっかくですからブラインドベンチマークをしてみましょうかね。リンウェルベンチマーク・マーク2用意しましたので。こちら男役がロウとなっております。alphaV2とclam2-7Bでそれぞれ生成しました。

「んふぅ……すごい……はぁ……はぁ……♡すーーっ♡獣くさっ……♡/やっぱりこれは……あり得ないね……♡」
「……お、おう」
リンは落ち着いたように、しかし興奮冷めやらぬ様子で呟いた。どうやら、オレの匂いを嗅ぎながら恍惚としてるらしい。こ、これが『恋』というものか…。初めて知った……。
「あっ、ごめんね……つい夢中になっちゃって……」
「ああ、いいよ……それどころかって感じだったしな……」
「ありがとう、助かる。……そうだ、一緒に風呂に入ろうか?」
「えっ?マジで言ってるのか?」
「うん、私も一緒に入るから心配しないで」
「ええ〜……さすがに恥ずかしいんですけど……っていうか、いいのか?女の子と一緒に湯船に浸かるなんてしたことないし……」
「それはわかるけど、私たちの旅ではよくあることだよ?それに、私は結構慣れてるし、逆に安心感があって好きだな」
「そっか…それなら…」
とはいえ、緊張してしまうのも事実。だが、リンは慣れたような態度を見せているため、なんとなく安心してしまった。それに、リンのような美人と一緒にお風呂に入れるなんて、贅沢なものだと思うようになったのだ。
それからオレたちは交代で見張りをするようになったが、前よりも楽しく過ごせた気がした。特に夜はいつも以上に話をしやすく、リンはたくさんのことを話してくれた。
「実は、ロウとミネルバさんの仲を取り持ったのも、私のアイデアだったりするのよ」
「へぇー、そうなんだ。どんな風にやったの?」
「簡単に言えば、二人の共通の話題を作ってあげたのよ。それが、たまたま同じ村出身だったから、そこから仲良くなってもらえたみたい」
「なるほど、確かに共通点があると盛り上がりやすいかも。でも、それを考えて実行できるなんて尊敬しちゃうな」
「あら、ありがと。でも、私には普通のことだから。ただ、相手に喜んでもらうのが好きなだけなのよ」
リンは微笑んでそう答えた。本当に優しい人なんだなと思った。だからこそ、こんなに慕われているんだろう。
そして翌日の夜。いつものように寝支度を整えていたが、リンが話しかけてきた。
「そういえば、昨日のお礼をさせてほしいんだけど……いいかな?」
「お礼なら受け取ってやるよ。ただし、条件があるがな」
「もちろん!遠慮なくどうぞ」
リンはニコニコしながら提案してきた。
「んふぅ……すごい……はぁ……はぁ……♡すーーっ♡獣くさっ……♡/うへへへ♡もっと近くで嗅ぎたい……!」
ダメだこりゃ。完全に目がイッてる。これはマズいぜ……!早く何とかしないと、マジで理性が飛ぶ……!
「おい、いい加減にしろって!お前は犬か!?」
「あぁー……♡ダメぇ……♡そんな声で言わないでよぉ……♡もっと強く抱きしめてぇ……♡ハァ……♡好きぃ……♡」
「お、おい!本当にどうしたって言うんだよ!やめろったら!」
ヤバいヤバいヤバい!このままでは本気で理性が飛びそうだ。とにかく今はこの状況を打破するのが先決だ。幸いにもここにはベッドがある。ここで寝かせてしまえば、とりあえずはなんとかなるかもしれない。
「おい、ちょっと落ち着けって!ここじゃゆっくり休めないだろうが!一旦テントに……」
しかし、その瞬間にリンウェルの両手がオレの首に回された。そしてそのままベッドに押し倒されたかと思うと、リンウェルに押し倒されるような形で組み敷かれた。
「え……?」
な、何だよこれ……。どうしてこんなことになってるんだ……?いやそれより、この状況は一体どういう状況なんだ……!?
「ねぇ……私のこと嫌いになった……?」
耳元で囁かれる甘い声に思わずゾクリとさせられる。だがそれは恐怖ではなく、むしろ心地よさすら感じられた。そしてリンウェルの頬には薄らと涙が伝っていた。その表情はとても不安げで、今にも泣き出しそうな表情を浮かべている。まるで捨てられた子犬のようだった。
「……んなわけねーだろ。お前がオレを嫌うわけないじゃねーかよ。」
「ほ、本当……?」
「当たり前だっつーの。オレがお前を嫌いなワケないだろ?」
「うん……そうだよね……。」
そう言うと、リンウェルは嬉しそうに笑った。その顔を見た瞬間、オレは自分でも驚くほど安堵していた。きっとこいつがこんな表情を見せるのは初めてのことだったに違いない。いつもクールで大人びた態度を取っているせいか、どこか近寄りがたかったのだ。でも本当はこんなにも純粋で優しい奴なんだってことを改めて実感させられた。だからこそ、オレはこの子のことが放っておけなかったのかもしれないな。

はい。どっちがどっちのモデルでしょう。自明な気もしますけどもね。stabilityai/japanese-stablelm-instruct-alpha-7b-v2最強。Q.E.D。

【結論】stabilityAI is GOD

追記

一応calm2-7bをかばっておくと、TruthfulQ&A系はalphav2とは比較にならないほど強いです。

この記事が参加している募集

#AIとやってみた

27,179件

この記事が気に入ったらサポートをしてみませんか?