クリニカルトーンと確率

はじめに

前置き考えるのが面倒なので省略。気が向いたら追記します。

注意書き

このnoteは特定のクリニカルトーンが抱える問題点について述べるものです。従って、もしかしたらあなたの書いた記事や下書きに登場する文章と似た文章が悪い例文として提示されるかもしれませんが、個人攻撃などの意図は一切ないことを明言しておきます。

また、SuamaXはあくまで授業と数検の勉強でちょっと確率論を齧っただけの人間ですので、統計学を専攻しているような方からすれば一部おかしく見える記述があるかもしれません。なんか妥当な指摘があったら追記するので連絡ください。

1. 確率の話

確率(かくりつ、: probability)とは、偶然起こる現象に対する頻度(起こりやすさの指標)のことである。確率の定義は、統計的確率数学的確率・理論的確率・古典的確率(意味はどれも同じ)、公理的確率の3つがある。

Wikipedia より

SCPの報告書フォーマットを書く上で、「一定の確率で何らかの事象が発生する」という異常性を書きたくなることは多いと思います。「内部に侵入すると死んでしまう洞窟だけど、全員死んでしまったら内部の描写ができない……」というようなジレンマを解決してくれる心強い設定です。

勿論そのような異常性が悪いという話ではありません。ですが、分析的な文章において「確率」というトピックを扱う際はかなり慎重になる必要があります。

例えば以下のようなケース。

SCP-XXXX-JPは内部に進入した人間を95.79%の確率でSCP-XXXX-JP-1に変化させます。

SuamaXが適当に書いた文章

この「95.79%の確率」という情報を書くために財団がどのような調査をしたのかを考えてみましょう。もしこの記述が単純な割合を示しているとしても、財団は少なくとも10000人のDクラス職員をSCP-XXXX-JP内に進入させたことになります。そうまでして得られる結果は95.7X%の小数点以下二桁目の数字が確定するだけ。明らかに割に合いません。もし財団に潤沢なDクラス資源があったとしても、こんなところに資源投入はしないでしょう。

そして、更に重要な点があります。それは、「仮に10000人のDクラスのうち9579人が影響を受けたとしても、報告書に『95.79%の確率』と掲載することは分析的ではない」という点です。

まず1つ目の問題点。オブジェクトの調査をしていて、10000人中9579人に影響が出た場合、まず最初に行われるのは「影響の出なかった421人に何らかの共通項があるのではないか」という観点での調査になるでしょう。もし仮に調査の結果共通項が見つからなかったとしても、その場合に報告書に記述されるべきは「共通項を探したけど見つかりませんでした」であって、「共通項を探したけど見つからなかったので、ランダムに影響を受けるか受けないかが決定されるようです」まで言い切ってしまうのは明らかに言い過ぎです。

そして2つ目の問題点として、確率論的な観点で見ても『95.79%の確率』と掲載するのが不自然であるということが挙げられます。

具体的な例を挙げましょう。私は先日、とあるソシャゲで最高レアであるSSRの排出率が3%であるガチャを120連回しました。その結果、排出されたSSRは1枚でした。この時、「本当のSSRの排出確率は3%ではなく約0.8%である」と報告書に記載するのは正しいでしょうか?

……もちろん正しくないですね。設定上、SSRが排出される確率は3%であるはずです。私の主観から見れば「120回中1回事象が発生した=発生確率は0.8%である」という推論は成り立つかもしれませんが、客観的に見れば「発生確率は3%なので、確率の偏りが出た」と捉えるべきです。

ですが、「実際の確率」というのは神の視点でもあります。現実世界における全てのケースで、「実際にどの程度の確率でそれが発生するか」を計算するのは困難を極めます。ましてや、未知の機序で物理法則を超越してくる財団世界であればなおさらです。そのため、通常「確率はXX%」という際は推論に基づくデータを利用することになります。

章の初めに引用した文章に立ち返ってみましょう。Wikipediaによれば、「確率」というのは「古典的確率」「統計的確率」「公理的確率」の3つに分けられるようです。

「古典的確率」というのは、それこそ数学の問題で出されるような論理体系です。「全ての事象が同様に確からしく発生すると仮定すると、この事象が発生する確率は○○%である」というようなものですね。コイントス、サイコロ、トランプ、箱の中の青玉と赤玉、何でもいいですがとにかく全ての事象が均一に発生しうるものでなければなりません。コインもサイコロも一切歪んでいてはならないということです。

当然ながら、この古典的確率のモデルは現実世界における物事の発生確率について記述するには不完全です。完全な立方体で重心も中心のサイコロなんて存在しないのですから。

「統計的確率」というのは、世の中で「確率」と言われた際に恐らく最も一般的にイメージされるものです。「50000回コイントスをして表が出た回数は24988回だったので、概ね表が出る確率は50%と言っていいだろう」というようなものですね。どれだけ試行回数を重ねればどれまでの精度で確率が推定できているのかまで考えようとすると統計学の分野の知識が必要になります。

報告書において「確率」という語を使うなら、まず間違いなくこの統計的確率を指します。ですが、この統計に関してもかなり難儀な点が存在します。詳しくは次章で説明します。

最後に「公理的確率」について。コルモゴロフの公理と呼ばれる基礎を元にした分野です。そのコルモゴロフの公理というのは以下の通り。

🤔

気にしなくて良いです。SCP報告書にこの意味の「確率」という単語が現れることはまずありません。

2. 統計の話

さて、ここまでの話を踏まえて、統計的確率の話をすることにしましょう。

厳密な話をするのであれば、それこそ数検準一級~一級クラスの議論が必要になるでしょう。帰無仮説だの有意水準だのを全て考慮するのはキリが無いですし、付け焼刃で色々表現を書いたところで有識者に突っ込まれるのがオチです。私も初歩的な部分は理解しているつもりですが、では厳密に記事が書けますかと言われたら恐らく無理です。

ですので、ここではSCPを書く上で意識した方がよいであろうポイントにのみ触れていきます。

2-1. 「XX%の確率で~」

上でも触れたセンテンスですね。

はっきり言ってしまうと、基本的に報告書内では使うべきではないと思います。問題点に関しても、上で触れた通りです。

「n年生存確率」という言葉があります。定義によれば、「厚生労働省が出しているデータをもとに、(がんなどの患者が)その時点からn年生きられる確率を算出したもの」となります。ですが、これは真の意味の確率、すなわち公理的確率における生存可能性を算出したものではありません。あくまで、そこまでに累積されたデータをもとに統計的確率を計算しているだけです。従って、本来は「n年生きられる確率」ではなく「n年生きられる割合」と記述するべきです。

これが「生存確率」と呼べるのは、政府によって蓄積されたデータが充分なサンプル量を有しており、統計的確率によって算出された値が(実際の確率などというものが存在すると仮定しての話ですが)実際の確率とほとんど誤差がないであろうと推測できるためです。サンプルの量が増えれば増えるほど、大数の法則により統計的確率の信頼性は向上します。

一方で、財団の実験により得られるサンプルの多くは、その「統計的確率として信頼に足るライン」に届かないでしょう。現在のSCP-JPの潮流では1つのオブジェクトに10人のDクラスを消費することすら過剰だと言われているのに、たった10のサンプルでは確率を語るにも傾向を語るにも圧倒的に足りていません。

ゆえに、「XX%の確率で」という書き方は基本的に避けられるべきです。書くとしても、「財団が捕捉しているケースのうちXX%は~」という書き方が好ましいでしょう。

この書き方をする合理的な理由としては、充分なサンプル数を財団が有している、あるいはそもそも古典的/公理的確率の話をしているなどが考えられると思います。前者は文字通り、後者に関しては例えば財団の持つ高性能シミュレータで数学的に確率算出を行った場合などが挙げられるでしょうか。

2-2. 「以下の傾向が見られる」

よくSCPで見かける文言ですね。現在までに判明しているSCP-XXX-JPの被害者がYY名、そのYY名のプロファイルを確認していくとその中のZ割の人間に共通項が浮かび上がる…… という設定は非常に便利です。そこまで設定の矛盾を発生させずに被害者のバックストーリーに何らかの共通項を暗示する、もしくは直接的に表現することができるためです。もちろんこの形式が悪いというつもりはありませんが、便利であるがゆえにある程度注意しながら運用するべき表現だとは思います。例を挙げましょう。

現在までに捕捉されている対象(SCP-XXX-JPの被影響者)からは以下の傾向が確認できます。

・20~40歳の女性である。
・希死念慮を抱えている。
・朝食はパン派である。

SuamaXが適当に書いた文章

上の文章は私が適当に書いたものですが、割と多くの問題を抱えています。

まず確率以前の問題として、「被影響者は女性であるという傾向」という文章がおかしいですね。書くとしたら「被影響者に女性が多いという傾向」あたりでしょうか。そもそも「傾向」と書かないという手もありますね。こういう列挙の形になると地味に見逃されやすい文法破綻だと思います。

次に分析面の話について。データを分析するにあたって気を付けなければならないポイントとして、元データの偏りがあります。

例えばこのオブジェクトがトイレの花子さんのような、女子トイレにしか出現しないオブジェクトだとしたらどうでしょうか。20~40歳の女性に被害が集中するのは寧ろ自然に思えます。他にも、オブジェクトが「男性を中間宿主として女性に寄生する」という性質を持っていた場合、症状が発生するのが女性のみであるため財団の捕捉から逃れている可能性もありますね。

勿論これは極端な例ですが、オブジェクトと被害者の相関関係に関しては意識しておいた方がいいでしょう。場合によっては、自身が意識していたバックストーリーが「オブジェクトの出現位置と被害者の属性による疑似相関の話かな」と認識されて有効に機能しなかったり、その逆が発生したりといった誤認を回避することができるかもしれません。

また、データ分析とは別のポイントとして、財団の視点と読者の視点が異なるという点もあります。具体的に言うのであれば、「財団から見て知らない属性の分類は調べようとすることができないし、報告書に書くこともできない」ということです。

上の例では、それこそ朝食に深いかかわりがあるオブジェクトであれば朝食がごはん派かパン派かシリアル派かという調査をするかもしれませんが、普通はこんな調査はしないでしょうし、勿論報告書にも書かないでしょう。仮に被害者全員に朝食がパン派という共通点があったとしても、関係のないことは報告書には書けません。

オチへの伏線を意識しすぎて、この部分に無理が生じるパターンはちょくちょくあります。そのことが余程自明であれば別ですが、基本的には「財団がそんな調査をするかどうか」という視点は持っておくべきだと思います。

あと、確率の話として、「何人中何人にその条件が当てはまれば傾向の存在を言えるのか」「そもそも傾向の話をするにはサンプルがどれくらい必要なのか」みたいな話をする必要もあるでしょうか。

これに関しては、一概に「これくらいの数字出しとけば問題ないですよ!」と言うことはできません。データの質や量、要求される精度に大きく左右されるためです。100人に1人しか該当しない条件がサンプル400人中の50%に該当したら明確に傾向があると言えるでしょうが、逆に100人中90人に該当する条件がサンプル1000人中99%に該当したとしても傾向の存在を断言することはできないでしょう。ただ、多くの場合においては、数人~数十人のスケールでは傾向について語ることが難しいです。

そもそもの話として、数字出さなきゃ問題ないです。基本的に報告書で具体的な数字を出すのは「それっぽくしたい」という時でしょうし、寧ろ数字を出すことでそれっぽさが損なわれるのであれば数字に触れない方が安全でしょう。

さいごに

ここまで長々と書きましたが、所詮クリニカルトーンの書き方なんて評価の一要素でしかありません。上の話が守られていなかったからといって10も20もrateが変動するかといえばそんなことはないでしょう。精々、数人の読者のUVがNVに、NVがDVに傾く程度の変化しかないのではないかと思います。

ですが、クリニカルトーンという要素で減点されてしまうというのはとても残念に思います。アイデアは思いつくかどうか、その見せ方に関しては技術力に大きく依存する部分なのですぐに実践できるものではないかもしれません。また、精度そのものがUV要因足り得るレベルのクリニカルトーンというのもやはりすぐにはどうにかできるものではないでしょう。ですが、ある程度の、それこそそれがDVに直結しない程度のクリニカルトーンに関しては、少し練習すれば身につく要素だと思います。

私自身、自著のクリニカルトーンが高い水準にあると自信を持って言うことはできません。ただ、執筆していて少しでも怪しい表現があればWeblio辞書を参照するようにはしていますし、批評の際に「財団はなんでこの情報を知ってるんですか?」と聞かれても自分なりの答えを返せるようにはしているつもりです。これを守ったうえで批評でのフィードバックを受けさえすれば、最低限のクリニカルトーンの質は担保されると信じています。

SCP報告書の執筆においてはアイデアや展開に目が向けられがちだからこそ、新人の方にとってこのnoteがクリニカルトーンについて考え直すきっかけになっていただけたら幸いです。


この記事が気に入ったらサポートをしてみませんか?