見出し画像

[計算方法メモ] 「最強のピカーは誰か 第4.1試合(SNTD-INDEXの計算方法編)」

各パラメータの設定、式のロジックについてはここでは解説を行なわず、今後の解説記事にその機会を譲ることとする。解説記事は教育性の高いものになるはずだが、この記事は即時性をより重視し、計算式以外は最低限のメモ程度にとどめている。猛虎弁への翻訳は時間があれば行なう。

まずはこの恐ろしく単純、かつ/にもかかわず/ゆえに高い精度を誇るSNTD-INDEXの計算方法に活目せよ!笑


Likeの補正

期間の補正

期間補正係数=1/(1-((会員番号/62000)/50)^2)

この係数を総Like数に掛けることで、期間の影響を排除した「期間補正済Like数」が得られる。

会員数が、14年3月以降、毎月一定割合(62000ユーザ)ずつ増えていることを前提としている。

期間補正済Like数は、

期間補正済Like数=総Like数×期間補正係数

となる。


コメント頻度の補正

コメント頻度の補正は、以下の計算式で行なう。最後に割っている数は、たとえば、1日あたりの平均コメント数というような解釈が出来るが、より厳密には、その比率のみが問題であり、平均コメント数というような解釈は不要である。なお、その期間、頻度の補正を行なったLike数を単に「補正済Like数」とよぶ。

期間補正済Like数>30000 → 補正済Like数=期間補正済Like数÷5.5

期間補正済Like数>10000 → 補正済Like数=期間補正済Like数÷4

期間補正済Like数>1500 → 補正済Like数=期間補正済Like数÷2

期間補正済Like数<=1500 → 補正済Like数=期間補正済Like数÷1

この区切り、係数については統計学的な検討を行なって決定しているが、詳細は複雑なので解説は割愛したい。参考までに、割った数ごとのSNTD-INDEXの統計的な特徴を記載しておく。1を除いて、SNTD-INDEXの値は平均はほぼ一致していることをご確認いただきたい。意味については、特段の解説を行なわないが、この補正が今回要求される厳密さのレベル(要するにあまり厳密ではないw)においては、妥当といえることの参考にはなるとだけ述べておく。

この結果、補正前のLike数による補正済Like数のR2は0.47まで低下している。


潜在Liker数

ここで、Likerという新しい概念を導入した。これは、実際にLikeをするユーザのことであり、フォロワーと非フォロワーを含む。

アクティブユーザに近い概念ではあるが、フォロワーの中にもアクティブユーザ、非アクティブユーザがいることを念頭に設計をしている。

潜在Likerとは、潜在的にLikeを押しうるユーザ数である。基本的には、アクティブなフォロワーと考えられるが、アクティブなフォロワー以外にもLikeを押すことがあるため、潜在Likerとしている。

また、実名であっても、現実的には全てのアクティブユーザがコメントを見る訳ではない(恐らくはかなりごく一部のユーザしか閲覧していない)ということを考慮している。


現在のアクティブユーザ(ROM専門を含む)を34000と仮定した。また、この潜在Likerは理論上過去のLikeにも影響するため、期間補正を行なっている。

潜在Liker1 = 34000×期間補正係数

潜在Liker2 = (34000×期間補正係数 - 補正済フォロワー数)×0.13%+補正済フォロワー数

ただし補正済フォロワー数とは、現在のフォロワー数に期間補正係数を乗じたものである。

この潜在Liker1、Liker2のうち、小さいほうを潜在Liker数とする。


SNTD-INDEX

上記の計算結果から、以下の式により、SNTD-INDEXを計算する。

SNTD-INDEX=補正済Like数/潜在Liker数


実名、匿名の補正について

実は、今回のSNTD-INDEXについては実名、匿名、プロの補正を行なっていない。ここまでの補正により、ほぼ匿名、実名の差が喪失しているためである。喪失している、ということの意味については以下の表から推察されたい。

なお、RNは実名属性である。また、実名かどうかの判定は以下に従っている。要するに手作業である。

1.登録名に姓・名が存在していること
2.その記載方法は問わない(漢字、ひらがな、カタカナ、アルファベット)
3.ただし、常識的に判断して実名とは判断できないもの(武田 信玄、Yamada Denkiなど)、また確実に実名ではないと分かっているものは除外



9月の分析に向けた検討、課題

ことのほかプロの数値が低くなっている。これについては、補正が必要な気がしている。プロのSNTD-INDEXを上げる技術的な難易度は高くないが、なぜ、プロの数値が低いかについてのより詳細な検討を行わない限り、妥当な補正方法が決定できないという課題がある。

匿名、実名の補正については、引き続き課題と認識している。今回の分析では別に匿名実名補正をしたバージョンも用意したが、ロジックを複雑にする割に順位を大きく変えるものではないこと、また平均すればピカーの能力は匿名、実名に対して中立(Indifferent)であるという仮定を置いていることから(つまり既に得られた結果は妥当なものであるという判断から)、採用を見送った。この点については、もう少し検討を進めたい。

「削除されました」の影響排除も重要なテーマである。原則として、「削除されました」が認められている以上、その影響は排除すべきではないという見方を採用しているが、これが正しいかどうかについては確信を得ていない。また、その影響を計算により排除することの難易度も決して低くないと予測している(一応、手段の方向は検討済みである)。

各コメントの価値は、MD-INDEXという指標で評価する手段を実は1年前に確立している(未発表)。今後、SNMD-INDEX(シン・窓際指数)として発表する予定である。この指標により、専門性の高いコメントの価値が適切に評価出来るようになるだろう。

オチもなく、どーもすみませんwwww


この記事が気に入ったらサポートをしてみませんか?