見出し画像

noteでフォロワー100人は上位何%? ChatGPTの力を借りて求めてみた

 正確に求めるとなるとかなり面倒な作業になりそうなので、フェルミ推定という方法を取ります。フェルミは人名です。
 簡単に言うと、既存の情報をもとに知りたい量の概算値を求める方法です。これだけだとちょっとわかりにくいですね。以下に例を出します。
 

フェルミ推定で特に知られているものは、「アメリカのシカゴには何人(なんにん)のピアノの調律師がいるか?」を推定するものである。これはフェルミ自身がシカゴ大学の学生に対して出題したとされている。

この問題に対して、例えば次のように概算できる。

1.まず以下のデータを仮定する。シカゴの人口は300万人とする
2.シカゴでは、1世帯あたりの人数が平均3人程度とする
3.10世帯に1台の割合でピアノを保有している世帯があるとする
4.ピアノ1台の調律は平均して1年に1回行うとする
5.調律師が1日に調律するピアノの台数は3つとする
6.週休二日とし、調律師は年間に約250日働くとする

そして、これらの仮定を元に次のように推論する。

1.シカゴの世帯数は、(300万/3)=100万世帯程度
2.シカゴでのピアノの総数は、(100万/10)=10万台程度
3.ピアノの調律は、年間に10万件程度行われる
4.それに対し、(1人の)ピアノの調律師は1年間に250×3=750台程度を調律する
5.よって調律師の人数は10万/750=130人程度と推定される


フェルミ推定では、前提や推論の方法の違いによって結論にかなりの誤差を生じることもある。フェルミ推定を模倣したケーススタディと呼ばれるテストが、80年代90年代のアメリカ企業の採用活動でよく行われていた。

Wikipedia『フェルミ推定』

 今回の場合noteの総ユーザー(会員数)が1に該当します。これはある程度わかっています。2023年11月末時点で733万人だそうです。あとはどのような情報が有効なのかChatGPTに訊いてみます。

You
フェルミ推定で求める場合、どの指標が参考になる?

フェルミ推定を用いてフォロワー数が100人で上位何%に位置するかを推定する場合、以下のような指標や考慮すべき点が参考になります。

1. **ユーザーの総数**:
プラットフォームの登録ユーザー総数を基にします。公式なデータがあれば最も正確ですが、ない場合は過去のデータや類似のプラットフォームの数から推測することになります。

2. **フォロワー数の分布**:
フォロワー数の平均値、中央値、最頻値(最も多くのユーザーが持っているフォロワー数)などの統計データが重要です。これらの値から、フォロワー数がどのように分布しているかの概略をつかむことができます。

3. **極端値の影響**:
特に有名なユーザーやインフルエンサーは非常に多くのフォロワーを持っているため、これらの極端なケースが全体の分布にどのような影響を与えているかを考慮する必要があります。これには、フォロワー数の最大値や上位1%のデータを見ることが役立ちます。

4. **ログノーマル分布の考慮**:
多くのソーシャルメディアデータではフォロワー数の分布が右に歪んだログノーマル分布を示します。この分布を想定して計算することで、より現実に近い推定が可能になります。

これらの情報を元に、全体のユーザー数とフォロワー数の分布に基づいて、100人のフォロワーを持つユーザーが上位何%に位置するかを推計します。具体的な計算では、総ユーザー数とフォロワーの分布モデル(例えば、平均と標準偏差を用いた正規分布やログノーマル分布)を使用して、100人以上のフォロワーを持つユーザーの割合を求めることができます。

 You
 1については、およそ730万人

 733万人でも良かったのですが、複数アカウントを持っているユーザーもいると思うのでそれを加味しました(結果はそんなに変わらないと思いますが)。

プラットフォームのユーザー総数が約730万人という情報をもとに、フェルミ推定でフォロワー数100人のユーザーが上位何%に位置するかを推定する際には、次のステップを踏むことが考えられます。

### ステップ1: フォロワー数の分布を推定
プラットフォーム特有のフォロワー数の分布データが公開されていない場合、類似のプラットフォームや一般的なソーシャルメディアのデータを参考に、フォロワー数の分布を推測します。例えば、多くのユーザーが少数のフォロワーを持っている一方で、少数のユーザーが大量のフォロワーを持つという典型的な右に歪んだ分布(パレート分布やログノーマル分布)を仮定することができます。

### ステップ2: 分布パラメータの設定
分布の形が決まったら、必要なパラメータ(例えば、平均、標準偏差)を設定します。これには、分布の形を決定するために、類似プラットフォームでの調査結果や研究データを利用することが有効です。

### ステップ3: 上位%を計算
設定した分布に基づき、フォロワー数が100人のユーザーが全ユーザーのうちどの程度の位置にいるかを計算します。これは、累積分布関数(CDF)を用いて計算でき、フォロワー数が100人を超えるユーザーの割合を求めることに相当します。

### 具体的な計算例
仮に、フォロワー数の分布が平均50人、標準偏差30人の正規分布に従うと仮定します(実際には右に歪んでいる可能性が高いため、ログノーマル分布の使用が現実的ですが、ここでは計算の簡便さのため正規分布を用います)。このとき、フォロワー数が100人以上であるユーザーの割合を求めることが目標です。正規分布の累積分布関数を使用して、フォロワー数が100人以下である確率を計算し、その補数を取ることで、100人以上のフォロワーを持つユーザーの割合が求められます。

これらの計算は、統計ソフトウェアやプログラミング(Pythonなど)を使用して行うことができます。さらに正確な推定を行うためには、実際のプラットフォームから取得できるより多くのデータを使用することが望ましいです。

 これまた手間がかかりそうですね。GPT‐4なら直接Pythonを使って計算できるので頼んでみます。

You
あなたのPythonで計算することはできない?

フォロワー数が100人であるユーザーは、仮定した正規分布モデルに基づくと、全ユーザーの上位約4.78%に位置することが推定されます。この計算は平均が50人、標準偏差が30人の正規分布を仮定して行われました。実際のデータや分布が異なる場合、この推定値も変わる可能性がある点に注意が必要です。

 大体上位5%といったところですね。パーセンテージだけだと意外に感じますが、総ユーザーをざっと700万人としても約35万人です。個人的には上位5%前後と考えるのが妥当だと思います。

 1000人だとどうなのか同じ条件で計算してもらったところ、上位1%にも満たないそうです。グラフも作成してもらいました。



 
 英語でもある程度はわかりますね。これはあくまでも簡易的な計算なのでやはり誤差は出てくるでしょう。それでも参考にはなると思います。


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?