見出し画像

「違う場合のデータ」を採る方法

これまでの経緯

 最近、フィービン氏(PHEEBIN氏)が次のNOTEを書いた。
(なお、このNOTEに対する私の意見はどこかで一度まとめる)。

 それに対して、遊鳥ちゅんが次の反論をNOTEに寄せる。

 その後、フィービン氏が上の遊鳥ちゅんのNOTEを凸(とつげき東北)に紹介した。
 それに対する凸のコメントがこっち。

 この凸のコメントに対する、遊鳥ちゅんの反応がこちら。

 というわけで、私に投げてきた。
 私は「私に何故投げるんだ。少しは自分で考えい」と思ったため、次のツイートを飛ばした。

 これに対する、遊鳥ちゅんの考えがこちら。

 さて、遊鳥ちゅんに考えさせた以上、私なりの説明を行う必要がある。
 今日はそのための記事である。

 だが、以前、似たようなことを書いたかもしれない。
 その辺はご容赦願う。

議題の確認

 今一度、凸のツイートを確認しよう。

(以下、上の凸のツイートより引用)
 今「あえてデータと違う場合」について語るなら、その「違う場合のデータ」を取ればいいだけで、これは私が2004年に明記してますよ。
(引用終了)

 それに対する遊鳥ちゅんの意見がこちら。

(以下、ツイートより引用)
「違う場合のデータ」は麻雀と統計の相性の悪さが出て手に入りづらいという認識なので理屈は分かるが実際には難しい気がする......
(引用終了)

 個人的には私が見た瞬間、違和感を持った。
 二人の「データ」の範囲が異なる、と。

データとは

 とつも私も「データ」と言ったら数値全般を指す。
 その中には牌譜解析結果(実測値)も含まれる。
 しかし、シミュレーション結果(計算値・理論値)もデータである。

 他方、遊鳥ちゅんの関連ツイートを見ると、「データ=実測値」に限定しているように思われる。
 それが証拠に、遊鳥ちゅんの続くツイートを見ると、牌譜解析結果にしか言及していない。
 そこが誤解の始まりではないかと思われる。

牌譜解析は簡単か

 それから、もう一つ、研究者と遊鳥ちゅんの間の認識に齟齬があるのではないかと思われることがある。
 それは「牌譜解析は難しくない」という認識である。

 誤解されるといけないので、この点を正確に説明する。
 別に、遊鳥ちゅんが「牌譜解析が簡単だと思っている」という意味ではない。
 遊鳥ちゅんだって麻雀研究に対する大変さは十分認識していると思われる。
 私が主張したいのは、「外から見える以上に牌譜解析は難しい、それもずっと」ということである。

 この点、私も「牌譜解析はコスパがいい(簡単だ)」と述べたことがある。
 しかし、それは「シミュレーションすることと比較して」である。
 牌譜解析単体が簡単かどうかはかなり微妙である。

 これについては以前、麻雀数理研究会で次のような文章を書いた記憶がある。

(以下、上記サイトより引用)
  当然のことですが、データ等を作成するためには相応のコストを要します。
 例えば、先制リャンメン立直の和了率を牌譜解析から求めようとすれば、

・天鳳牌譜のダウンロードプログラムの作成、牌譜のダウンロード
・和了率などの数値を求める牌譜解析プログラムの作成・実行

という作業を必要とします。
 これらを一から求めたならば200時間(25日・人)はかかるでしょう。
 もちろん、牌譜のダウンロード・主要なデータを求めるためのプログラムは作成済みであることなどを考慮すれば、我々が数値を求めようとすれば200時間もかかりませんし、既にデータを持っているということもあり得ます。しかし、それは、既に我々が様々な試行錯誤、牌譜解析プログラムの作成を行い、その部分を解決しているからにほかなりません。
(引用終了)

 もちろん、天鳳(鳳凰卓)の牌譜が解析できるのは天鳳の角田真吾氏が鳳凰卓の牌譜を大量かつ無償で公開している点が極めて大きい。
 これがなかったら、牌譜解析のコストは格段に厳しくなるだろう(ネト麻だからデータを採るのが簡単だというのは誤りである、もし、そうではないと思うなら、MJなどのデータを採るためのコストを考えてみよ)。

 しかし、牌譜が公開されていれば簡単かと言われれば、微妙ではないかと思う。
 だから、「別のデータを採るのが難しい」に対しては、「それを言うなら、(採れる)データを採ることだって大変だわ。その大変さに大きな差はないっ。」と言うことになる。
 特に、凸の場合、私の場合と異なり、東風荘の強豪に呼び掛けて東風荘の牌譜をかき集めた(詳細は下記URL参照)経緯があるから、「別のデータを採るのは難しいです」と言ったところで、「私はその苦労をして東風荘のデータをかき集めたんだ」と言い返されて終わりである。

 というわけで、遊鳥ちゅんと研究者間の齟齬はその辺にもあるのではないかと思われる。

 以上が、私が遊鳥ちゅんの当初のツイートに対する感想である。
 もっとも、遊鳥ちゅんの認識は特段変なものではない。
 だから、「これが悪い」などと言うつもりはさらさらない

「違う場合のデータ」の取り方

 では、具体的に「違う場合のデータ」はどう求めればいいのだろう。
 当然だが、実測値を求めるのは不可能である。
 だから、「データ=シミュレーション結果・計算値」ということになる。

 データの集め方については、とつげき東北が「2004年に明記した」と書いてあるので、その部分を引っ張ってこよう。
 出典は『科学する麻雀』である。
 その31ページに次の記載がある。

(以下、『科学する麻雀』より引用)
 では、どうすれば「答え」を探せるのだろうか。一つは、純粋に理論的な計算や洞察にもとづいて「答え」を知るという方法がある。膨大な実戦譜からデータを収集するのもよい。
 さらに、「ある一定の打ち方で長期間打ってみて判断する」という実験的方法がある。

(引用終了)

 つまり、正解を出す方法、言い換えれば、正解の根拠(データ)を求める方法は次の3通りがある。

1、理論的計算によって数値を求める
2、実戦譜から求めたい状況にヒットするものをかき集めて数値化する
3、打ち方を固定し、大量の試合数を打って統計検定にかける

 1はシミュレーションアプローチと私が呼んでいるものである。
 これは、モデルを作り、それを具体化(プログラミング・公式化)し、それによって数値を求める方法である。
 基本、『科学する麻雀』の戦術論は凸の作ったシミュレーションによって優劣を判断している。
 もちろん、牌譜解析結果(実測値、つまり、統計)はパラメータとして利用されているので、牌譜解析結果は用いられている。
 しかし、和了率・局収支などの数値は基本的にシミュレーション結果である。

 2は私が牌譜解析アプローチと呼んでいるものである。
 3は私が採用している方法ではないので、これに対する名前は付けていないが、とりあえず、「実験的アプローチ」としてもしておこう。


 シミュレーションアプローチのメリットは、現実で起きない想定に対しても一定の数値を与えられることにある。
 原則として、シミュレーションにおいてパラメータは牌譜解析結果から取ってくる。
 これは現実をより忠実に予測するためである。

 しかし、極端な仮定を置くこともできる。
 例えば、「他家3家はリーチに対する一点読みの天才であり、当たり牌をビタ止めできる、このような状況で先制リャンメンリーチのアガリ率はどうなるか」、という場合がそれである。
 これを実測値から求めることは不可能である。
 しかし、色々な仮定を組み合わせ、それをモデル化し、シミュレータに実装すればこの値を求めることができる。

「違う場合のデータを求める方法」はこれに同じである。
 もっとも、実測値がないので、精度(信用性)の問題がついてまわる。
 この点は、3に書いた「実験を行うこと」で対応する。
 これは「人間が実際に打つ」という手もあるし、あるいは「AIにやらせる」という方法もある(AIは人間の手で評価関数をコントロールできるものを利用する)
 AIが発達しているのだから、AIを実験道具に使うこともあり得よう。


 以上が研究者サイドが提供する回答である。
 なにかしらの参考になれば幸いである。

遊鳥ちゅんの反論に関する私の意見

 最後に、遊鳥ちゅんの反論に書かれた点における私の意見も確認しておく。
 基本的に、私の意見と遊鳥ちゅんの意見はほとんど同じである。
 私の固有の意見が見たい方は、『「統計学」のマージャン戦術』の「あとがき」か『データで勝つ三人麻雀』の「あとがき」を見てほしい。
 いずれも次のURLから見ることができる。

 ただ、一個だけ違和感がある部分があるので、それについて言及したい。
 それは以下の部分である。

(以下、遊鳥ちゅんの反論より引用)
 データ麻雀というと平均的な想定で細かい要素に目を瞑った選択をするイメージを持つ人が少なくない。これは研究者がデータを発信するときにライト層や中級者向けに分かりやすく戦術化していることに起因しているのではないかと思っている。
(引用終了)

 つまり、説明の際の簡単化が誤解の原因になっている、とのことである。
 これについては、私は見解を異にする。
 シミュレーション時のモデル化にせよ、牌譜解析にせよ、「抽象化」という作業がある。
 これがある以上、「細かい要素に目をつむっている」という点は否定する気はない、というか、できない。
 また、どの程度細かい要素に目をつむるか、特殊状況に配慮するかは、研究者が決める問題でもある。
 ライト層に説明するためにそうしているという認識は(少なくても私には)ない。

 それから、私がそうなっている原因は別にあると考える。
 それは圧倒的にリソースが足らないことだ。
 こっちの方が問題としては大きい。

 そりゃ、「平均外を想定した数値を出せ」と言われれば、「別の場合のデータを採る方法」を用いることで数値を出すことができる。
 しかし、そもそも「平均的な想定に対する答え」さえ出ていない状況で平均外の数値を出す意味はあるのか、そのリソースはどこから出すのか。
 現状、数理的麻雀研究者が数名しかいない状況でそこまで手を広げろと言われても、無理である(遊鳥ちゅんがそのように主張しているわけではないことは明らかである、全く念のため)。

 だから、私はライト層に向けた説明の結果としてそうなったという認識はない。
 もちろん、他の研究者がどういう認識でいるかは知らないが。


 以上、何かしらの参考にしていただければ幸いである。

謝辞

 以上、最近起きた一連のやり取りにおける私の見解を述べてみた。
 なお、私の意見をプレーヤーの立場から代弁し、さらに、私に対しても誠実に対応してくださった遊鳥ちゅんには厚く御礼申し上げる。
 どうもありがとうございました。


 では、今回はこの辺で。

もし気が向いたら、サポートしていただければありがたいです。 なお、サポートしていただいた分は、麻雀研究費用に充てさせていただきます。