山岡重行聖徳大学講師の拙稿への「批判」と統計学理解の問題及び研究教育倫理の重篤な問題について② 平行軸プロットにおけるスケールの表現

「平均差を図示するのに、標準得点のグラフを用いている」ことに対する批判に関係するだろう議論としては、以下の3つを挙げたい。

(a) 平行軸プロットにおけるスケールをどのように設定すべきか?
(b) 効果量を見る際に、標準化した効果量を見るべきか、生の効果量を見るべきか?
(c) グラフにおける軸のスケールをどのように設定すべきか?

 以下で上記の(a)、(b)、(c)について順に述べていく。


(a)平行軸プロットのスケールに関する議論

表1 表1:平行軸プロットを描くのに用いたダミーデータ

図1:元データそのものの平行軸プロット

図2:中心化したデータの平行軸プロット

図3:標準得点の平行軸プロット

平行軸プロットとは、図1、図2、図3のようなグラフである。北田(2017)のp.291における図8-4では棒グラフが使っているが、平行軸プロットは折れ線グラフとなっている(これはよろしくない)。本資料の図1、図2、図3では、5つの個体における3変数の値がプロットされている。北田(2017)のp.291における図8-4では、群ごとの平均をプロットしているが、図1、図2、図3では簡単のために、個体ごとのデータをプロットしている。ここで用いているデータは説明のためのダミーデータである。
統計学におけるデータヴィジュアライゼーションの分野において、平行軸プロットのスケールをどうするべきかという問題がある。その問題について簡単に説明するために、表1の疑似データを平行軸プロットで描いたものが図1、図2、図3である。
図1、図2、図3は、どれも表1で示される疑似データに基づくものである。ただし、図1は、元データそのままのスケールで描いている。図2は、中心化した変数(平均を引いたもの)を用いている。そして、図3は、標準得点(平均を引いて標準偏差で割ったもの)をプロットしている。
同じデータに基づいているのに、 図1、図2、図3の見栄えは大きく異なる。
どのプロットが良いかは統計学的には一概には言えない。もし、絶対的な大きさを見たいのであれば、図1のように元データをプロットすべきであろう。この立場が山岡氏の立場であると推察される。ならば山岡氏は自らの研究においてその立場をとる理由を明確化すべきである。有意差を問題化する山岡氏がそのような立場を一貫して採っているのか、私には疑問である。一方、相対的な位置を知りたいのであれば、図2のように中心化したデータをプロットするか、図3のように標準得点をプロットすべきであろう。こちらは北田の立場である。

山岡氏は有意差に執拗に留意するのに、こうしたプロットについては、絶対差の立場をとっている。実際、プロットするすべての変数が同じ単位である場合には元データをプロットしたらいい、というわけでもない。たとえば10種競技で1500m走と100m走の記録をプロットする場合、たとえ同じ単位(秒)で測定されたいとしても、それらをそのまま平行軸プロットにするのは無理がある。1500m走と100m走の記録をプロットする場合、それぞれの変数での相対的な位置、つまり、標準得点をプロットするのが穏当である。

平行軸プロットには変数の並び順と軸のスケールをどのように設定するかが重要である(Theus 2008,pp.169-171)。
図1、図2、図3では、Q1, Q2, Q3の順番で左から並べたが、この並べ方は恣意的なものであり、並べ方に特定のルールがあるわけではない。いわゆる偏差値は平均が高得点(たとえば100点満点で75点)であっても相対差をみるという目的に照らした場合無意味ではない(標準得点×10+50というのは恣意的に過ぎるにしても)。標準得点の差を提示した私の図にはなんの作為もない。そのままを記しただけである。これを「結果の捏造」というのであれば、もはや「捏造」の意味自体が不分明になる。こうしたそれこそ恣意的な他者批判は厳に控えるべきであろう。山岡氏の議論に沿って考えるなら、いわゆる受験産業で使用される「偏差値」は「捏造」となる。そういうのは言論の自由であるが、いささか極端なものの見方であり、標準偏差と平均と得点から導き出される数値の意義を否定するものともなっている。


また、平行軸プロットは、図1、図2、図3で見たように、軸のスケールによっても違いが出てくる(Theus 2008,pp.169-171)。中心をどのように設定するかだけでも、Theus(2008,p.169)は4つの方法を提案している。

・ 平均を中心とする。
・中央値を中心とする。
・特定の個体におけるデータを中心とする。
・特定の値を中心とする。

 今回の場合は私も山岡氏もリッカート尺度であった。選択肢数が同じであるので、すべての変数でスケールが同じと思えなくもない。しかし、たとえ選択肢数が同じであっても、質問によって位置やばらつきは異なるだろう。たとえば、サッカー好きの尺度を構成する場合、日本代表の試合を見ること、有料衛星放送でヨーロッパの試合を見ること、スタジアムに行って応援すること、自分で実際にプレーすることでは、同じデータ値であっても、好きさの程度が異なると考えるのが穏当だろう。
 平行軸プロットにどのようなスケールを適用すべきかについて、唯一無二のハウツーがあるわけではない。ただし、相対的な位置を見る場合には標準得点を、絶対的な位置を見る場合は元データをプロットするという大まかな使い分けはできるだろう。
 平行軸プロットのスケールに恣意性があるのは、平行軸プロットというグラフのもつ性質である。図1のように元データをプロットした場合、Q2とQ3における相対的な違いを矮小化することになる。図2のように中心化したデータをプロットした場合、Q2やQ3の位置の情報を失うことになる。図3のように標準得点をプロットした場合、位置の情報だけでなく、Q1に比べてQ2とQ3の絶対的なばらつきが小さいという情報も失う。

●(b)効果量の標準化に関する議論
上記の(b)においては、Wilkinson and the Task Force on Statistical Inference(1999,p.599)で以下のように述べられている。

“Effect sizes. Always present effect sizes for primary outcomes. If the units of measurement are meaningful on a practical level (e.g., number of cigarettes smoked per day), then we usually prefer an unstandardized measure (regression coefficient or mean difference) to a standardized measure (r or d). It helps to add brief comments that place these effect sizes in a practical and theoretical context.”(Wilkinson and the Task Force on Statistical Inference 1999,p.599)

 今回、「捏造」という言葉で山岡氏が問題としている質問の選択肢はリッカート尺度である。上記引用での基準に基づけば、標準化した平均差を用いることもありうるし 、生の平均差を用いることもありうる。

なお、私自身、たしかに、リッカート尺度は順序尺度なのだから、平均差を用いることを見直すべきだと思う。標準化している、していないの違いはあるものの、私や山岡氏の両者は平均差を効果量としている。リッカート尺度を便宜的に間隔尺度として扱い、平均を求めることは伝統的に行われており、合理的ではある。しかし、順序尺度なのだから順序尺度にカスタマイズされた統計手法を用いることも確かめるべきであったと反省している。たとえば比例オッズ比やU統計量といった指標を効果量として採用する ことも考えたほうがベターであったと思いいたっている。しかし、直観レベルの山岡氏の難詰に付き合う必要はないと考える。

 効果量を標準化すべきか否かに関する先行研究としては、ほかにも、たとえばBaguley(2009)がある。Baguley(2009,pp.610-612)は、次の3つの理由から標準化した効果量には否定的である。第1に、生の効果量は分散推定値から独立しているので、よりロバスト(頑強)である。第2に、生の効果量の単位は、元データの単位と同じである。よって、多くの統計利用者は、生の効果量のほうが解釈しやすい。第3に、生の効果量のほうが計算しやすい。Baguley(2009)の立場から言えば、標準化せずに生の平均差を見るほうがよい ことになるだろう。しかしそうした発想から山岡氏が拙稿を批判したとは到底思われない。山岡氏自身が提示する図自体がそうした問題を考えたうえのものとは思えないものが少なからずある(この点は後日詳述する)。


●(c)一般的なグラフのスケールに関する議論
 最後の「(c)グラフにおける軸のスケールをどのように設定すべきか?」という問題は、一般向けの啓蒙書や入門書において、「ウソ」や「騙し」といったセンセーショナルな用語で語られてきた。この問題の論点は、グラフの軸に対する設定によって、差や変化が誇張されたり、矮小化されたりすることがあるという点である。「統計のウソ」といったタイトルで提示される議論の大半はこうした形でなされている。
 グラフのスケールに関する批判や議論が生じた時期を私は知らないが、遅くても1946年のハウツー本(Butsch 1946,pp.30-31)には、棒グラフのY軸はゼロから始めるべきだという説が見られる 。学校Aの生徒数が320名、学校Bの生徒数が390名だったときの棒グラフとして、Y軸の開始点を300とした棒グラフを「間違ったグラフ(incorrect graph)」として紹介し、以下のように述べている。

“The result is that the unwary reader, failing to note the 300 point on the scale, may interpret the figure as indicating that School B is four and one-half times as large of School A.”(Butsch 1946,p.31)

 Spear(1952,pp.33-34)でも、折れ線グラフであれ、棒グラフであれ、Y軸はゼロから始めることを推奨している。同じ著者の1969年の書籍(Spear 1969,pp.58-59)でも同じ内容が書かれているが、章名が“Cheating by Charting”となっている。

 一般にも軸スケールの問題が広く認識されるようになったのは、1954年のダレル・ハフによる『統計でウソをつく法』(Haff 1954,高木訳1968)の影響が大きいといわれる。なお、同書は学術書ではなく、一般向けに軽い語り口で書かれた啓蒙書である。参考文献も挙げられておらず、根拠が乏しく、統計のウソを暴いているというハフの主張が本当なのかウソなのかが判断し難い。しかし、同書は、今日まで、統計業界に限らず多くの人々に読まれてきており、伝家の宝刀のようにグラフ表現がセンセーショナルに批判されることは少なくない。同書でも、やはりY軸はゼロから始めることを推奨しており、軸の範囲を短めにすることで誇張されたグラフを「びっくりグラフ(gee-whiz graph)」(Haff 1954,pp.60-65;高木訳 1968,pp.93-102)と呼んでいる。
 
 なお、グラフはゼロから開始すべきかどうかという議論は、今日も続いている。大橋・林訳(2011,Lang, T.A. and Secic,M. 著)のp.304では、議論を少し紹介している。

 グラフのスケールに関する問題は、日本語および英語のWikipediaにも、「誤解を与える統計グラフ(Misleading Graphs)」という項目がある(英語版および日本語版のWikipedia,2019閲覧)。棒グラフでY軸をゼロから始めていなグラフを「途中で切ったグラフ(truncated graph)」と呼び、また、差や変化を誇張したり矮小化したりする操作として「軸の変更(axis change)」を挙げている(日本語版Wikipedia,2019閲覧)。

 グラフのスケールに関する問題は、高校生の教科書にも登場する。
2017年の『社会と情報』(本郷ら 2017)では、「情報操作」の項目にて、「情報操作とは,発信者が世論をさわがせたり自分の利益を追求するなどのために,情報のねつ造,隠蔽,改ざんなどを行うことを指します」(本郷ら 2017,p.17)と定義したあと、「1-7図 同じ情報でも,表現の仕方で解釈が異なる例」」(本郷ら 2017,p.17)として気温のグラフを示している。そして「右のグラフ[軸の範囲を狭くしたグラフ]のような表現は,小さい変化がわかりやすくなるが,わざと誤解させるためにこのような表現が用いられることもあるため,グラフなどを読む際は注意する。」(本郷ら 2017,p.17)と述べられている。

 以上で見てきたように、歴史的に見ると、遅くても戦後間もなくの1950年代から、軸のスケールに関する話題は、「ウソ(lie)」,「騙し(cheat)」といったセンセーショナルな用語で一般向けの書籍で語られてきた。また、最近の高校教科書でも、軸のスケールに関する問題は「情報操作」の項目のもとで解説されている。

山岡氏における「捏造」という言葉も、上記したような啓蒙書の語彙を借用しているようにも推察できる。しかし、「捏造」は一般的には「事実でないことを事実のようにこしらえること。でっちあげること」(デジタル大辞泉)という意味であり、個人に対して向けられた場合、相当に強い言葉である。というか、私の提示した標準化得点のグラフになにか作為的な捏造があったとするなら、山岡氏はそれを指摘すべきである。このご時世に他者の提示したデータを「捏造」と言い放つには、相当な確証があってのことだろう。しかし不思議なことに、私は山岡氏からローデータの照会を受けたことがない。いったいいかなる意味で「捏造」と言っているのか、まったくわからない。「データ、データの結果の捏造」という文言に気をとられ、「結果の捏造」を「結果の解釈を誇張して捉えている(と思える)」と捉えていたとするなら、重大な意味において山岡氏は研究倫理規程の本質を見失っている。「データの結果の捏造」とは、数値で得られる/観察から得られるデータを図像の意図的な改鋳によって、根拠として正当化することを意味する。ローデータを求めることもなく、標準得点のグラフを「捏造」と決めつけられるとすれば、そのひとはエスパーか、標準化の意味が分かっていない者である。

もし、平行軸プロットに類したグラフでのスケールをどうすべきか、効果量を標準化すべきか否かや、グラフのスケールをどうすべきかという問題に類似した議論がしたいのであれば、上記したようにさまざまな議論の蓄積があるのだから、その蓄積を踏まえて批判すべきだろう。

私は今回かなり抑制的に記述をしたつもりであり、山岡氏自身の研究に対して言いたいことは山ほどある。それをすべて公開することが私の趣意ではない。重要なのは公共的な理性の使用である。


この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!
2
社会学。東京大学情報学環。