見出し画像

4.試験の合否判定データ:自明なLDFとLSD

自己紹介  
1971年から種々の判別データで4つの問題を見つけ、3つの事実で最小誤分類数基準の最適線形判別関数のRIPを開発した。そして4種の普通の線形分離可能データ(LSD)と169の高次元のMicroarayがLSDである事を世界で初めて実証研究で示した。そして3冊のSpringerから出版し、革新的な判別理論の骨子を分かり安く説明した。
139文字
自己紹介
 
目次
4.1 合否判定は自明なLDFが分かる良質なLSD
4.2 大学入試センター試験
4.3 合否判定と遺伝子の発現量の類似点
4.4 筆者の統計入門の合否判定
4.4.1 統計入門の中間試験の10択100問の概略
4.4.2 統計入門の期末試験の10択100問の概略
 
4.1 合否判定は自明なLDFが分かる良質なLSD
これ迄誰もLSDの研究をしてこない判別分析のProblem2に気づいた。そして、スイス銀行紙幣データで、初めてLSD研究を行い、重要な最小次元のLSDである2変数のBGSを見つけた。そしてBGSを含む16モデルだけがLSDで、残りの47モデルは判別にとって雑音である。
これはFact1の「LDFの係数と誤分類数NMの関係」とFact2の「MNMの単調減少性(MNMk>=MNM(k+1)」から、MNMを見つけるRIPでできた。そして、他のLSDがないか数日Web検索して無駄骨を折った。ふと試験の「合否判定データは、自明なLDFが分かる良質なLSD」であることに気づいた。誰もが新手いるデータであるが、誰も良質なLSDと考えなかった。
1)例えば大問2問の得点をT1とT2とし、合格点を50点以上とする。このとき、次の自明なLDFが分かる。
LDF=f(T)= T1+T2-49.5 (1)
これでf(T)>0で合格、f(T)<0で不合格と判別でき、NM=ER=0で自明なLDFになる。定数項を-50としてf(T)>=0で合格、f(T)<0で不合格とする間違った判別規則が理工学研究で跋扈していたが、私の指摘が効いたのか最近ではそのような初歩的な間違いを犯す研究者は少ないようだ。Problem1の大きな問題は、同じデータを判別しても多くの判別関数のNM=ERが異なり、信頼できない事だ。そこでデータに一意に決まるMNMを組み合わせ最適化のIPで定式化したRIPを開発した。そしてMNM=0がLSDを定義する統計量になる。
2)試験データは誰でも簡単に入手できる良質なLSDである。しかし設問の質や、合否判定できる最小の設問の組み合わせは誰も知らない。これができなければ、教育工学の質の向上はできない。
3)表紙の図は、英語と国語の2科目の合計点で合否判定を行う。2次元では、2群が僅か1点差で合否データがLSDになる。合格群はSV2>=105点で、不合格群はSV1<=104の2つのSupport Vectorで2次元平面が3分割されて、判別得点の区間(104,105)に受験生がいない事をSVMではLSDと定義している。
英語あるいは国語の1次元の軸に射影すると、合格群と不合格群が仮に2つの正規分布が重なるように描かれて、偽陽性(FP)と偽陰性(FN)の和のNMを最小化するのがLDFによる判別と説明される。2次元がBGSでLSDであることが重要で、1変数の情報が欠けるとLSDでなくなる。これがBGSで明確に説明できる。
判別分析の1変数によるの説明は、全くLSDという認識が無くなる原因のようだ。
また後世の統計家が言ったFisherの仮説は、平均だけ異なる正規分布の2群は、どうも同じ長軸上にあると想定している。しかしSMのPCAの散布図で、第1主成分軸のPrin1で2群が分かれる以外、Prin2で分かれたり、傾きのある判別軸で分かれるSMやBGSが色々ある。重回帰分析で予測値yが実際の観測値で表されるGause分布になることは問題ない。しかしFisherの仮説を満たすような都合の良い実際の2群データにお目にかかったことはない。筆者の学位論文はRGで入手できるが、2つの正規分布の一方を回転し、もう一方を平行移動した組み合わせでERを検討しているので参考にしてほしい。
4)筆者はLSDの程度を表すRatioSV=SV間の距離/判別スコアの範囲*100(%)で定義した。判別得点の範囲が最大の[0, 100]であれば、RsatioSV=1/100*100=1%になる。即ち一般には1%以上になる。ただし症例数の少ないBGSではSVに固定されるケースによって影響され頑強(Robust)でない統計量である。普通のデータだけで用いた方が良い。
4.2 大学入試センター試験
 自分でも試験は行っているが、その多くは例えば「情報分析」の科目では、自分で分析データを探してSASあるいはJMPで分析し、20頁以上のレポートの提出を要求したり、その他の科目でも記述式が多い。そこで行動計量学会で大学入試センターの研究員の発表後に、センター試験のデータを借用できないかと頼んで、13教科の本試験と予備試験の研究データを借りることができた。これはセンター試験当日に、東京圏の東大、東工大、筑波大、一橋大などの現役1年生に行った試験のデータである。センターの研究員が、試験問題の評価の研究をしている。
 筆者は、このデータを得点分布の90%を難易度の高い試験、50%を普通の試験、10%を楽勝科目と想定した。即ち、13*2*3=78の合否判定データである。RIP、LDF、QDF、RDA(正則判別)、ロジスティック回帰による判別と、一元配置の分散分析で個別設問の検討、PCAによる散布図の確認等を1年以上行い、国際会議に1篇、和文論文を2篇投稿した。そしてセンターの研究部門と応用統計学会共催のシンポジュームを成蹊大学で行い、応用統計学会誌に唯一掲載された(合否判定データによる判別分析の問題点、応用統計学、40/3, 152-172, 2011)。
2011年の入試で、ある私大が複数科目の選択で問題の配付ミスがあり、社会問題になった。そして朝日新聞が菅民社党政権が「入試センターの組織の見直し」のリーク記事を報道した。恐らく文部省の出向の事務官が調べて、研究部門がセンター長同席の会議で私が研究概要を報告し、正式に研究データの使用を許可したことを知ったようだ。そして、外部発表を取り下げるようの要請があった。大学の教員は「泣く子と文部省には勝てない」ので3篇の論文は取り下げた。
重要な結果は次の通りであり、分散共分散行列を使ったLDFとQDFの瑕疵である(Problem3)。
1.  数学Ⅱbで、90%点の合否判定でLDFのERが30%を超える試験がある。これは、6種の第1世代のMicroarrayが、SVD(特異値分解)を使った高次元のLDFのERが2%から14%になることに対応する。すなわち分散共分散行列を使った判別関数が信頼できない事を示す。
2.  数学と統計の研究者は、高次元データ解析でSVDによるLDFやPCAを開発し、癌診断に役立てようとしているが、無駄な研究である事が分かる。もし2群が高次元の正規分布のデータがあれば、具体的に示すべきである。
3.  QDFが数学Ⅱb の90%点の合否判定で、合格群を全て不合格群に誤判別することがある。この理由の判明に半年以上かかった。原因は、一般化逆行列の瑕疵である。成績の良い合格した学生の全員がある設問に正解し、不合格者がバラつく場合、この間違いが起きる。JMPの開発者は色々試みたが、解決策がなく2群の分散共分散行列を合格群に用いている。この公式の案内は無い。ソフトの場合、いつプログラムに変更があり、その影響がどうなるか分からない不安がある。例えばJMPの最尤法を使ったロジスティック回帰は、LSDであるSMのNM=ER=0の場合にLSDであると判断した。しかしUpdateで悪い方向に改変され結果が異なることもある。
4.  QDFの問題は、6章で紹介する普通車と小型車のデータで、座席数が5席以上と4席に固定された1変量のBGSである。そして判別モデルに座席数が入るとこの問題が起きる。恐らく他の統計ソフトではこれに対処できない。
5.  また最尤推定法を使ったロジスティック回帰がLSDを判別できるとしたが、繰り返し回数や収束条件が変わるとできない可能性が出る。
 しかし今振り返ると、朝日新聞のリーク記事は筆者の研究にとって好結果である。もし3篇の論文が注目され、試験の合否判定の研究のダークホースになっておれば、その後の癌の遺伝子データ解析や、今回のTheory3の完成ができなかったと考える。研究者は、楽観的な人生観が重要だ。
4.3 合否判定と遺伝子の発現量の類似点
 合否判定と後で紹介する遺伝子の発現量の判別には次の類似点がある。
1.  全ての合否判定は、わづか1点差で合否判定できる。まさか、169のMicroarrayの遺伝子の発現データがLSDであるとは考えなかった。この結果は、正常細胞が癌化すると遺伝子にepigeneticな変化が起き、異なった蛋白量の発現メカニズムになることが素人ながら考えている。一般に医学データの計測機械は他の分野を凌駕していて、品質が高い。発現量は人間が出会った最高品質の計測値と考える。それでなければ、169のMicroarrayが全てLSDになるわけがない。
2.  判別超平面の左右に多くの2群のインスタンスがあるが、決して誤判別されない。しかしMicroarrayの中で、PCAの散布図で2群に分かれない例がある。これは3次元以上の小さな変動の違いの情報がいることを示す。
3.  試験は得点であり、発現量は蛋白量と同一の計測値である。
4.  「iPS研究の山中4遺伝子」が示すように、多臓器をもった人間の生命現象の根源を制御する4因子が、精密機械以上の正確性が要求されることからも分かる。さらに発がん性のあるC-Mycの代わりに、少ないL-Mycに置き換えた4遺伝子も万能細胞を作る。これは「遺伝子のもつ冗長性」を意味する。遺伝子恐るべしである。もう少し若ければ、数学でなく遺伝子工学の研究がしたかった。
 
4.3 合否判定と遺伝子の発現量の類似点
4.4 筆者の統計入門の合否判定
 そこで2011年から2013年まで、成蹊大学の1年生を対象にした全員必修の科目を3人で分担した。約130人の受講生で、40人の学生のアンケートデータを用いたJMPの解説書の「JMP活用 統計学とっておき勉強法―革新的統計ソフトと手計算で学ぶ統計入門 (ブルーバックス CD-ROM)、2004」を用いた。
 中間と期末試験は初めてマークシート試験とし、10択100問の問題である。JSCSの発表で垂水岡山大学教授から10択は多すぎると言われたが、学生が前年の回答を丸暗記する事を避ける意味がある。又100問と多いが、授業でやったことを全てだし、出題を予想する無駄を省くためである。統計の基本を体系的に理解する事に注意した。
 合格点は得点分布の10%点とし、出席や質問回数で加点した。また、入試センター試験に習って50%点と90%点の合否判定も分析した。試験の結果は2日程度で分析し、各設問の正解の分布と各自の得点をメールで送り、自分の合否を考えさせた。この他、研究用に100問を設問内容と難易度で大問4問に分けて分析した。5章で示すが、この難易度の分類がProgram2による平均ERのM2による結果から、全く試験問題の合否判定に役立たないことが分かった。M2による最適なモデルの検証法の正しさを示す。
 通常使われているk重CVは、統計の母集団と標本の関係を無視した間違った評価法である。RGの影響で、日本より海外の研究者が筆者の100重CVや10重CVで本や論文を執筆する例がある。
4.4.1 統計入門の中間試験の10択100問の概略
解答方法:[A:1] という表記は,「A群」の解答欄から適切なものを選んで,マ-クシ-トの解答番号1の対応する数字を塗りつぶしてください.2度目以降に出てくる[1]は解答番号1の解答を意味します.はじめて[9]という表記が表れる場合は,解答番号9をあらわし解答記入欄の①から⓪の数字を1個選んでください.[36].[37][38]は解答番号の36から38までに,例えば0.59のような3個の解答をマ-クします.鉛筆は,HBを用いてください.
1.    推測統計学は研究対象を[A:1]と呼び,[1]をよく表している一部の[A:2]を[A:3]して[A:4]を作る.[4]
から統計量を計算して,[1]を推測することができる.[3]がいい加減だと[1]を正しく推測することは難しい.変数(計測値)のタイプは,テストの素点は[A:5]であり,優・良・可・不可などの評価は[A:6]であり,性別は[A:7]である.[5]は, [A:8]とも呼ばれている.
A群 [①調査法,②サンプリング,③標本,④ケ-ス,⑤連続尺度,⑥母集団,⑦質的変数,
⑧       量的変数,⑨名義尺度,⓪順序尺度]
2.4人の学生の2変数の値の(1,1)、(2,3)、(2,1)、(3,3)から,表の2変数の合計、平均、偏差平方を回答してください。
3.Xの最小値は[21],最大値は[22],最頻値は[23],中央値は[24]で,範囲は[25]である.
 デ-タ件数をnとすると,Yの分散は[19]を(n-[26])で割ったものになるが,ここではnで割ると[20]になる.分散の平方根をとったものを[B:27]といい[28]になる.[28]/ [12]*100を[B:29]という.[B:30]なので異なった変数間の単位の異なった変数間の[B:30]の大きさを比較できる.経済統計で似たものとして[B:31]がある.
4.分布の代表値は3つあり,値の大きな方に裾を引く分布では[B:32]≦ [B:33]≦[B:34]になる.値の小さな方に裾を引く分布では[B:35]≦ [B:36]≦[B:37]になる.左右対称な単峰性の分布ではこれらの統計量は[B:38].以上から分布の代表値として[B:39]を重要視すべきである.
5.右の正規分布表(省略)から,75%点はZ1=[40].[41][42]とZ2=[40].[41][43]の間にある.Z2の値を用いると正規分布の四分位範囲は [44].[45][46]になる.中央値はZ=[47].[48][49]になる.正規分布はN([B:50], 分散)で表わす.正規分布表は標準正規分布N([51], [52]**2)になる.偏差値は実際の得点分布のパ-セント点をN([53][54], [55][56] **2)のパ-セント点に対応したものである.偏差値70は,標準正規分布のZ=[57]に対応し約98%であるとすれば,偏差値30は約[58]%である.偏差値69.6は,9[59] .[60]%である.
B 群 [①平均値,②標準偏差,③中央値,④分散,⑤無次元数,⑥変動係数,⑦ジニ-係数,⑧ばらつき,⑨最頻値,⓪等しい。
6.下の3つのグラフ(飲酒日数のヒストグラム、分位点、モメント)は左から右に[C:61],[C:62],正規分位点プロットという.[61]で最初に行うことは,分布が[C:63]か[C:64]かを調べることになる.もし[64]であればその理由を調べる必要がある.
この分布は[C:65]で[C:66]分布である.すなわち飲酒日数が[67] 日/週である学生が[C:68]である.
7.[62]の髭の最下端は[D:69]で[70]日/週,箱の下辺は[D:71]で[72] 日/週,箱の中央の水平線は[D:73]で[74].[75] 日/週である.範囲=[D:76]-[D:77]で100%のデ-タがこの区間に含まれる.四分位範囲=[D:78]-[D:79]で[80][81]%のデ-タがこの区間に含まれる.もしデ-タが[D:82]であれば,小数点第3桁を四捨五入すると区間の下限=[83].[84] [85]-1.96*[86].[87][88]から区間の上限=[83].[84] [85]+1.96*[86].[87][88]に[89] [90]%のデ-タが含まれる.
8.区間の下限=[83].[84] [85]-1.96* [91].[92][93]から区間の上限=[83].[84] [85]+1.96* [91].[92][93]に[D:94] の[D:95]が[96] [97]%の確率で含まれる.
C群 [①多峰性,②単峰性,③左右対称,④ヒストグラム,⑤外れ値,⑥分位点,⑦箱ひげ図,
⑧値の大きな方に裾を引く,⑨値の小さな方に裾を引く,⓪最小値]
D群 [①最小値,②25%点,③平均値,④75%点,⑤90%点,⑥最大値,⑦デ-タ,⑧正規分布,⑨母集団,⓪中央値 ]
9.推測統計学は賢い統計ユ-ザ-にとって難しいものではない.調べてもいない飲酒日数の母集団が[E:98]と仮定する(帰無仮説).そして40人の標本のヒストグラムが上のような分布になった.帰無仮説のもとで
このようなヒストグラムになる確率を求める計算式(Shapiro-WilkのW検定量の表を省く)が統計学の研究で得られ,
そこからp値(確率)が[E:99]であった.これから,飲酒日数の母集団の分布は正規分布[E:100]と推測できる.
E群 [①である.②でない.③かどうか判断できない.④かもしれない.⑤かどうか私の人生に関係ない.⑥0.887238,⑦0.0008,⑧正規分布,⑨一様分布,⓪値の大きな方に裾を引く分布 ]
4.4.2 統計入門の期末試験の10択100問の概略
解答方法:  [A:27] という表記は,「A群」の解答欄から選んでマ-クシ-トの解答番号27の数字を塗りつぶす. [1]という表記は解答番号1の解答記入欄に,①から⓪の数字を1個選ぶ.[36].[37][38]は解答番号の36から38までに,例えば0.59のような3個の解答をマ-クする.下線を引いた100問をマークシートに記入. 101は本紙に.
次の4件のXとYのデータ(3,1),(1,3),(2,1),(2,3)の相関係数を計算し,YをXで単回帰分析せよ.空欄は計算に利用してください.Xの合計は[1]で平均は[2],Yの合計は[3]で平均は[4]である.Yhatは,yの予測値である.表は、Xの偏差平方、Yの偏差平方、XとYの偏差積、yhat=4-X、誤差、Yhatの偏差、Yhatの偏差平方、誤差の偏差平方の[5]から[26]の整数一桁を選ぶ。
相関係数は,r=(XとYの[A:27])/SQRT(Xの[A:28]*Yの[A:28])= (XとYの[A:27])/(Xの[A:29]*Yの[A:29])
=(-[30]/ [31])/SQRT(([32]/ [31])* ([33]/ [31]))= -[34]/ SQRT([35])≒ - 0.[36] [37] [38]になる.
ただし,SQRT(2)= 1.414で計算.YをXで単回帰分析するとyhat=4-xという[A:39]が求まる.この単回帰分析の[A:40]は右のようになる.偏差平方和と自由度の値には,[A:41]の三平方の定理という次の式が成り立つ.[A:51] = [A:52]+[A:53].ただし,[A:52]は[A:53]より表の上にある.P値は,Excelの関数を用いて,FDIST([54],[55],[54])で計算でき0.293であるので,この回帰式で予測は[56](できる場合は1を,できない場合は5を回答する).
回答の分散分析の表の[42]からF値の[50]を埋める。
⑥    A群 [ ①モデル,②ピタゴラス,③分散,④フィッシャー,⑤誤差,⑥回帰直線,⑦標準偏差,⑧全体,⑨分散分析表,⓪共分散 ]
2.性別と喫煙の有無の右の分割表について回答せよ.
性別や喫煙の有無のような名義尺度や順序尺度の1変数の分析が終わった後,右のような性別と喫煙の有無の度数を同時に分析することを[B:57]による[B:58]性の検定という.上段の数字は[B:59]といい,中段はこの2変数
が独立な場合の度数で[B:60]という.下段は上段と中断の差を表す[B:61]である.これらの度数から次の[B:62]を計算する.
[B:62]=Σ([B:59]- [B:60])2/[B:60]= Σ[B:63] 2/[B:60]= [64] /[65].
もしこの2変数が[B:58]であれば,実度数= [B:66]であるので[B:62]= [67]になる.一方この2変数が[B:58]でなければ,[B:62]は[B:68]なる.通常は,[B:62]が[64]/[65]以上になるp値をχ自乗分布から求めて0.05以下であれば2変数は[B:58]でないと判断する.この場合,[B:63]が正になる2変数の組み合わせに注目すればよい.
この分割表の自由度は[69]であり,この場合にはこの実度数が表れる確率をFisherが次のように定義した.
Fisherの直接確率=5!* 5!* 6!* 4!/(2!*4!*3!*1!10!)=5/[70][71] .このデータでは分割表は[72]個でき,全ての分割表でカイ2乗値を計算しFisherの直接確率で度数表を作れば,χ自乗分布を利用しなくても良くなる.
 回答は2*2の分割表の[73]から[77]を埋める。
B 群 [①実度数,②分割表,③0より大きく,④カイ2乗値,⑤偏差,⑥独立,⑦期待度数,⑧予測値,⑨小さく]
3.右の分析結果は,成績と支出に関する相関分析と単回帰分析の結果である.
 2個の連続尺度で相関分析を行う場合,最初に相関係数で判断してはいけない.最初に[C:78]をしらべて[C:79]があるか否かを検討する.[C:80]は[C:78]を調べないで相関係数だけで判
断すると間違うことを警告している.右のデータは,[C:78]から相関係数を検討して良い事例である.相関係数から[C:81] があることが分かる.XとYに相関があることを前提に,2つの変数に[C:82] がある場合,[C:83]を行う.原因を表す変数を[D:84]といってX軸に,結果を表す変数を[D:85]といってY軸にプロットする.
[C:83]では,最初に[D:86]の[D:87]を調べる.5%で棄却されるので,回帰係数が[88]という帰無仮説が[E:89]ので,説明変数XでYを予測[E:90].
次に,[E:91]を調べると[E:92]なのでXから計算される[E:93]の説明力は[E:94](0:良い,1:良くない)ことがわかる.
最後にパラメータの推定値を検討する.推定値と標準誤差から95%信頼区間を検討する代わりにt検定のp値から正か0か負かが判断できる.勉強時間の回帰係数の値は[D:95]である.
C群 [①回帰分析,②無相関,③Anscombeのデータ,④相関係数,⑤p値,⑥直線関係,⑦負の相関,⑧因果関係,⑨正の相関,⓪散布図]
D群 [①説明変数,②目的変数,③原因,④結果,⑤分散分析(表),⑥F値,⑦p値,⑧決定係数,⑨正,⓪負]
E群 [①棄却される,②棄却されない,③できる,④できない,⑤決定係数,⑥0.5以上,⑦0.5以下,⑧偏差平方和,⑨予測値,⓪分からない]
4.勉強時間の回帰係数の95%信頼区間を求める式を記入してください.
勉強時間の回帰係数の95%信頼区間=[[F:96]‐[F:97]* [F:98],[F:96]+[F:97]* [F:98]](ただし,[F:97]> [F:98]).小数点3桁以下を切り捨てて計算すると,区間[[F:99],[F:100]]になる.
F群 [①2.80,②52.39,③5.18,④3.46,⑤1.95,⑥15.12,⑦1.96,⑧6.47,⑨3.99,⓪0.61]
5.分割表がどのような業種で使われているか? [101 手書きで番号を記入:   ]
G群 [①自動車,②電気,③コンビニ,④銀行,⑤製造業]

この記事が気に入ったらサポートをしてみませんか?