5.小型車と普通車は自明なLSDであることの発見
自己紹介
1971年から種々の判別データで4つの問題を見つけ、3つの事実で最小誤分類数基準の最適線形判別関数のRIPを開発した。そして4種の普通の線形分離可能データ(LSD)と169の高次元のMicroarayがLSDである事を世界で初めて実証研究で示した。そして3冊のSpringerから本を出版し、革新的な判別理論の骨子を分かり易く説明した。
目次
5.1 見つけた! 2番目の自明なLSDとLSD発見の歴史
5.2 世界初のLSDの判別理論(Theory3)
5.3 1変量のBGSがある「動植物の種」や「産業機械」の判別
5.4 真のData Scientistになるもう一つの条件
5.5 AIの私的な過去の経験
5.1 見つけた! 2番目の自明なLSDとLSD発見の歴史
スイス銀行紙幣データ(200*6)の全63モデルのRIPのMNMとその他の判別関数のNMを調べて、2変数(X4,X6)が最小次元のLSDのBGSであり、これを含む16モデルだけがLSDの信号で、残りの47モデルはLSDでない判別分析にとってノイズであることが分かった。これが世界で初めてLSDの研究を始める切っ掛けになった。
そしてLSDを探して、合否判定が自明なLDFとLSDであることを見つけた。
さらに、大学院生の統計分析の試験で、小型車15車種と普通車29車種の6変数データ(44*6)の主として重回帰分析の秀逸な50頁のレポートが提出された。
筆者は統計手法を1変数、2変数と多変数の軸と、連続尺度とカテゴリー尺度の3*2の表に分けて体系化している。多変量の連続尺度には、重回帰と判別分析が主役である。しかし筆者の研究テーマの判別分析には問題点が多いので、学部や大学院でも教えてこなかった。このレポートをみて、小型車の座席数が4席で普通車が5席以上であり、排気量がある基準以下と以上で小型車と普通車に分けられていることを初めて知った。即ち排気量のX1と座席数のX3という2つの産業企画は、小型車と普通車をLSDに分ける2組の1変量のBGSであることに気づいた。
これらの成果を踏まえて、2015年の10月25日から第1世代の米国の有名な6Microarrayを判別し、僅か54日間でLSDであることが分かった。さらに高次元の横長のLSDは、Program3のRIPで簡単にn個以下のLSDのSMall Matryoshka(SM)に分割でき(Structure2)、Program4のRIPで最小次元のBGSに分割でき(Structure3)た。さらにロジスティック回帰はDF=nのDF分割できることが分かった(Structure4)。即ち多くの理工学研究が1995年以来間違った研究をしてきたが、高次元のMicroarray(n<<p)は横長のLSD(n<p)で、その中にほぼn個以下のDFとSMから最小次元のLSDであるBGSまで含むMatryoshka人形の構造を持っているということを世界で初めて示した(Fact3)。
5.2 世界初のLSDの判別理論(Theory3)
そして2023年に52年間の研究成果を纏めた、分散共分散行列と正規分布に基づく判別理論を終焉させるLSDの判別理論を確立した。本を出筆しながら、Microarray研究の成果で普通の7種のデータを見直した。そしてFisherがLDFの評価に用いたIrisデータ(150*4)はつまらないデータで「何故FisherはIrisデータをLDFの評価に用いたのだろうか?」と考え直した。そして散布図から簡単にX3とX4が2組の1変量のBGSで、(X1,X2)が1組の2変量のBGSである事の重要性が分かった。この知識で15の判別モデルが、13モデルがLSDで、X1とX2の2組の1変量モデルがLSDでないことが分かる。さらにTheoy2の分かりにくいLSDの4つの汎用的なデータ構造のFact3が、14のMatryoshka人形になり、分かりにくいMicroarrayのデータ構造の理解に適している事が分かった。そしてIrisの種の違いがサイズの計測値でLSDになることから、多くの動植物の種がサイズで簡単な1変量のBGSになると考えられる。そして自動車のような産業製品の分類(型式?)は、1変量の産業規格のBGSがあるに違いないと確信する。
さらにCPDデータのように、Program1のRIPは、データに一意の誤分類数を特定できる。この誤分類を省く「ケースの選択」でもって全ての判別データがLSDになる。
ここで重要な理工学教育の問題が浮かび上がる。何故我々の周りにLSDは満ちあふれている。空間上の2つの対象あるいはそのデータがLSDであることは理工学研究の基本である。
しかし誰も論文ではLSDを紹介しているが実際のLSDの分析例はない。ChatGPTでSpringerの英文を日本語に翻訳させた。その後で、LSDに関する具体的な研究やデータを教えてほしいと聞くと、IEEEやRGやSVMの研究で取り上げられているから、それらの研究を調べるようにと言う尤もな平凡な回答である。
なぜLSDの研究がないかは、理工学研究の研究史や教育などの面白い研究テーマになる。
5.3 1変量のBGSがある動植物の種や産業機械の判別
1変量のBGSがある動植物の種や産業機械の判別分析で、これらのBGSを説明変数に用いてはいけない。重回帰分析に用い事は問題で無い。
そして他のLSDの判別にはLINGOの4つのProgramが用いられる。しかしこれらの自明なLSDは、判別モデルを評価する10重CVのProgram2で十分対応できる。
例えば日本車データは6変数でX1とX3の2組が1変量のBGSである。44車種を10回コピーし440に増やす。これを疑似母集団の検証標本とする。そして一様乱数の変数を追加し、小型車と普通車別にソートして10組の学習標本とする。この学習標本は、検証標本の小型車と普通車別に一部をサンプリングした標本になる。そして10組の学習標本でRIPを求める。この10組のRIPで検証標本を判別して得た誤分類確率のERの平均値をM2と呼ぶ。M1は10組の学習標本の平均ERである。
この結果発議の通りである。
1. 2つのBGSを含む12モデルはRIP=5.92*X1 - 4.893になる。MNM=0で、6変数モデルだけがM2=0.02%で残りの11モデルはM2=0になる。
2. 残りの2つのBGSを含む4モデルは、RIP=2*X3 -9になる。ちなみに判別超平面はX3=4.5になる。これは4ざせきと5席の平均になる。MNM=0で全てM2=0になる。
3. X3だけを含む16モデルは、RIP=2*X3-9になる。MNM=0で全てM2=0になる。
4. X1だけを含む16モデルは、RIP=5.92*X1-4.893になる。MNM=0で、4モデルがM2=0.023%で残りの12モデルはM2=0になる。
5. 2つのBGSを含まない(変数のないヌル・モデルを含む)16モデルのMNMの範囲は[3, 13]で、M2の範囲は[1.3%, 3.2%]である。
以上のように、動植物や産業製品は1変量か二変量のBGSでLSDになることが考えられる。この場合、重回帰分析でこれらを説明変数として分析しても良い。しかし判別分析では、全てのモデルの10重CVをProgram2で行い、全てのBGSを含むモデルから、一部のBGSを含むモデルと、全く含まないモデルに層別して考える。恐らく日本車データと同じく、各グループは、同じ簡単なRIPとMNM とM2の結果が得られる。他の判別関数を検討しても、この単純な真相は解明できない。
もしこの63モデルをその他の判別手法で判別した場合、63モデルの判別係数が全て異なり、多くの説明に四苦八苦しながら間違った満足感に浸る。これは、1995年以来行われてきた全てのMicroarayの研究で、LSDという結論を出さないで、間違った結果を延々と発表し続ける状態と似ている。漠然とした結論の論文の集積は何も生まない。
5.4 真のData Scientistになるもう一つの条件
これ迄筆者は、真のData Scientistになるには、統計と数理計画法の基礎知識の上で、世界最高水準の機能を持ったソフトで問題解決できることを主張してきた。統計ソフトは「データで表される対象」を分析する。そしてMPソフトは「数式で表される現象」を分析する。さらにIPは膨大な組み合わせ最適解を見つけることができる。これは、現在のChatGPT等のAI技術では対応できないテーマである。
筆者のようなPCと適したソフトがあれば自費で研究を行い、個人の能力がAIに勝てる数少ないテーマである。要するに何ができて、何が不得意かを、特にAIを考える場合は冷静に比較する必要がある。
さらに、LSDという明確な基準をもったデータに注目するセンスが必要である。LSDでないデータからは曖昧な結果しか得られないと考えるべきである。
そして絶えず経験した知識、技術、結果を役に立つデータで繰り返し評価し比較する事である。そして自分の経験した時間軸上で歴史的な関係で考える事が必要である。
5.5 AIの私的な過去の経験
AIに関しては、筆者は第1世代AIブームのチェスや将棋などのゲームの研究は書籍で学んだ。
第2世代のAIブームは、専門家の知識を代替する知識工学である。日本中が熱に浮かされ、スタンフォード大学のファイゲンバームの本がベストセラーになった。そしてSCS(株)(現SCSK)は、1部上場記念にAIに参入を狙った。社内開発が有力であったが、私に対案を示せという社長命令があった。そこで、SASやLINDOやNAGの代理店以外に100を超える科学技術系のソフトを「学術パック」という名前で販売していた。その中にMSの誕生の地のアルバーカーキの日系2世のDustin社長のExsys社を子会社にする案が良いと答申した。PCやミニコンのVAXで稼働し20万円程度で安い。さらにIntelやネスレなどの世界企業がExsysでAIシステムを開発している。多くの日本の大企業はIBMの汎用機で稼働する1千万を超えるソフトを導入していた。日本企業は製品の正しい評価より、IBM等の大企業を選ぶ悪い傾向がある。
49%の出資で子会社化しAIに進出することを新聞発表した。ちなみに2部上場では、英国の数値計算等の科学技術系のソフトを扱うNAG社の代理店契約を発表した。そして大倉ホテルでイギリス大使を主賓とし、近藤次郎学術会議議長の1時間の講演を依頼した。英国は輸出に貢献したNAG社の社長を1代限りのサーに受勲していた。筆者が大学院に落ちて初めて数学科の名簿で先輩の動向を調べた。その中に近藤先生が京大の数学科から東大の工学部の大学院いき東大教授になっておられることが分かった。医学系のME学会や医療情報の後、OR学会に入った。そこで近藤先生が森村東工大教授らと設立メンバーである事を知った。ロシアの制裁で有名なSWIFTの日本代理店権も取ったが、金融部長の座は、遣りたいという営業マンに譲った。
米国で買収の条件を決めて、無事子会社にした。3ヶ月ほど後に日経AI展に出展し、そこで第2次AIブームが終演したことを知った。そこで社長に公的なAIの研究者に無償で配布する提案をしたが、どうも役員会で否決されたらしい。このため数年間人生で一番苦労したソフトである。
また多層パーセプトロン(MLP)というAI技術を応用したClassifierが機械工学の研究者が他のClassifiersとMicroarray研究で評価している。多くの研究でKernel—SVMやRandom Forestより劣っていることを報告している。それ以上に1層のMLPと見なせるロジスティク回帰が、多変数の入力をロジスティック回帰で1出力する。それが筆者の実証研究でLSDを正しく判別できた。ただし最尤推定法を使う必要がある。恐らくMLPは使っていないと考える。
筆者調べた範囲では、データ解析もChatGPTが全く役に立たない分野であることが分かった。
・ChatGPTは、翻訳に注文をつけれる点でGoogleの翻訳より多少良い。しかし両方手直しが必要なレベルである。
・データ解析は、全く役に立たない。個人がAIより能力を発揮できる限られた技術である。
以上の事実は、AIブームの熱に浮かされず、冷静に得意不得意を次のように検討する必要を示す。
この記事が気に入ったらサポートをしてみませんか?