【本文無料】Sustainability拾遺集(01)「transformerモデル登場の歴史的意義とこれからの展望」についての話。

割引あり

2024年9月28日 20:53

「集計範囲を拡大する方向のベイズ更新」すなわち過去投稿への追補。今回取り組むのはこちら。

最近、深層学習界隈が「学習データの自給」を標榜する様になりました。それまでこの界隈の伸びが著しかったのはインターネット上の巨大トラフィックが「餌」に使えたから。適当なスクレイピングで稼げた時代があっという間に終わった様に、人工知能技術投入によるテコ入れにも限界が見えてきたのでこの展開とすれば、それは「シンギュラリティの沓音」というより「植物の誕生」という事。

上掲「シンギュラシティより恐ろしい「Big Data活用術の人間への依存率が低下していく時代」における個人のSustainability戦略についての話。」

「学習データの自給」と言いますが、既に深層学習においてベクトル化された言語の出現頻度や条件付出現確立分布から分布意味論的確率空間を構成する既存の方法において、ただ単にLLM(Large Language Model)のモデルサイズをどんどん大きくする方向で性能を向上させる方法では限界が見えてきたとも。そこで推論中において様々な中間段階を置く方法を工夫するのがトレンドになりつつある様です。今のところ、最先端を走っているのはGoogle社とOpenAI社ですが、Microsoftも独自アプローチを発表してたりしています。

上掲の投稿などを参照しながら情報アップデートに取り組んでいきたいと思います。

本文(2529字)

思えば全ての出発点は18世紀まで「未知数の個数より式の数が多い連立一次方程式」が解けなかった事だったのです。例えば二本の直線なら一点で交わりますが、三本の直線の交点は三個。もちろんこういう場合の解は近似的にしか求められない訳ですが、ちょうど良いタイミングでフランス革命の最中に「革命の一端として地球の大きさを基準に計測単位を再設定しよう」という機運が盛り上がり、新たな計測データがパリに集められました。そして同時期にラプラス(Pierre-Simon Laplace, 1749年~1827年)の最小一乗法(1799年)やルシャンドル（Adrien-Marie Legendre、1752年~1833年)の最小二乗法(1805年)が次々と発案された次第。その結果生まれたのが、皆さんも今使ってるメートル法。そう、ある意味最初から「(何らかのアルゴリズムを用いない限り人類の手に扱えない)Big Datasありき」だったのです。

一般に最小二乗法というと1809年に基礎理論を発表したガウスの名前が浮かぶが、残念ながら彼はドイツ人だだったのでこのフランスのプロジェクトに参画出来ず発表が出遅れてしまったのである。その悔しさをぶつけるかの様に以降は誤差関数など関係数理の整備に邁進し、その結果「最小二乗法の父」とでも呼ぶべき歴史的地位を獲得するに至ったのだった。

そして奇しくも同じ1954年、ほとんど同内容のロジスティック回帰分析と単層パーセプトロン概念が発表されました。この時点で使える数値最適アルゴリズムは「(上掲の最小二乗法の発展形たる)互いに直行する線形回帰のN次元合成」のみ。中間層概念もない寂しい有様だったとはいえ、それでも後世から振り返ってみれば「学習データとテスト用データを分けて与える」機械学習概念が樹立された重要な歴史的画期ではあったのです。

単層パーセプトロン概念は最初、その考え方のイメージソースを最初は線形フィードバック、次いで生物の内蔵間のホルモン分泌連鎖や、群における個体間のホルモン連鎖などに求めたノーバート・ウイナー「サイバネティクス(Cybernetics, 初版1948年、増補版1961年)」に倣って神経間の伝奇的伝達のイメージに重ねられた。ニューラルネットワークなる呼称はその当時の名残り。皮肉にもこの系列のアルゴリズムは「深層学習(Deep Learning)」の体裁を整えるに至ったラメルハートとヒントンが1986年に発表した論文「3層ニューラルネットワークのパラメータ推定のための誤差逆伝播学習則（主にシグモイド関数と合わせて用いるバックプロパゲーション）」や同時期登場した畳み込みニューラルネットワークがによって心理学や生理学のメタファーで考えられる範疇を超越する展開を迎え、純粋数理の世界へと突入していったのだった。
しかし別に当時から決定木アルゴリズム(Dicision Tree)や問題空間(Probrem Spece)アルゴリズムといった他の人工知能アルゴリズムに対して決定的優位に立てていた訳でもない。特にtransformer登場前夜には決定木アルゴリズムのランダムフォレスト概念到達によって圧倒的不利を強いられていたのである。

ランダムフォレスト技法もそれなりに並行処理による高速化を意識していましたが、自然言語処理から出発したLLM(Large Language Model=大規模言語)としてのtransformerアルゴリズムの適応はそれ以上。何しろそれまで積み上げてきた再帰処理やバックトラックや畳み込み処理の伝統の一切を捨て去ったのです。この辺りはSQL Serverとして完成したRDBMSが2000年代、インターネット・トラフィック急増に対応すべく一旦処理の重い部分を捨ててNoSQLに退行した歴史を彷彿とさせます。そう、こうした革新もまた「(何らかのアルゴリズムを用いない限り人類の手に扱えない)Big Datasありき」だったのです。しかも最終的にtransformerの性能は様々な分野でCNN(畳み込みニューラルネットワーク)モデルやRNN(回帰形ニューラルネットワークモデル)のそれを上回り、これらをリプレースする展開に。こうなるともはや単なる自然言語処理アルゴリズムとはいえなくなってきますね。

最近「思考連鎖プロンプティング能力を搭載した」ChatGPT o1(OpenAI o1)の出現が話題となっていますが、そこまで至るこうした前史を振り返ると、それほど飛躍的発展があったとも限らない様です。

実は深層学習アルゴリズムと問題空間アルゴリズムの融合は2010年代から始まっていた。こちらの研究ではGoogleが先行していて、今年の7月には2015年に囲碁でプロ棋士を負かした「アルファ碁(AlphaGO)」の系列に連なる「アルファプルーフ（AlphaProof）」や「アルファジオメトリー（AlphaGeometry） 2」が数学オリンピックで新記録を打ち立てたりしている。今回OpenAI社が発表したChatGPT o1(OpenAI o1)に搭載された新機能は、ざっと眺めた限りこうしたGoogleの既存研究範囲をそれほど大きく超える内容ではなさそうである。
AI研究向けデータセンター用にスリーマイル原発を再稼働させると発表して世間を驚かせたマイクロソフトだが、それだけでなく複数の「専門家」モデルを組み合わせ、各タスクに最適な専門家を選択することで効率的な処理を実現する「GRIN-MoE」モデルを発表している。

これまで21世紀に入ってからのインターネット・トラフィック急増の産物たるBig Dataに支えられて急成長を遂げてきたtransformerモデルですが、そこから得られる有用情報量が枯渇に向かう一方、ただ単にLLM(Large Language Model)のモデルサイズをどんどん大きくする方向で性能を向上させる方法自体に限界が見えてきたとあっては、こうした方向に舵を切らねばならないのもやむを得ない所。そこまで明らかに出来たところで、とりあえず以下続報…

プロダクション・ノート

「この文章、どうやってまとめたの？」という部分に興味が出てきた方は是非以下をご覧になって下さい。文章量の都合上、泣く泣く削除したトピックなども掲載されております。是非お手にとってお確かめ下さい。

ここから先は

9,781字 / 3画像

期間限定！PayPayで支払うと抽選でお得

ログイン

この記事が気に入ったらチップで応援してみませんか？