繰り返す集中と分散の歴史

2023年6月8日 07:50

30年以上昔に大型計算機が全盛で、データセンターに置かれた巨大なコンピュータリソース(今となっては小さいですが)を顧客ごとに切り分けて共有する形でアプリケーションを実行していました。この後、Sun Microsystems を中心としたワークステーションの台頭、インターネットの普及、Linuxの誕生を経て、利用する顧客がそれぞれコンピュータリソースを立ち上げる分散環境へと変化しました。
現在はみなさんご存知の様に、クラウドサービスという名には変わっていますが、大型計算機と同じ形態に戻っています。違うのはインターネットを介した自由な通信、リソースの柔軟性、コストですが、本質は変わらないです。

AIも同じ歴史を辿る

現在大規模言語モデルは、ChatGPT、Bing、Bardなどの様に集中型の利用方法となっています。進歩が早く追いつくのが難しいサービスは大量のリソースを必要とする場合も多く、黎明期はどうしても集中型となります。今後はどうでしょうか？このままコンピュータリソースを食い尽くし続けて肥大化するのなら集中型は続きます。しかし、どこかのタイミングでリソースの低減やコスト削減、モデルの分岐により、オープンソースの言語モデルを中心とした分散化が進むでしょう。Unixワークステーションが大型計算機を駆逐して行ったのと同じ歴史が繰り返されます。

集中か分散か

一部の意識の高い人を除いて、実際にはみんな集中型が大好きです。自分が利用する領域が確保され安全が確立されているなら、個別管理より大手の人気サービスに全てを託します。これは企業、個人関係なくこの傾向です。しかし、自分達がコントロールしたいという要望もあり、一定量は分散化されます。小規模なモデルをエッジに最適化して動作させることを試みる企業も増えるでしょうし、オープンソースモデルを使いたいと言うニーズも増えると思います。また情報保護の観点から分散せざる得ない問題もあります。

オープンソースモデルを軸に

この様に集中型、分散型は主流が交互に入れ替わりながら進んでいきますので、現時点ではChatGPTなどに頼るのではなく、オープンソースモデルを含めたエッジでの活用に力を入れる様にした方が良いと思います。「質問したらこんな答えが返ってきた」と喜ぶのはもうやめましょう。自分たちのデータをどう活用するのか、ファインチューニングを行うためにはどんな形式のデータを生成する必要があるのか、生成された結果を測定するベンチマークは何かと言う課題に移行しましょう。そうしないと、話題のキーワードに乗ることだけが目的となってしまいます。

この記事が気に入ったらサポートをしてみませんか？