見出し画像

◆コミニティツールDiscordの使い方を学ぶ。『シャバット・ジャーナリング』ガイド⑯ コミニティへの参画

https://x.com/SelfRetreat12/status/1820808987245428924

GPT 関連、直近の展開状況のまとめ。 言い草はアレコレあろうが、あっという間に時価総額4兆円の企業(Open...

Posted by 北川 高嗣 on Monday, February 27, 2023

GPT 関連、直近の展開状況のまとめ。

言い草はアレコレあろうが、あっという間に時価総額4兆円の企業(Open AI)が誕生した。(これは日本で言うと郵貯、みずほ銀、キャノン、富士通レベル)

企業機密がクラウドに上げられないので、展開はある程度限定的かとも思われた。かといってGTP-3のパラメータ数は、1750億であり、この学習には、機材運用(Dev.Op.)合わせれば数十億円がかかる。気軽には手が出せない。

ところが、Flex Gen という、一台のNvidiaマシンで動くGPTのフレームワークが登場した。(対応機種はNVIDIA Tesla T4)

開発はDiscord というユーザコミュニティ。

これで、企業も気軽に参入が可能となった。

今(GPT界隈で)起こっていることは、自然言語処理に特化しておりその「突如感」の本質は、概ね以下のようである。(一言で言ってしまえば、この言語処理(NLP)、いわゆる「言語処理」などしていません。)

「統計的機械翻訳」は、それまでの自然言語処理とは全く異なった発想で作られている。

それまでの自然言語処理では、「人間の言葉は機械的に分解可能である」という仮説に基づいて、品詞まで分解して、文法規則に基づいて組み合わせればうまく翻訳できると考えられていた。

一方、統計的機械翻訳は、「意味の理解は不可能である」という前提に立って、意味を構造的に解釈するのではなく、前後の文脈のみに注目して、「次に来そうな単語」を条件付き確率論的に予測することに集中した。(条件付きの条件が文脈に当たる。プロンプト(文脈を与える)が重要とはそういうことだ。)

「適切な単語の選択」や「日本語としては長すぎる文章の適切な長さへの分割」なども、確率的な予測をすれば自動的に学習し、再現できる。

この考え方が、現在の大規模言語モデルの基になっている。

このコペルニクス転換には、1750億パラメータと言うとてつもないマルチアテンション条件付き確率モデルの運用と、途方もない学習量を必要とする。(まさに、人手と電気代勝負となっている。)

具体的に学習データは45TB(これテキスト(文章、書籍、論文、プログラム、ありとあらゆるpdfファイル、Wikipedia、SNS投稿)なので膨大)である。

しかもChat GPTのinstruct(会話の回答、受け答えを人間に不快でないものにする)は、人手を介して自己強化学習を行なっている。

つまり、Chat GPTは、文書の内容も意味も、人の気持ちも、芸術性も一切合切何も理解していない。ひたすら、大量の学習に基づき最も次にくるに相応しい(確率の高い)単語を選択しているだけである。

逆に言えば、世に出ている、名文、優れた論文など全て読んでいるわけなので、「自分で考えて」変なこと、おかしなことを言ったりしない(そのような単語が選択される確率は低い)。

1750億パラメータモデル(GPT-3)を実際に動かそうとすると、

OpenAIの説明によれば、「28万5000個以上のCPUコア」と、「1万個以上のGPU」で構成された環境で学習する必要があるという。

数テラバイトの計算能力が必要だとすれば、現在、最も大きなGPUメモリーを持っているNVIDIA H100でも最大80GBなので、推論するだけで H100が5基、学習するには30基以上が必要となる。(H100は、1枚単体で数百万円する)それをフル稼働させるので、電気代勝負となるのである。(この事情は、深層学習では当たり前のもの。ブロックチェーンの運用でも(仕組み、マシンは全く違うが)同じ(電気代勝負。なので、中国の山奥の水力発電所でスパコンを回す)。)

つまりFlex Gen は、この状況を打ち破ることになる。

既にGit Hubに公開されています。こちら。


#アンネの法則の山下安音です。私のライフワークは、平和学研究とピースメディア。VISGOのプロデューサーに就任により、完全成果報酬型の教育コンテンツと電子出版に、専念することになりました。udmyとVISGOへ動画教育コンテンで、世界を変える。SDGs3,4の実現に向けて一歩一歩