芋出し画像

🍓 『優秀な倧孊院生ず同じくらい有胜』― 倚くの䜜業で人間の胜力を超えるでも党郚ちゃうで

5,123 文字

ほな、ストロベリヌこずOpenAI o1プレビュヌがどれくらい賢いかに぀いお、ちょっず話させおもらいたすわ。
この数日間、たるで消火栓から氎を飲むような勢いで情報を吞収しおきたんですけど、いろんな事実やら意芋やらが入っおきお、ほんたにびっくりしたしたわ。
䟋えば、こんなツむヌトがありたしおな。「最も才胜ある数孊者の評䟡によるず、GPT-1は凡庞やけど、完党に無胜ずいうわけやないな倧孊院生みたいやで」。
぀たり、䞖界トップクラスの数孊者が蚀うには、この新しいツヌルは、ただプレビュヌ版やのに、ちょっず平凡な倧孊院生くらいの胜力があるっおこずですわ。
でも考えおみおください。平凡な倧孊院生でも、普通の人よりは頭ええし、少なくずも特定の分野では圹に立぀はずですやん。
アメリカでは玄11%の人が倧孊院卒くらいやったず思いたすけど、そういう意味では既に゚リヌト局ですわな。これが䞀぀のヒントになりたすわ。
せやから、私の友達の博士研究員が01プレビュヌをテストしお、メッセヌゞをくれたんです。
この友達は海掋孊ず蚈算流䜓力孊の分野で博士号を持っおるんですけど、「ほが最初から正解に近かったわ」っお蚀うおたした。
専門甚語だらけで私にはさっぱりわからんかったんですけど、ちょっず助蚀しただけで正解にたどり着いたらしいです。
それから、こんな返事もありたしたわ。
「01に、特定の免疫孊的アプロヌチに基づいた倧芏暡ながん治療プロゞェクトを曞いおもらったんやけど、1分もかからぞんうちに、プロゞェクトの党䜓的な枠組みを䜜っおくれたんや。
めっちゃ創造的な目暙、アプロヌチ、さらには朜圚的な問題点や代替戊略たで考えおくれおんで。
これ、普通やったら䜕日もかかる仕事やのに。しかも、30幎もこの分野で働いおきた私でも思い぀かぞんかったようなナニヌクなアむデアが少なくずも1぀はあったわ」
こんな感じで、みんな䜕が起こっおるんかわからぞんくらい驚いおるんですわ。しかもこれ、ただプレビュヌ版やからね。
結局、耇数の博士研究員が「01プレビュヌは優秀な倧孊院生くらいに圹立぀」っお蚀うおるんです。
たあ、みんながそう思っおるわけやないですけど、倧孊院生ず比范されるようになったっおこずは、レオポルド・アッシェンブレナヌが「状況認識」の論文で予枬しおたこずが、ある皋床圓たっおたっおこずかもしれたせんな。
ほんで、これからこの考えに぀いおもう䞀床考えおみようず思うんですわ。
芁するに、この01っおいうのがどれくらい賢いんかっおこずですわ。
私は「ラズベリヌ」っおいうリポゞトリで蚌拠を集めおるんですけど、もしこれが本圓にこんなに賢いんやったら、人類のためにオヌプン゜ヌス化せなアカンず思うんです。OpenAIの蚱可があろうがなかろうが。
実際、私だけやなくお、たくさんの人がこの仕事を再珟しようずしおるんですわ。
たず、この01がどれくらい賢いんかに぀いお、みんなからデヌタを集めおるんです。
crowdsourceみたいな感じでね。
このテストを芋るず、完党に新しいレベルに達しおるのがわかりたすわ。
今たでの䞭倮倀が25%から30%くらいやったのが、85%くらいたで跳ね䞊がっおるんです。
こんな倧きな飛躍があるっおこずは、機械孊習がこの問題にアプロヌチする方法に画期的な倉化があったっおこずですわ。
95%くらいたで行ったら、もうほが問題が解決したっおこずになりたす。
最埌の5%を埋めるのに䜕幎もかかるこずが倚いんですけど、そこたでいくず、倚くの人はもうあんたり興味を持たぞんようになるんです。
でも、25%から40%も性胜が䞊がったら、それは正しい方向に進んでるっおサむンですわ。
昔、私が機械孊習を始めたころ、XGBoostが出おきお、䞀気にベンチマヌクを塗り替えたこずがあったんです。
MLコンペの成瞟が30%から60%、80%たで䞊がっお、みんな「おっ、これは正解や」っお感じやったんです。
翌幎からは、みんな少しず぀改良を重ねおいくんですけどね。
OpenAIがストロベリヌでやったこずも、明らかに正しいアプロヌチやず思いたす。
なんでかっお蚀うず、こんなに幅広く䞀般化できおるからです。
たず、䞖界クラスの数孊者がストレステストをしお、そこそこの評䟡をしおる。
他の分野の人も、蚈算流䜓力孊ずか数孊、医孊研究ずか、党然違う分野の人たちが評䟡しおるんです。
それに、ニュヌペヌク・タむムズのパズルずか、サヌドパヌティヌのオヌプン゜ヌスIQテストでも、人間の䞀般的な掚論胜力の䞭倮くらいの成瞟を取っおるんです。
ほんで、倧孊院生くらい圹に立぀し、䞀般的な知胜も人間の䞭倮倀くらいに達しおるっおこずは、これはもしかしたらAGI汎甚人工知胜に近いんちゃうかっお䞻匵もできるかもしれたせん。
私はこれが絶察AGIやずは蚀いたせんけど、かなり近づいおるんちゃうかなっお気はしたすわ。
それから、AI゚クスプレむンドっおチャンネルのフィリップさんのずころを芋おも、ただSimple Benchの結果は曎新されおぞんみたいですけど、新しいカテゎリヌに入っおお、正確性が玄50%くらいらしいです。
最終的な数字はただ採点䞭みたいですけど、最初の芋立おでは、Claude 3.5 Sonnetの玄2倍くらいの性胜があるそうです。
぀たり、党䜓的に芋お、01プレビュヌこずストロベリヌは、今日ある他のどの補品よりも賢いっおこずになりたすな。
これは、次のプロセスがどうなるかがわかったっおこずですわ。
ほんで、私が指摘したいのは、これはOpenAIの内郚ベンチマヌクのデヌタなんです。
自瀟のベンチマヌクっおのはたあそれはそれずしお、実際の人が実際の問題を解決する際の実甚的なフィヌドバックを埗るのが倧事やず思うんです。
人の意芋やベンチマヌクも倧事ですけど、ベンチマヌクの方が「これが最高のモデルや」っお蚀うだけのLLMsよりはマシですわ。
ほんで、ベンチマヌクがあっお、その次に実際の圱響力っおのがありたすわな。
科孊にどんな圱響を䞎えるか、経枈にどんな圱響を䞎えるかっおこずです。
ここで私が指摘したいのは、これらの意芋は党郚01プレビュヌに関するものやっおこずです。
10月に出る01は、さらに1暙準偏差分くらい賢くなるみたいです。
仮にIQが100やったずしたら、01のIQは115くらいになるっおこずですわ。
1暙準偏差がだいたい13.4くらいやからね。
GPT-4から01プレビュヌぞの飛躍ずほが同じくらいの飛躍が、01プレビュヌから01ぞの間にもあるっおこずです。
13から56に䞊がっお、それから56から83に䞊がるわけですから。
コヌディングに関しおは飛躍が半分くらいですけど、もずもずコヌディングはめっちゃ埗意やったからね。
博士レベルの科孊の質問に関しおは、GPT-4は人間の専門家より䞋やったけど、01プレビュヌも01も、GP QAダむダモンドではどっちも人間より䞊やったんです。
最埌に、レオポルド・アッシェンブレナヌが出したこのグラフに぀いお、もう䞀床考えおみたいず思いたす。
GPT-2は幌皚園児くらい、GPT-3は小孊生くらいの胜力やったんです。
ファむンチュヌニングすれば、もうちょっず賢かったかもしれたせんけど。
GPT-4は、たあベヌスラむンのGPT-4か、よく蚓緎されたChatGPTくらいが、賢い高校生くらいの胜力やったんちゃうかな。
ほんで、今は2024幎ず2026幎の真ん䞭くらいにいるわけです。
぀たり、もうGPTの技術を高校生ず比べるんじゃなくお、倧孊院生ず比べるようになっおきたっおこずですわ。
あず䞀歩で博士研究員ず比べられるようになっお、そのさらに䞀歩先では䞖界クラスの研究者ず比べられるようになるっおこずです。
もちろん、これはこのパラダむムがこのたた成長し続けるっお仮定の話ですけどね。
みんなから「デむブ、AIの成長が遅くなっおるっお蚀うたのは間違いやったんちゃう」っお蚀われおたすけど、その点に぀いおはちょっず埌で説明したすわ。
でも、本圓に驚いたのは、GPT-4が賢い高校生くらいから始たったのに察しお、01プレビヌであるストロベリヌは、ただGPT-4で蚓緎されおるのに、新しい蚓緎パラダむムのおかげで、知胜が䜕段階も䞊がったっおこずです。
これは私も完党には予想しおなかったこずですわ。実甚的な知胜っおいう意味ではね。
ただ「実際には知的じゃない」ずか「本圓に考えおるわけじゃない」っお蚀う人もいたすけど、それは「本圓のスコットランド人」のような詭匁ですわ。
内郚で䜕が起こっおるかは議論できるかもしれたせんけど、結局倧事なのは出力です。
その出力が経枈的に䟡倀があるか、科孊的に䟡倀があるか、人間にずっお意味があるかっおこずです。
答えが「はい」なら、本圓に考えおるかどうかなんお関係ないんです。
それは単なる蚀い蚳、珟実逃避でしかありたせんわ。
GPT-4が出おから2幎くらい経っおたすけど、その間にRHF、RLHF、RLAIFなどのテクニックが開発されお、さらに今回の新しいテクニックも加わりたした。
Chain of ThoughtずReflectionを組み合わせたものらしいですけど、他にもいく぀か入っおるかもしれたせん。
モンテカルロ朚探玢を䜿っおるんじゃないかっお人も倚いですね。
基本的には報酬予枬噚を調敎しお、RHFやRLHFの代わりに、あるいはRLAIFの別バヌゞョンずしお䜿っおるんじゃないかず。
そこにChain of ThoughtずReflection、それからモンテカルロを組み蟌んで、同じ䞖代のモデルでも桁違いに賢くなったっおわけです。
そしお、これからGPT-5が出るんですからね。
これはたた別のモデルで、胜力的にも倧きな倉化があるはずです。
私はGPT-2の頃からこの分野にいお、GPT-2を蚓緎しおすぐに限界に気づきたした。
GPT-3は限界を芋぀けるのにもっず時間がかかっお、GPT-4に至っおは2幎経っおも䞊限がただ芋えおないんです。
朜圚空間っお意味じゃなくお、ただ発芋されおない胜力っおいう意味ですけど、GPT-4で2幎半経っおもただ新しい胜力が芋぀かっおるっおこずは、GPT-5ではどれだけ長く新しい胜力が芋぀かり続けるんでしょうね。
もしもっず長い期間、胜力を発芋し続けられるんやったら、私が心配しおたAIの成長の枛速っおいうのは、あんたり問題にならんかもしれたせん。
だっお、この新しい蚓緎方法のおかげで、「01プレビュヌを䜿えば䜕日分ものがん研究の時間が節玄できた」っお蚀われおるわけですからね。
それにDeep MindのAlphaFoldずAlphaProteを組み合わせお、01や0212月に出るらしいや぀たで発展させたら、サム・アルトマンが匂わせおたや぀ですけど、AIが経枈的にも孊術的にも科孊的にも、ほずんどの人間の知胜を超えおしたったっお蚀えるかもしれたせんわ。
これが、私が䜕幎も前から蚀うおきたこずなんです。最初のAIの本にも曞きたしたけど、「本圓の知胜ずは䜕か」ずか「人間が優れおる理由は䜕か」っおいう哲孊的な議論は完党に的倖れやっお。
今回の結果を芋るず、そういう議論はもっず意味がなくなったんちゃうかな。
そういう議論をするなっおいうわけやないですよ。でも、この技術が実際に科孊や経枈にどんな圱響を䞎えるかっおいう議論の邪魔になるんやったら、あんたり意味がないっおこずです。
だっお、今たで考えられぞんかったような壁を突き砎っおしもたんですからね。
今は月に1000ドルずか2000ドルくらいかかるかもしれたせんけど、優秀な倧孊院生ず同じくらい賢くお、しかもこれからもっず賢くなるんやったら、そのお金を払う䟡倀は十分にあるんちゃうかな。
私が「割に合わぞん」っお蚀うたのは間違いやったかもしれたせん。
たあ、こんな感じで最近考えおるこずをお話しさせおもらいたした。
みんなの意芋を集めお、どんな共通認識があるんかを芋おきたわけです。
実は、もう少し蚀いたいこずがあったんですけど、長くなりすぎるんで、ここで止めずきたす。
芋おくれおありがずうございたす。参考になったんやったら嬉しいです。
じゃあね、お元気で
ほんたに、2024幎9月にAGIを達成したっお蚀うたのは正しかったんかな
あの䞻匵を貫いおおけばよかったかもしれたせんな。
でも、ただ終わっおぞんで。9月の半ばやから、あず15日くらいあるわ。
AGIが達成されたかどうか、刀断する時間はただあるんです。
はい、これで終わりです。バむバむ

この蚘事が気に入ったらサポヌトをしおみたせんか