見出し画像

OpenAI o1の構築

ワイらは新しいモデルのシリーズを始めとるんやけど、新しい名前でo1って呼んどんねん。これはな、o1を使うときに、以前のGPT-4みたいなモデルとは違う感じがするかもしれへんってことを強調したいからなんや。
あとでほかの人が説明するけど、o1は推論モデルやねん。つまり、質問に答える前にもっと考えるってわけや。
ワイらは2つのモデルをリリースしとんねん。1つ目はo1 previewや。これはo1の将来を先取りしたもんや。2つ目はo1 miniで、これはもっと小さくて速いモデルやねんけど、o1と似たような枠組みで訓練されとんねん。
ワイらの新しい命名法、気に入ってもらえたらええなぁ。
せやけど、推論っちゅうんはいったい何なんやろか?
推論の考え方の1つはな、すぐに答えが必要な簡単な質問もあるってことやねん。例えば、「イタリアの首都は?」って聞かれたら、すぐに「ローマ」って答えられるやろ?あんまり考える必要もないわけや。
でもな、複雑なパズルを解こうとしたり、ええビジネスプランを書こうとしたり、小説を書こうとしたりしたら、しばらく考えたいと思うやろ?考える時間が長くなればなるほど、結果はよくなるんやで。
つまり、推論っちゅうんは、考える時間を使って、やっとる仕事の結果をよくする能力なんや。これは昔からあったことやけど、研究のすごいとこは、あの「ああ、そうか!」ってなる瞬間やねん。何か驚くようなことが起こって、全てがピタッとはまる瞬間があるんや。
みんな、そんな「ああ、そうか!」って思った瞬間があったか?
ほんま、モデルが出来たてホヤホヤのときやったな。ワイらがモデルと話し始めたら、みんなが「うわ、このモデルめっちゃええやん!」って言い出してな。
ワイらの訓練プロセスでな、あるタイミングでo1にめっちゃ計算力ぶち込んで、まず一貫した思考の連鎖を生成するように訓練したんや。そしたら、「おお、これ、今までとは明らかに違うもんやな」って気づいたんや。ワイにとっては、それが「ああ、そうか!」の瞬間やったな。
それに関連してな、推論のためのモデル訓練を考えるとき、すぐに思い浮かぶのは、人間に思考プロセスを書いてもらって、それを訓練データにするってことやろ。
でもな、ワイにとっての「ああ、そうか!」の瞬間は、強化学習を使ってモデルに自分で思考の連鎖を生成して磨かせたら、人間が書いた思考の連鎖よりもええ結果が出るってわかったときやったんや。これで推論をほんまにスケールアップできるって気づいたんや。
ワイがここにおる間、ずっと数学の問題を解くのをモデルに上手くさせようとしてきたんや。いろんな方法を試してきたけど、いつもモデルの出力を読むたびにイライラしてたんや。モデルが間違いを疑問に思ったり、自分のミスに気づいたりすることがなかったからな。
でも、この初期のo1モデルの1つを訓練して、実際に話し始めたときにびっくりしたんや。質問をしてみたら、ワイらが出す数学のテストでの点数が上がっとったんや。モデルの推論過程を見てみると、自分自身に疑問を投げかけたり、めっちゃ面白い自己反省をしたりしてるのがわかったんや。
そのときワイは「うわ、なんか新しいもんを発見したな」って思ったんや。これは今までとは違う、新しいもんになるって。それはほんまに全てが一つになった瞬間で、めっちゃパワフルやったわ。
ありがとう、そしてこのリリースおめでとう。


この記事が気に入ったらサポートをしてみませんか?