オープンソース版O1、Open-Sorcery Strawberryについて
2,932 文字
中国企業がO1の独自バージョンを開発しました。その詳細をお話しし、実際にテストしてみましょう。この企業はDeepSeek AIという中国のAI企業で、DeepSeek R1 Lite Previewをリリースしました。強化された推論能力を持ち、O1 Previewと同等の驚くべき性能を発揮しています。AIME(米国高校数学招待試験)や数学ベンチマークでO1 Previewレベルの性能を示し、リアルタイムで透明性のある思考プロセスを持つオープンソースモデルです。
AIME 2024ベンチマークでは、DeepSeekはO1 Previewをかなり上回る成績を収めています。当然、GPT-40はそれには遠く及びません。Quenは良い成績を収めており、彼らの以前のモデルであるDeepSeek V2.5も良い成績を示しています。しかし今や、思考能力において彼らはこのベンチマークを完全に制覇しています。
数学においても、O1 Previewの85%に対して91%という驚異的な正確性を示しています。GPT-QA Diamondもかなり良い成績を収めました。コーディングベンチマークのCodeForcesではO1 Previewを凌駕し、圧倒的な性能を示しています。LiveCodeベンチマークとZebraLogicベンチマークでも、これらの重要なベンチマークのほぼすべてでO1 Previewと同等かそれ以上の成績を収めています。
知能の面で限界に達していると言う人がいれば、これを見せてください。私たちは決して限界に達しているわけではありません。存在していた壁があったとしても、それを完全に突き破っています。これは推論時間のスケーリングと呼ばれるもので、限界が存在しないことの証明です。
X軸には問題あたりの平均思考トークン数、つまり思考時間の長さを示しています。Y軸も同様に問題あたりの平均思考トークン数を示しています。ここで見られるように、これらのモデルに与えられる思考時間が長いほど、性能が向上しています。そして最も素晴らしい点は、まだ利用可能ではありませんが、オープンソースだということです。ローカルでダウンロードして使用することができるようになります。特に、1日の23時間は休止状態になっているこれらのGPUすべてを、これらのモデルに追加の思考時間を与えるための計算に活用することができます。
このビデオは、HPとQualcommがお送りしています。彼らは新しいEliteBook Ultra G1Q AI PCを発表したばかりです。これは次世代のAI PCラップトップで、AIのパワーを活用するために特別に設計されました。モバイル性の高いラップトップで、性能、モビリティ、AIエクスペリエンスを重視して設計されています。
EliteBookは全く新しいデザインで、見た目が美しく、スリムで軽量、そして最も重要な点として耐久性があります。Qualcommの Snapdragon X Eliteプロセッサを搭載し、12コアCPUと45 TOPS(1秒間に45兆回の演算)を処理できるNPUを備えています。
HPが独自に提供する機能には、HP AI Companionが含まれます。これは、新しい情報の探索、個人ファイルからの実用的な洞察の獲得、デバイス性能の最適化を1か所でシームレスに行えるよう支援します。また、Microsoft Co-Pilotを簡単に処理できるよう、専用のワンタッチコパイロットボタンも備えています。
AIはビデオ通話中の44の異なる言語へのリアルタイム翻訳も可能にします。このラップトップは充電なしで25時間のビデオ再生が可能で、終日のモバイル生産性のために驚異的なバッテリー寿命を実現しています。また、Polycamera Proと呼ばれる素晴らしい小型カメラを搭載しており、コラボレーションに最適です。
新しいSnapdragon X Eliteチップを搭載したHP EliteBook G1Qをぜひチェックしてください。すべてのリンクは説明欄に記載します。HPとQualcommに改めて感謝します。それでは、ビデオに戻りましょう。
では、ビー玉の問題を出してみましょう。ビー玉をガラスのコップに入れます。そのコップを逆さにして、テーブルの上に置きます。その後、コップを持ち上げて電子レンジに入れます。ビー玉はどこにありますか?理由を説明してください。理由を説明してくださいと言う必要はないはずですが、やってみましょう。
思考のステップはO1とは明らかに異なります。少なくともより詳細です。たくさんの思考が行われていますが、それをすべて読み上げる必要はありません。かなりの時間をかけて考えています。こちらを見てください。待てよ、別の考え方があるかもしれない、と。そして出力です:ビー玉はテーブルの上に残っており、空のコップが電子レンジに入れられています。
はい、完璧です。トランスフォーマーモデルが常に苦戦する他の問題を試してみましょう。「apple」という単語で終わる10個の文章を作ってください。
この例では正解を得られませんでした。O1の思考とR1の思考の違いははっきりと分かります。O1は実際に回答に対して自己反省を行いますが、R1は何が起きているかを考え抜きます。その回答戦略の違いは明らかで、それから出力を行います。その違いを示すために、同じ質問に対するO1の反応をお見せしましょう。
こちらがO1 previewです。「apple」で終わる10個の文章を作ってください。思考中です。リアルタイムでの思考出力はそれほど多くありません。そして驚いたことに、O1もこれを間違えました。
両方ともこの問題を間違えました。別の問題を試してみましょう。この問いに対するあなたの回答には何個の単語が含まれていますか?この問いに対する私の回答には9個の単語が含まれています。1、2、3、4、5、6、7、8。おっと、惜しいですが正解ではありません。
ChatGPT O1に同じ質問をしてみましょう。思考中、自己参照を処理中、単語を数えています、一貫性を確保しています。R1モデルよりもかなり長く考えていたことは確かです。この回答には4つの単語があります。これも正解ではありません。
つまり、両方のモデルがこのような基本的な質問でまだ苦戦しているということです。このような思考モデルは特定のタイプの質問に対してはるかに優れた性能を発揮しますが、このようなタイプの質問ではまだ苦戦することになります。
私たちは新しいテスト時計算の時代に入っています。明らかに、これらのモデルにはまだ改善の余地がたくさんありますが、すでに驚くほど良い性能を発揮しています。私はO1のオープンソース版を待ち望んでいましたが、今やそれが手に入ったようです。
ぜひチェックしてみてください。どう思われるか教えてください。完全なテストを実施してほしいですか?コメント欄で教えてください。このビデオを楽しんでいただけた場合は、いいねとチャンネル登録をご検討ください。次回のビデオでお会いしましょう。