OpenAI Dev Day、CTOの突然の退社、AI法案の拒否権発動、Pika 1.5、そして新しいモデルたち！

2024年10月3日 20:33

5,881 文字

今週の大ニュースは、OpenAI Dev Dayが開催されて、めっちゃ凄い発表がいっぱいあったってことやねん。まずはそれらについて詳しく見ていくで。それに加えて、OpenAIに関するほかのニュースもあるし、ほかにもいろいろあるから、一緒に見ていこか。
まず最初に、OpenAI Dev Dayの話やけど、めっちゃかっこええウェブサイトがあって、シンプルやけどめっちゃええアニメーションがあんねん。ほんで、知っとかなアカン発表をまとめていくで。
まず一つ目は、高度な音声モード用のAPIについてや。リアルタイムAPIって呼ばれとって、開発者はこれを使うて、ChatGPTの高度な音声モードみたいな、高速な音声対音声の体験をアプリに組み込めるようになんねん。このリアルタイムAPIは、APIですでにサポートされとる6つのプリセット音声を使うて、自然な音声対音声の会話ができるんや。だから、めっちゃ凄い音声サポートをアプリに組み込みたいなら、今ならできるってわけや。
それに加えて、チャット完了APIにも音声入力と出力が導入されて、低遅延のユースケースにも対応できるようになったんや。リアルタイムAPIは、テキストトークンと音声トークンの両方を使うんやけど、価格はこんな感じや。テキスト入力トークンが100万個で5ドル、出力トークンが100万個で20ドル。音声は、入力トークンが100万個で100ドル、出力トークンが100万個で200ドルや。これを換算すると、音声入力が1分あたり約6セント、音声出力が1分あたり24セントくらいになんねん。
これ、めっちゃ凄いことやで。超知的なリアルタイム音声が、たった数セント/分で使えるなんて、マジで信じられへんわ。我々が生きとる世界、ほんまに凄いもんやな。
次に、APIを通じてビジョンモデルのファインチューニングができるようになったんや。開発者はこれを使うて、モデルのイメージ理解能力をカスタマイズできんねん。これによって、視覚的な検索機能の強化や、自動運転車やスマートシティ向けの物体検測の改善、医療画像分析の精度向上なんかが可能になるんや。
例えば、制限速度の標識があるんやけど、ベースのGPT-4o Visionモデルでは間違ってタグ付けされてたんが、ファインチューンしたバージョンでは正しくタグ付けされとったんや。アメリカのUberみたいな大手企業のGrabが、この道路上の画像検出と理解にこのモデルを使うとるんやって。ほかにもめっちゃ凄い使用例があるから、詳しくは説明の下にリンク貼っとくわ。
価格に関しては、2024年8月31日まで、GPT-4oの画像ファインチューニング用に1日100万トークンまで無料で提供してくれんねん。その後は、100万トークンあたり25ドルになんねや。推論の方は、入力トークンが100万個あたり3.75ドル、出力トークンが100万個あたり15ドルやて。ビジョンのファインチューニング、絶対チェックしてみてな。
次に、将来的に人工知能の中でめっちゃ重要になると思う機能の一つが、キャッシングやねん。毎回同じプロンプトをLLMに通す必要はないんやって。特に同じプロンプトを何回も使う場合はな。実際、大規模になるとそういうことがよく起こるんや。だから今回、キャッシングができるようになったんや。
ちょっと詳しく見ていこか。多くの開発者が、AIアプリを作る時に、同じコンテキストを複数のAPI呼び出しで繰り返し使うことがあんねん。例えば、コードベースを編集する時や、チャットボットと長い複数ターンの会話をする時なんかやな。今回導入されたプロンプトキャッシングを使うと、開発者は最近見た入力トークンを再利用できて、コストと遅延を減らせるんや。開発者は50%割引と、より高速なプロンプト処理時間を得られんねん。
これについては前にも話したことあるけど、キャッシングはコストと遅延の両方を下げるためにめっちゃ重要なんや。ここに示されとるように、キャッシングは現在のすべてのモデルで使えんねん。ここにキャッシュされてないトークンがあって、こっちがキャッシュされたバージョンや。
ただ、こんなこと言うたらアカンかもしれんけど、キャッシュするんやったら、なんでOpenAIに払う必要があんのかなって思うわ。もちろん、OpenAIにキャッシングを任せるのが一番簡単やけどな。実際、キャッシングってめっちゃ難しい問題で、前の会社でも何回も苦労したわ。だから、シンプルにやりたいならOpenAIに任せるのもありやけど、基本的には自分でキャッシュするのがタダでできるんや。これからオープンソースのツールでローカルでキャッシングできるようになるんちゃうかな。
ここで面白いこと見つけたんやけど、下の方に書いてあんねん。キャッシュは通常、5〜10分間使われへんかったら消えて、最後に使われてから1時間以内には必ず削除されるって。これ、ちょっと積極的すぎるんちゃうかな。だって、今日あるプロンプトを使って、明日同じプロンプトを使うたら、多分同じ応答が欲しいやろ？でも、使い方によって違うかもしれんな。みんなはどう思う？キャッシングについて、どんなふうにしてほしい？コメントで教えてな。
次は、大きなモデルが小さなモデルをファインチューニングするってやつや。OpenAIがAPIでモデル蒸留を提供するようになったんや。これは、大きなフロンティアモデルの出力を使って、コスト効率の良いモデルをファインチューニングできるんや。全部OpenAIのプラットフォーム上でできんねん。
基本的には、合成データみたいなもんやな。大きなモデルを使って、自分のユースケースや事業に特化したデータをたくさん作って、それで小さなモデルを訓練するんや。そうすると、レイテンシーが下がってコストも下がんねん。
OpenAIが今日発表したアップデートの多くは、開発者にできるだけ多くの選択肢を与えるためのもんなんや。これ、個人的にめっちゃ好きやわ。モデル蒸留には3つの主要な概念があんねん。まず、保存された完了、つまり入力と出力のペアや。このデータを使って他のモデルを訓練できんねん。次に評価や。カスタムの評価をファインチューンしたモデルに対して実行して、基準を満たしているかチェックできるんや。最後にファインチューニングや。これはまさにその通りで、そのデータを使ってモデルをファインチューニングすんねん。
これらがOpenAI Dev Dayの主な更新やったわ。最後の瞬間に、OpenAIから招待されたんやけど、今回は行けへんかったんや。次に招待されたら絶対行くで。OpenAIのこの素晴らしい開発者向け製品発表、おめでとうございます。
次は、OpenAIの話や。みんなが予想してたことがついに起こったみたいやな。非営利の地位を外すんやって。ロイターの独占記事によると、OpenAIが非営利の管理を外して、サム・アルトマンに株式を与えるらしいんや。
サム・アルトマンが大量の株式、70億ドルとか100億ドルとかいう途方もない額をもらうって報道されとったんやけど、ここで一つ。サム・アルトマンは1年前に上院で証言した時、「給料はもろてへん。健康保険代だけや。OpenAIの株式も持ってへん」って言うとったんや。それが今、給料をもらうって話になっとんねん。でも、ほんの数日前にも、この大金をもらうって話を否定してたんや。
結局、本当のところはどうなんかわからへんわ。ただ、OpenAIが非営利の地位から離れていくのは間違いないと思うわ。今までの構造が複雑すぎて、普通の会社じゃ真似できへんもんやったからな。これについては前にも何回か動画で話したから、イーロン・マスクの寄付とか、寄付を受け取って税金払わへんかったのに営利企業に転換した話とかは、もう繰り返さへんけど。
とにかく、記事によると、ChatGPTを作ったOpenAIは、中核事業を営利目的の公益法人に再編する計画を立てとるらしいんや。この新しい会社は、非営利の取締役会の管理下には置かれへんようになるんやって。
で、営利目的の公益法人って、法律や税金の面からどういう意味を持つんやろか。基本的には営利企業やけど、「公益」の部分が会社の定款に外部のステークホルダーを含めるってことなんや。つまり、株主だけやなくて、外部のステークホルダーに対しても受託者責任を負うことになんねん。
有名な例でいうと、パタゴニアがそうやな。パタゴニアの場合は、外部のステークホルダーが気候やと思うわ。つまり、取締役会は株主だけやなくて、気候や自然全般に対しても受託者責任を負うってことや。めっちゃ面白いけど、実際にどれだけ意味があるんかはわからへんな。でも、実際に取締役会の任務に書かれとるわけやから、その第三者のステークホルダーに対して責任を負うことになんねん。
これからどうなっていくんか、めっちゃ興味あるわ。今までOpenAIは、非営利の研究所みたいなもんから、営利の商業企業に移行するのに、めっちゃ複雑で摩擦が多かったからな。
ここで、この動画のスポンサーであるWeights and Biasesに感謝したいと思います。彼らとパートナーシップを組めて本当に嬉しいです。彼らは長い間、私の大好きなYouTubeチャンネルの一つである「Two Minute Papers」とパートナーシップを組んでいて、今回は私がその素晴らしさを皆さんに伝える番です。
もし、私が紹介しているこれらのLLMを使って本番環境で何かを構築しているなら、すべてを追跡する堅牢な方法が必要です。Weights and Biasesには「Weave」という新製品があります。これは軽量のAI開発者ツールキットで、たった2行のコードでLLMアプリ開発を簡素化できます。入力メタデータと出力を追跡できるんです。Weaveを使えば、厳密な評価を実行し、すべてのデータセットとシステム構成を安全に管理できるので、ただ構築することに集中できます。
可視性を向上させ、より速くより良いデバッグができます。明確な評価、コストと結果の明確な可視性、そして私のお気に入りの機能の一つ、プロンプトとモデルのバージョン管理ができます。WeaveはOpenAI、Anthropic、Mistral、Cohere、LangChain、LlamaIndexなど、お気に入りのAPIやライブラリにシームレスに統合されます。
だから、AIアプリ開発を加速させる簡単な方法が欲しいなら、Weaveは素晴らしいソリューションです。LLM開発で本当の進歩をしたいなら、Weights and Biasesにアクセスして、Weave製品をチェックしてください。リンクは説明欄に貼っておきます。wb.ai/lmbです。必ずチェックしてくださいね。では、動画に戻りましょう。
次は、ミスを犯して修正する話の続きや。マット・シューマーはどこにおるんやろ？まだReflection70bモデルの件について、何が起こったんか待っとるところやねん。最後に聞いたんは3週間以上前で、それ以降は何も聞いてへんのや。もっと詳しい情報が聞けたらなあって思っとったし、何が起こったんか少しでも知りたかったんやけどな。多分モデルを再訓練しとるんやろうけど、完全に沈黙してもうたんは、めっちゃ印象悪いわ。せめて情報を出すとか、コミュニケーションを取るとか、最低限それくらいはできるやろ。
最後のニュースは、新しいモデルの話やで。Liquid AIが今日、世界に液体基盤モデル（Liquid Foundation Models）を紹介したんや。LFMsって略すらしいわ。また新しい略語が増えたな。まあええわ。1B、3B、40Bっていうシリーズで、性能がめっちゃ優れとるんや。
40Bは、120億のアクティブパラメータを持つ専門家混合モデルや。大きなモデルやけど、めっちゃ効率的なんや。これがQu 2 Mixol 47bとJamba 1.5を上回る性能を示しとんねん。まあ、Jamba 1.5はそんなに難しくないと思うわ。実際に試してみたけど、そんなに良くなかったからな。でも、このファミリーの3つのモデル全部が、同じクラスの他のモデルを完全に圧倒しとるみたいや。
テストしてみようと思うんやけど、どう思う？テストした方がええか？コメントで教えてな。
LFM 1Bは、1Bカテゴリーの公開ベンチマークでめっちゃ良い性能を示しとって、このサイズで新しい最高水準のモデルになったらしいわ。これは非GPTアーキテクチャが初めてトランスフォーマーベースのモデルを大きく上回った瞬間やねん。
重要なのは、これがトランスフォーマーベースじゃないってことや。非トランスフォーマーベースのモデルで経験があるのは、Mambaモデルだけやねん。でも、これもあんまり良くなかったんや。だから期待はしとるけど、あんまり期待しすぎんようにせなアカンな。
3Bモデルは、そのサイズに対してめっちゃ凄い性能を発揮するらしいわ。3Bパラメータのトランスフォーマー、ハイブリッド、RNNモデルの中で一位を取ったんやって。
40Bは、モデルサイズと出力品質のバランスが新しいレベルに達したみたいや。ここに示されとる他のすべてのモデルと比べても、めっちゃ良い性能を示しとんねん。
Liquidがやったことで俺が好きなのは、「これが得意や」「これは苦手や」ってはっきり言うてくれたことやな。じゃあ、見てみよか。
今日のLanguage LFMsが得意なこと：
一般的な知識と専門知識
数学と論理的推論
効率的で効果的な長文脈タスク
主に英語やけど、他の言語もサポートしとる
苦手なこと：
ゼロショットのコーディングタスク（これは絶対テストするで）
正確な数値計算（9.11対9.9みたいなんかな）
時間に敏感な情報（まあ、最新情報を持ってへんのは当然やな。ウェブをクロールできひんかったら）
「strawberry」って単語の中の「r」の数を数えること（了解、これもテストするわ）
人間の好みの最適化技術はまだ適用されてへんらしい
モデルについてもっと詳しい情報は、ここのブログ記事で見られるで。リンクは説明欄に貼っとくわ。
今日はこれで終わりや。この動画が気に入ってくれたら、いいねとチャンネル登録よろしくな。また次の動画で会おな。バイバイ！

この記事が気に入ったらサポートをしてみませんか？