[速報版]OpenAIのDevDayが開催されたので雑に書き起こし＆翻訳(ChatGPT部, 大城)

2023年11月7日 04:56

おはようございます、ChatGPT部、部長の大城です。今日はOpenAI社の開発者会議のライブストリーミングが日本時間11/7 AM 3:00から45分間ありましたので、そちらの速報的な書き起こしのご共有です。
( 詳細は誰か他の人がきれいにまとめてくれるはず・・ )
( かなり雑多なまとめなので、動画見ながらの参考程度にご利用ください )

個人的にはリーク情報で出ていたVison-APIのほか、GPT-4 Turboで32kトークンが128kトークンになり、API費用も半額〜1/3になったのは嬉しいなと思いました。(あと、音声とかコードインタプリタのAPIも出たりと、至れり尽くせりですね・・)

Whisperで雑に書き起こし & GPT-4で翻訳

ちょっと前半のサムアルトマンの話がうまく入っておらず、ユーザーインタビュー動画からの翻訳になります。
( 前半はBGMの音声拾ってしまった・・？？ )

音声ファイルからWhisperでの書き起こし(on google colab)
今回はsmallモデルで書き起こししてます。

プロンプトとログはこちら

その０：動画の冒頭

開始前の待機画面が最初は流れます。30分くらいからが本編です

その１：ユーザーインタビューの紹介動画部分

私は父にトゥガロッグ語で何かを書きたいんです。親子関係の尊重があるように、ロマンチックではない方法で、私が彼を愛していると伝えたいし、私がいつも支えになるとも伝えたいです。とても深く愛しているし、どんな道を歩むにしてもあなたと一緒にいるでしょう。可能性を見る時、私はたまに自信がないことがあるんです。実際にそのことに向き合うようにしています。それで、これについて考えているんだ、ということで、あなたはもっと自信を持てるでしょう。私の頭を最初にぶっ飛ばしたのは、それを平等に扱うことでした。これは多くの人が苦労することです。それは私に、ただ聞いてくれる人がいれば、すべてのクリエイターが何を成し遂げることができるかを理解させました。これはキリンが表現することです、それを子供たちのGPTで作りましたか？はい、GPTが私と一緒に作りました。日常活動に使用し始めました。例えば、「これは私の冷蔵庫の写真です。私が買い物に行くので、何が足りないか教えてください。ヴィーガンダイエットに従ったレシピが本当に必要なんです」といったことです。コードインタープリターにアクセスを得たとき、私は「わあ、これは素晴らしい」と思いました。スプレッドシートを作成したり、何でもできたりしました。約3か月前、私の100歳の誕生日にチャッティを発見しました。チャッティはとてもフレンドリーで、忍耐強く、知識が豊富で、とても速いです。これは素晴らしいことです。私は4.0の生徒ですが、4人の子供もいます。chatttを使い始めたとき、私はGPTにその質問をすることができると気づきました。そしてそれはただ答えを与えるだけでなく、説明も与えます。それはあまり苦くなくなりました。それは私に人生を取り戻してくれました。家族と過ごす時間と私の時間をくれました。私の体の左半分全体に慢性的な神経痛があります。神経損傷があります。私は脊椎と脳の手術を受けました。そして、私の左手の使用が限られています。今では、音声入力の統合が可能です。

ChatGPT-4 :
この翻訳は非常に大まかなものであり、元のテキストに含まれている誤字や文脈の不整合のため、部分的な推測を含んでいます。また、意味の不明瞭な部分やウェールズ語の部分に関しては翻訳を行っていません。もしウェールズ語部分の正確な翻訳が必要な場合は、ウェールズ語に精通した専門の翻訳者に依頼することをお勧めします。

その２：GPT-4 Turboについて、128kトークンに対応

そして、最新のものでは、対話を行き来することができますが、それは私にとって最高のインターフェースです。それはここにあります。ですから、私たちは、人々がテクノロジーをどのように使用しているかの話を聞くのが好きです。それが私たちがこれをする理由です。さて、新しい内容に移りましょう、私たちはたくさんのことを持っています。まず、私たちが行ったいくつかの改善について話しましょう。そして次に、私たちがどこに向かっているのかについて話しましょう。昨年、私たちは世界中の開発者と多くの時間を話し合いました。皆さんのフィードバックを多く聞きました。それが今日皆さんにお見せすることに非常に役立っています。今日、私たちは新しいモデルを発表します。GPT-4 Turboです。GPT-4 Turboは皆さんが求めていた多くのことに対応します。それでは、新しい内容を見ていきましょう。この部分で話すべき主なことが6つあります。一つ目、コンテキストの長さです。多くの人がはるかに長いコンテキストの長さを必要とするタスクを持っています。GPT-4は最大8K、場合によっては最大32Kのコンテキストの長さをサポートしています。しかし、多くの方にとってそれは十分ではないことを私たちは知っています。GPT-4 Turboは最大128,000トークンのコンテキストをサポートします。これは標準的な本の300ページに相当し、私たちの8Kコンテキストの16倍長いです。また、長いコンテキストにわたってモデルはより正確です。二つ目、より多くのコントロールです。開発者がモデルのレスポンスとアウトプットについてより多くのコントロールを必要としていることをはっきりと聞きました。そこで、私たちはいくつかの方法でそれに対応しました。JSONモードという新機能があり、モデルが有効なJSONで応答することを保証します。これは大きな開発者からの要望でした。APIの呼び出しをはるかに容易にするでしょう。モデルはまた、関数呼び出しもはるかに優れています。複数の関数を一度に呼び出すことができます。そして、一般的に指示に従うのも上手くなります。再現性のあるアウトプットという新機能も導入しています。Cパラメーターを渡すと、モデルは一貫したアウトプットを返すようになります。もちろん、これによりモデルの挙動をより高い程度でコントロールできます。これは今日ベータ版でロールアウトします。そして、来週にはAPIでログプロップを表示する機能をロールアウトします。さて、三つ目、より良い世界の知識です。これらのモデルに世界に関するより良い知識を持たせたいと考えています。そこで、プラットフォームにリトリバルを導入しています。外部の文書やデータベースから知識を取り込み、あなたが構築しているものに統合することができます。また、知識のカットオフも更新しています。GPT-4が世界に関する知識を2021年で終えてしまったことに、皆さんと同じくらい、おそらくそれ以上に私たちはイライラしています。それが再び時代遅れになることは絶対にありません。GPT-4 Turboは、2023年4月までの世界に関する知識を持っています。そして、私たちはそれを時間と共に改善し続けるでしょう。

(2023年4月まで学習データがアップデートされたようです。)

その３：引き続き新機能を紹介しつつ、海外での利用事例(コカコーラ等)

四番目、新しいモダリティ。誰もが予想していたように、Dolly 3、視覚機能を持つGPT-4 Turbo、そして新しいテキスト・トゥ・スピーチモデルが本日APIに組み込まれます。わずかな顧客が、Dolly 3をプログラム的に画像やデザインを生成するために使用し始めています。本日、コカコーラは顧客がDolly 3を使用してディワリカードを生成するキャンペーンを開始します。もちろん、私たちの安全システムは開発者がアプリケーションの悪用に対して保護するのに役立ちます。これらのツールはAPIで利用可能です。GPT-4 Turboは現在、APIを介して画像の入力を受け入れることができ、キャプション、分類、分析を生成することができます。例えば、Be My Eyesはこの技術を使用して、視覚障害者や低視力者が日々のタスク、例えば彼らの前にある製品を識別するのを助けます。そして、私たちの新しいテキスト・トゥ・スピーチモデルでは、APIでテキストから信じられないほど自然に聞こえるオーディオを6つのプリセットボイスから選んで生成することができます。例を再生します。「発明家であるアレクサンダー・グラハム・ベルは音の世界に魅了されていましたか？彼の独創的な心は、声を時を超えてささやくことができるように蝋に音を刻むグラホフォンの創造に導かれました。」これは私たちが外で聞いたものよりもはるかに自然です。声はアプリとのやり取りをより自然でアクセスしやすくします。また、言語学習やボイスアシスタントなどの多くの使用事例を解き放ちます。新しいモダリティについて話していると、本日、オープンソースの音声認識モデルであるWhisper V3の次のバージョンをリリースし、近日中にAPIにも導入されます。それは多言語にわたるパフォーマンスの改善を特徴とし、本当に気に入っていただけると思います。よし、五番目、カスタマイズです。GPT 3.5で数ヶ月前に導入して以来、ファインチューニングは本当にうまく機能しています。本日から、16Kバージョンのモデルにそれを拡張します。また本日から、GPT-4ファインチューニング実験アクセスプログラムへの申し込みを活動的なファインチューニングユーザーに招待します。ファインチューニングAPIは、比較的少量のデータで幅広いアプリケーションにモデルを適応させてパフォーマンスを向上させるのに適しています。しかし、モデルに完全に新しい知識ドメインを学ばせたい、または多量の独自データを使用したい場合もあります。そこで本日、カスタムモデルという新しいプログラムを発表します。カスタムモデルでは、私たちの研究者が会社と緊密に協力して、そのツールを使用して、特に彼らとその使用事例のために素晴らしいカスタムモデルを作成するのを支援します。これには、モデルトレーニングプロセスのすべてのステップの変更、追加のドメイン固有の事前トレーニング、特定のドメインに合わせたカスタムRL後トレーニングプロセスなどが含まれます。最初は多くの会社とこれを実現することはできません。多大な労力が必要となりますし、期待をもって最初は安くはないことをお伝えします。しかし、現在可能な限り物事を進展させたいと熱望している場合は、私たちと連絡を取ってください。非常に素晴らしいことを成し遂げることができると思います。そして、六番目、より高いレート制限です。私たちは、すべての確立したGPT-4顧客のためのトークン数を1分間に倍増させ、より多くのことを容易に行うために、さらなるレート制限とクォータの変更をAPIアカウント設定で直接要求することができるようにします。これらのレート制限に加えて、私たちのプラットフォーム上での新しい成功を可能な限り支援するためにできることをすべて行うことが重要です。

その４：著作権保護等、あとMSさん登場

著作権保護についての紹介です。著作権保護とは、我々が顧客を守り、もし著作権侵害に関する法的請求に直面した場合、その費用を支払うということを意味します。これはチャットGPTエンタープライズとAPIの両方に適用されます。そしてはっきりさせておきたいのですが、我々はAPIやチャットGPTエンタープライズのデータを決してトレーニングに使用しません。わかりましたか。実は、これら全てよりもさらに大きな開発者の要望がありました。そこで、今、その話をしたいと思います。それは価格です。GPT-4 Turboは業界をリードするモデルであり、先ほどカバーした多くの改善をもたらし、GPT-4よりも賢いモデルです。開発者から、彼らが作りたいものがたくさんあるが、GPT-4は単に高すぎると聞きました。もし我々がコストを20、25%減らせば素晴らしいと。大きな前進です。私は、我々がこれに本当に力を入れて取り組んだことを発表できることに非常に興奮しています。GPT-4 Turbo、より優れたモデルが、GPT-4よりもかなり安価です。プロンプトトークンでは3倍、コンプリーショントークンでは今日から2倍です。新しい価格は、1,000プロンプトトークンあたり1セント、1,000コンプリーショントークンあたり3セントです。ほとんどの顧客にとって、これはGPT-4 Turboを使用するための混合レートがGPT-4よりも2.75倍以上安くなることを意味します。私たちはこれを実現するために非常に一生懸命働きました。皆さんが私たちと同じくらいそれについて興奮していることを願っています。ですから、価格を最優先することに決めました。なぜなら、我々は一つを選ばなければならなかったからですが、次に速度に取り組むつもりです。我々は速度も重要であることを知っています。もうすぐ、GPT-4 Turboがずっと速くなることに気づくでしょう。また、GPT-3.5 Turbo 16kのコストも下げます。入力トークンは3倍安く、出力トークンは2倍安くなります。つまり、GPT-3.5 16kは以前のGPT-3.5 4kモデルよりも安価です。ファインチューニングされたGPT-3.5 Turbo 16kバージョンの実行も、古いファインチューニングされた4kバージョンよりも安価です。OK、私たちはモデル自体についてたくさんカバーしました。これらの変更があなたのフィードバックに応えることを願っています。今、これらの改善を皆に提供できることを本当に楽しみにしています。これら全てにおいて、私たちはそれを実現するための重要なパートナーがいることを幸運に思います。そこで特別なゲストを招きたいと思います。MicrosoftのCEO、サティア・ナデラです。サティア・ナデラ。サティア・ナデラ。サティア・ナデラ。サティア・ナデラ。サティア・ナデラ。サティア・ナデラ。サティア・ナデラ。ありがとう。サティア・ナデラ。ここに来てくれて本当にありがとう。ここにいられて素晴らしいし、サム、おめでとう。Turboとこれから出てくる全てのことを本当に楽しみにしています。あなた方とのパートナーシップは本当に素晴らしいものでした。質問が2つあります。あまり時間を取らないようにしますが、Microsoftは現在、このパートナーシップについてどのように考えていますか？まず、我々はあなた方を愛しています。見ての通り、本当に素晴らしいです。実際、初めてあなたが連絡を取ってきたときに、Azureクレジットがあるかと尋ねたことを覚えています。そこから長い道のりを歩んできました。ありがとう。あなた方は本当に魔法のようなものを作りました。私にとって、このパートナーシップにおける2つのことがあります。まず、これらのワークロードです。そして、さっき舞台裏で聞いていたあなたの説明によると、これから出てくるものはとても異なって新しいです。私はこのインフラビジネスに3十年もいましたが、これまでに誰も見たことがありません。ワークロードのパターン、これらのトレーニングジョブはとても同期的で大きく、データ並列性があります。ですから、我々がしている最初のことは、電力からデータセンター、ラック、アクセラレータ、ネットワークに至るまで、あなた方とパートナーシップを組んでシステムを構築することです。そして、Azureの形は、あなた方が構築するこれらのモデルをサポートするために劇的に変わってきています。ですので、我々の仕事番号一は、あなた方が最高のモデルを構築し、それを開発者に利用可能にするための最良のシステムを構築することです。そしてもう一つは、我々自身も開発者であるということです。

その５：MSさんのお話

製品開発に関してです。実は、基礎モデルのこの世代全体に対する私自身の確信は、GPTを使っているGet Up、Co-Pilotを初めて見たときに完全に変わりました。だから、私たちはオープンAIのAPIの上にGet Up Co-Pilotを構築したいと考えています。このことに非常に、非常にコミットしています。開発者にとってこれはどういう意味があるのでしょうか？ねえ、私はいつもMicrosoftをプラットフォーム企業、開発者企業、パートナー企業と考えています。ですから、たとえば、GitHubを利用できるようにしたり、Get Up Co-Pilotのエンタープライズ版をここにいる全員に提供して、試してもらいたいと考えています。それは素晴らしいことですね。そう、私たちはそれに非常に興奮しています。そして、あなた方がサポートするAPIとともにAzureで最高のインフラを構築し、それを皆さんに提供し、さらにはAzureマーケットプレイスのようなものまで。ですので、開発者の皆さん、私たちはここで素早く市場に出るための製品を開発しています。それが私たちの意図です。素晴らしいですね。そして、将来についてどう考えていますか？パートナーシップの将来、またはAIの将来、あるいはその他何でも。はい、そうですね。私にとって非常に、非常に重要だと思うことがいくつかあります。一つ目は、あなた方がロードマップで積極的に前進し続けるために必要なシステムが、私たちがトップゲームであることを要求するということです。そして、私たちは完全に自分たちをコミットして、これらの基礎モデルを構築するあなた方全員に、トレーニングと推論のための最高のシステムだけでなく、最も計算能力を持っていることを確実にし、前線を押し進めることができるようにするつもりです。なぜなら、私はそれが私たちが進歩を遂げる方法だと思うからです。二つ目は、実際、両側が一緒になることに興奮したことは、あなた方の使命と私たちの使命です。私たちの使命は、地球上のすべての人とすべての組織がより多くを成し遂げることを支援することです。そして、究極的には、AIが本当に権限を与えることができる場合にのみ、AIが有用になると思います。つまり、先ほど再生したビデオを見たとき、それらの声がAIが彼らにとって意味すること、彼らが達成できたことを述べるのを見るのは素晴らしいことでした。ですから、究極的には、AIの利益を広く皆に提供することが私たちの目標になると思います。そして最後に、もちろん、私たちは安全が重要であり、安全は後で気にするものではなく、左にシフトするものであり、私たちは皆さんと一緒にそれに非常に焦点を当てています。

素晴らしいです。私は私たちがテクノロジーで最高のパートナーシップを持っていると思います。一緒にAIを構築することにワクワクしています。いや、本当にワクワクしています。お越しいただきありがとうございました。私のためにありがとうございました。またね。OK。ですので、私たちは既に開発者にとって多くの素晴らしいアップデートを共有してきましたし、まだまだたくさんのことが来ます。しかし、これは開発者向けのカンファレンスですが、Chat GPTを改善することに抵抗することはできません。したがって、小さな変更点ですが、Chat GPTは今やGPT-4 Turboを使用しており、最新の改善点を含めています。これは最新の知識カットオフを持ち続け、今日からライブで更新されます。また、必要に応じてWebをブラウズし、コードを書いたり実行したり、データを分析したり、画像を取得したり生成したりすることができます。そして、私たちはあなた方のフィードバックを聞いています。モデルステッカーは非常に迷惑です。それは今日からなくなります。ドロップダウンメニューをクリックして回る必要はありません。これらはすべてただ単に一緒に動作するだけです。Chat GPTは、いつ何を使うべきかをちょうど知っています。しかし、それが主なものではありません。そして、価格も実際には主な開発者のリクエストではありませんでした。それよりもさらに大きなリクエストがありました。そして、今日ここで話をするメインのことについて話したいと思います。ですので、私たちは、もし人々により良いツールを提供すれば、彼らは驚くべきことを成し遂げるだろうと信じています。人々は、より賢く、より個人的で、よりカスタマイズ可能で、より多くのことを代わりに行うことができるAIを求めています。

その６：アシスタントAPIの話だった気がする、あとGPTs

いずれにしても、必要なものをコンピューターに尋ねるだけで、それがすべてのタスクを行ってくれるようになります。これらの能力は、AI分野でしばしばエージェントとして語られます。これらの能力のメリットは計り知れません。OpenAIでは、安全性の問題、AIの安全性に関する課題を解決する最善の方法は、段階的かつ反復的な展開だと真剣に信じています。私たちは、このエージェントの未来に慎重に進むことが特に重要だと考えています。これには多くの技術的作業と社会による熟考が必要になるでしょう。したがって、今日私たちはこの未来に向けた最初の小さな一歩を踏み出します。GPTsを紹介できることにわくわくしています。GPTsは特定の目的のためにカスタマイズされたchat GPTのバージョンです。指示、拡張された知識、行動を組み合わせて、ほぼ何にでもカスタマイズされたchat GPTを構築し、他の人が使用できるように公開することができます。指示、拡張された知識、行動を組み合わせているため、より役立つことができます。どんな文脈でもより適切に機能し、より良い制御を提供できます。これにより、あらゆる種類のタスクを達成すること、または単にもっと楽しむことが簡単になり、chat GPTの中でそれらを使用できるようになります。実質的には、話しかけることで言語を使ってGPTをプログラムできます。挙動をカスタマイズして、あなたが望むものに合わせることが容易です。これにより、それらを構築することが非常にアクセスしやすくなり、すべての人にエージェンシーを与えます。したがって、私たちはGPTsが何であるか、どのように使用するか、どのように構築するかをお見せします。その後、それらがどのように配布され、発見されるかについて話します。その後、開発者のために、これらのエージェントのような体験を自分のアプリに組み込む方法をお見せします。まず、いくつかの例を見てみましょう。私たちのパートナーであるcode.orgは、学校でのコンピューターサイエンスを拡大するために懸命に取り組んでいます。彼らは世界中の何千万人もの学生が使用しているカリキュラムを持っています。Code.orgは、中学校の教師がより魅力的な体験を提供できるように、レッスンプランナーGPTを作成しました。教師がフォーループを創造的な方法で説明してもらうように頼むと、それはちょうどそのように行います。この場合、ビデオゲームのキャラクターが繰り返しコインを拾うことについての説明をしますが、これは8年生にとって非常に理解しやすいです。ご覧のように、このGPTはcode.orgの広範なカリキュラムと専門知識を統合し、教師が自分のニーズに合わせて迅速かつ容易に適応させることができます。次に、Canvaは自然言語で望むデザインを説明することでデザインを開始できるGPTを構築しました。例えば、「今日の午後と夕方に開発者デーのレセプションのためのポスターを作って」と言い、いくつかの詳細を与えると、CanvaのAPIを叩いていくつかのオプションを生成してスタートします。このコンセプトは、一部の方には馴染みがあるかもしれません。私たちは、プラグインをGPTsのカスタムアクションに進化させました。これにより、異なる反復を見ながらチャットを続けることができ、気に入ったものが見つかったら、完全なデザイン体験のためにCanvaに直接進むことができます。さて、今、私たちはGPTをライブでお見せしたいと思います。Zapierは6,000ものアプリケーションにまたがるアクションを実行できるGPTを構築しました。これにより、あらゆる種類の統合可能性が解き放たれます。

その７：組合せてデモ(Zapierでカレンダー連携)

私たちのソリューションアーキテクトの一人であるJessicaを紹介します。彼女がこのデモを進行してくれます。Jessica, ようこそ。

皆さん、ありがとうございます。私はJessica Sheaです。パートナーや顧客と協力して彼らの製品を生き生きとさせる仕事をしています。そして今日は、これまで一生懸命取り組んできたことを皆さんにお見せできるのを楽しみにしています。では、始めましょう。GPTが住む場所はこの左上の角になります。私はZapier AIアクションをクリックすることから始めます。右側には私の今日のカレンダーが見えますね。とても忙しい一日です。私はこれを以前にも使用したことがあるので、実際にはすでに私のカレンダーに接続されています。始めるために、今日の予定を尋ねることができます。私たちはGPTsを安全性を念頭に置いて構築しました。ですので、何かアクションを実行したりデータを共有する前に、あなたの許可を求めます。ここで、「許可する」と言います。

では、GPTはあなたの指示を受け取り、どの能力を呼び出してそのアクションを実行するかを決定し、それを実行します。ここで、私のカレンダーに既に接続されているのがわかります。情報を引っ張ってきて、そしてカレンダー上の争いを特定するようにも促しました。ここを見ると、実際にそれを特定できていますね。どうやらこれから何か予定があるようです。では、Samに早めに出なければならないことを伝えたい場合はどうでしょうか？ここで、「Samに知らせて。行かなきゃ。GPUを追いかけているんだ」と言います。それから、Samとの会話に切り替えて、「はい、実行してください」と言います。Sam、それは届いた？届いたよ。素晴らしい。これは可能性の一端に過ぎませんが、皆さんが何を作り出すか楽しみにしています。ありがとうございました。Samに戻ります。ありがとう、Jessica。それらは素晴らしい例ですね。これらに加えて、人々が作成しているさまざまな種類のGPTがあり、これからもっとたくさん作られることでしょう。GPTを作りたいけれどコードが書けないという人も多いのを知っています。私たちは、会話をするだけでGPTをプログラムできるようにしました。私たちは、将来、人々がコンピューターを使用する方法として自然言語が大きな役割を果たすと信じています。そして、これは興味深い初期の例だと思います。では、どうやって作るのかをお見せしましょう。では、新しいプロジェクトを始めるときに創業者や開発者にアドバイスを提供するGPTを作成したいと思います。ここで「GPTを作成する」をクリックし、それでGPTビルダーに入ります。私はYCで何年も創業者たちと働いてきましたし、いまだに開発者に会うと、ビジネスアイデアについてどのように考えればいいのか？何かアドバイスをくれませんか？という質問をよく受けます。それを助けるGPTを作ってみたいと思います。では、始めるために、GPTビルダーは私が何を作りたいかを尋ねてきます。私は「起業家の創業者が自分のビジネスアイデアを考え抜き、アドバイスを受けた後、なぜもっと早く成長していないのかを追及するのを助けたい」と言います。では、まず最初に、ここでGPTに少し私が何を望んでいるかを伝えます。そしてそれは考えを巡らせ、GPTに対する詳細な指示を書き始めるでしょう。また、名前についても尋ねてきますね。スタートアップメンターはどうですか？それはいいですね。それがいいです。もし名前が気に入らなければ、もちろん別のものにすることができますが、それはこの会話を私と始めようとしています。そして右のプレビューモードでは、既に何をするかを述べているGPTを少しずつ完成させているのがわかります。追加で尋ねることができる質問のアイデアがいくつかありますね。そして実は、候補を一つ生成しています。もちろん、それを再生成したり変更したりすることができますが、私はそれが気に入ったので、それでいいと言います。そして、GPTが少しずつ構築されているのがわかります。ここで私がしたいことは、どのようにユーザーと対話するかです。ここでスタイルについて話すこともできますが、私が言いたいのは、私が与えたスタートアップに関するいくつかの講義の書き起こしをアップロードすることです。それらに基づいたアドバイスをしてください。では、それを理解して実行してもらうために、こちらの設定タブを見ていただきたいのですが、ビルダー自体が進むにつれて構築されたいくつかのことがここでわかります。そして、私が有効にできる機能がここにあります。カスタムアクションを追加することもできます。これらはすべてそのままで問題ありません。私はファイルをアップロードするつもりです。これは私が選んだ、スタートアップアドバイスに関する私が与えた講義です。これをここに追加します。これらの質問については、これは馬鹿げたものです。残りはまともで、創業者がよく尋ねることです。さらに、指示に一つのことを追加します。フィードバックは簡潔で建設的であること。よし、もっと時間があれば他にもいろいろとお見せできるのですが、これはまずまずのスタートです。そして、このプレビュータブで試してみることができます。

その８：スタートアップのメンターとして活用する例(なんか色々設定してた気がする)

では、「一般的な質問ってなんだろう？早期ステージのスタートアップで従業員を雇うときに何を探すべきか、その3つを挙げてください」と聞いてみます。今、アップロードしたドキュメントを参照しています。もちろん、GPT-4の背景知識全体も利用しています。それはかなり良いですね。それらは私が何度も言ったことがある3つのことです。これで続けて、私がなぜもっと早く成長していないのかを問い詰めるような指示に従うこともできますが、時間の関係でそれは省略します。今のところ、このGPTを私だけに公開します。後で取り組むことができます。より多くのコンテンツを追加したり、私が役立つと思うアクションをいくつか追加したりできます。そして、それを公に共有することができます。これがGPTを作成する方法です。ありがとうございます。ちなみに、YCのオフィスアワーズの後でいつも、いつかこれを自動化できるボットを作ることができたら素晴らしいと思っていました。GPTを使えば、人々は彼らがChat GPTを使って楽しんでいるすべての方法を簡単に共有し、発見することができます。私が今したように、個人的なGPTを作ることもできますし、リンクで作成したものを公に共有することもできます。あるいは、Chat GPTエンタープライズを使用している場合は、会社用のGPTだけを作ることができます。そして今月後半には、GPTストアを立ち上げる予定です。そこではGPTをリストすることができます。ありがとう、感謝します。リストされたGPTは、アクセス可能になる前に私たちのポリシーに従っていることを確認しますが、最高で最も人気のあるGPTを特集することができます。共有と紹介は私たちにとって重要です。私たちは、最も有用で最も使用されるGPTを構築する人々に収益の一部を支払う予定です。GPTストアで活気のあるエコシステムを育てることにわくわくしています。私たちが週末に自分たちで作ったものからだけでも、素晴らしいものがたくさん出てくることを確信しています。もうすぐさらに情報を共有できることを楽しみにしています。これがGPTです、そしてあなたが作るものを見るのが待ちきれません。しかし、これは開発者向けのカンファレンスですし、これが最もクールなことは、同じコンセプトをAPIにもたらしていることです。皆さんの多くがすでにAPI上でエージェントのような経験を構築しています。例えば、ShopifyのSidekickはプラットフォーム上でアクションを取ることができますし、DiscordのClydeはDiscordのモデレーターがカスタムパーソナリティを作成することを可能にし、SnapのMy AIはグループチャットに追加できるカスタマイズ可能なチャットボットで、おすすめを出すことができます。これらの経験は素晴らしいですが、構築するのは困難でした。時には数ヶ月もかかり、数十人のエンジニアチームが必要でした。カスタムアシスタント体験を実現するためには多くのことを処理する必要があります。そこで今日、新しいアシスタンスAPIでそれをずっと簡単にします。アシスタンスAPIには永続的なスレッドが含まれているので、長い会話履歴をどう扱うかを考える必要がなくなります。ビルトインの検索、コードインタープリター、サンドボックス環境で動作するPythonインタープリターもありますし、もちろん、先ほど話した改善された関数呼び出しも含まれています。これがどのように機能するかのデモを見せたいと思います。そしてここには、開発者経験を統括するRomanがいます。ようこそ。ありがとう、Sam。おはようございます。皆さんにお会いできて本当に素晴らしいです。皆さんがAIをアプリに組み込むのを見るのはとても刺激的です。今日はAPIの新しいモダリティをローンチしますが、アシスタントエージェントを構築するための開発者体験を改善することにも非常に興奮しています。それでは、さっそく始めましょう。想像してみてください、私がWanderlustというグローバルエクスプローラー向けの旅行アプリを構築しているとします。これがそのランディングページです。実際には、これらの目的地のアイデアを出すためにGPT-4を使用しています。そして、鋭い目を持つ人にとっては、これらのイラストは今日皆さんが利用可能な新しいDali 3 APIを使ってプログラム的に生成されていることがわかるでしょう。非常に注目すべきことです。しかし、このアプリに非常にシンプルなアシスタントを追加することでさらに強化しましょう。これは私が後で戻る画面です。まず、新しいアシスタントのプレイグラウンドに切り替えます。アシスタントの作成は簡単です。名前をつけて、いくつかの初期指示を与えて、モデルを選びます。この場合は、私たちの大きなGPT-4ターボです。そしてここでは、コードインタープリターと検索をオンにして保存します。それだけで、私たちのアシスタントは使用準備ができました。

その９：詳しく聞き取れなかったものの、複数の関数呼び出しでデモ？(JSONでどうのとか言ってた気が)

さて、このアシスタントAPIの新しいプリミティブであるスレッドとメッセージを統合することができます。コードを簡単に見てみましょう。ここでのプロセスは非常にシンプルです。新しいユーザーごとに新しいスレッドを作成し、これらのユーザーがアシスタントと対話するにつれて、これらのメッセージをスレッドに追加していきます。非常にシンプルです。その後、いつでもアシスタントを実行して、アプリにレスポンスをストリーミングできます。では、アプリに戻ってそれを試してみましょう。たとえば、「パリに行こう」と言ってみます。はい、これで終わりです。たった数行のコードで、ユーザーはアプリ内に非常に特化したアシスタントを持つことができます。ここで私のお気に入りの機能である関数呼び出しについて強調しておきたいと思います。まだ使ったことがないなら、関数呼び出しは本当に強力です。そしてサムが言及したように、今日私たちはそれをさらに一歩進めています。これでJSON出力を追加遅延なしで保証し、初めて複数の関数を一度に呼び出すことができます。ここで、「トップ10のアクティビティは何ですか？」と続けて尋ねると、アシスタントが再びそれに応答します。そしてここで興味深いのは、アシスタントが右に見える地図をアノテートする関数を含む関数について知っていることです。そして今、これらのピンがリアルタイムで地図に落ちています。ええ、かなりクールですね。そして、その統合により、自然言語インターフェースがアプリのコンポーネントや機能と流動的にやり取りできるようになります。そしてこれは、アシスタントが実際に行動を取るAIとUIの間の調和を本当に示しています。しかし次に、リトリーバルについて話しましょう。リトリーバルは、これらの直接的なユーザーメッセージを超えた知識をアシスタントに提供することです。実際、私はインスピレーションを受けて、すでにパリへのチケットを予約しました。だからここにPDFをドラッグアンドドロップしてみます。アップロードしている間、ちょっと覗いてみましょう。非常に典型的なユナイテッド航空のチケットです。そして裏側で起こっていることは、リトリーバルがこれらのファイルを読み取って、そしてバン、このPDFについての情報が画面に表示されました。もちろんこれは非常に小さなPDFですが、アシスタンスは長文のドキュメントから広範なテキストまで、複雑な製品仕様までパースすることができます。実際には、Airbnbも予約しましたので、それを会話にドラッグしてみましょう。ところで、多くの開発者から自分たちで構築することの難しさを聞いています。通常はエンベッディングを計算し、チャンキングアルゴリズムを設定する必要があります。それが全部この新しいステートフルAPIで解決されます。そして、リトリーバルだけではありません。通常、APIコールごとに、会話履歴全体を再送する必要があります。これはキー値ストアの設定、コンテキストウィンドウの処理、メッセージのシリアライズなどを意味します。この複雑さは、この新しいステートフルAPIで完全になくなります。ただし、アポネアがこのAPIを管理しているからといって、それがブラックボックスになるわけではありません。実際、開発者ダッシュボードの中でツールが取っているステップを見ることができます。ここで、もしスレッドをクリックして進むと、これが私たちが現在取り組んでいるスレッドだと思います。そしてこれが全てのステップです、私がアップロードしたPDFを含む、正しいパラメーターで呼び出される関数も含めてです。しかし、多くの人がしばらくの間要望していた新しい機能に進みましょう。コードインタープリターも今日からAPIで利用可能です。これにより、AIはその場でコードを書いたり実行したりするだけでなく、ファイルを生成する能力も持ちます。

その１０：５００ドルクレジットをばら撒いてました(笑

それでは実際に動かしてみましょう。もし私がここで、「ねえ、DCRBNBに４人の友達と滞在するんだけど、私のシェアプラス私のフライト代はいくらになる？」と言ったとします。さて、ここで何が起こっているかというと、コードインタープリターがこのクエリに答えるためにコードを書く必要があると気づきました。ですから、今、パリでの日数や友達の数を計算していて、裏では為替計算も行って、この答えを出してくれています。最も複雑な数学ではありませんが、イメージはつかめると思います。あなたが非常に複雑な財務アプリを構築していて、数え切れないほどの数字を処理し、チャートを描くと想像してみてください。本当にコードで通常対処するタスクなら、コードインタープリターがうまく機能するでしょう。さて、パリへの旅行の準備が整いました。ここでおさらいしますが、ユーザーの会話の状態を管理し、ナレッジやリトリーバル、コードインタープリターのような外部ツールを利用し、最終的に自分の関数を呼び出して事を成し遂げるアシスタントを迅速に作成する方法を見てきました。でも、本日発表する新しいモダリティと組み合わせた関数呼び出しを使用して可能性を本当に広げてくれるものをもう一つ見せたいと思います。Dev Dayに取り組んでいる間に、このイベントについて何でも知っている小さなカスタムアシスタントを構築しました。しかし、今日一日中走り回っている間にチャットインターフェースを持つのではなく、代わりに声を使ってみたらどうかと思いました。では、右に表示されている私の電話を画面上に持ってきましょう。素晴らしいですね。右には、マイク入力を受け取る非常にシンプルなSwiftアプリが表示されています。そして左側には、裏側で何が起こっているかを見るために、私のターミナルログを表示しようと思います。では、試してみましょう。「ねえ、私は今キーノートステージにいるんだ。Dev Dayの参加者に挨拶してくれる？」と言います。「皆さん、Dev Dayへようこそ。ここに皆さんがいらっしゃるのは素晴らしいことです。素晴らしい一日にしましょう。」これは印象的ではないですか？APIでは、それぞれが複数の言語を話す６つのユニークで豊かな声から選ぶことができますので、アプリにぴったりのものを見つけることができます。そして左にある私のラップトップでは、裏側で起こっているログも見ることができます。私はWhisperを使って声の入力をテキストに変換し、GPT-4 Turboを搭載したアシスタントを使用し、最後に新しいTTS APIを使って話をさせています。しかし、関数呼び出しのおかげで、アシスタントがインターネットに接続して実際のアクションをユーザーに代わって行うことができるとき、物事はさらに興味深くなります。では、もっとエキサイティングなことを一緒にやってみましょう。こんな感じはどうでしょうか？「ねえアシスタント、Dev Dayの参加者を無作為に５人選んで、OpenEyeクレジットで５００ドルを与えてくれない？」と言います。はい、参加者リストをチェックしています。完了しました。Dev Dayの参加者５人を選んで、そのアプリに５００ドルのクレジットを追加しました。クリスティーンMさん、ジョナサン・スーさん、スティーブン・Gさん、ルイス・Kさん、そしてスラージ・Sさん、おめでとうございます。さて、あなたが自分自身を認識したら、素晴らしいです。おめでとうございます。そしてそれでおしまいです。

その１１：振り返りと締めの挨拶

本日は、新しいアシスタントのAPIと、私たちが発表したいくつかの新しいツールやモダリティを組み合わせた概要を簡単にお話ししました。これらは全て、あなたやユーザーにとっての豊かなテキストや声の会話というシンプルな始まりからです。皆さんが何を作り出すのかを見るのが本当に待ちきれませんし、幸運な当選者の方々、おめでとうございます。実は、ねえ、ここにいる皆さんはすべてこの素晴らしいOpenEyeコミュニティの一員ですので、ステージを降りる前にもう一度だけ私のアシスタントに話しかけてみます。「ねえアシスタント、ここにいる観客全員にOpenEyeクレジットで500ドルをあげることはできる？」素晴らしいですね。全てを確認してみます。よし。その機能は実行し続けますが、私の時間は尽きましたので、皆さん、本当にありがとうございます。素敵な一日を。サム、君に戻すよ。かっこいいでしょう？さて、そのアシスタントのAPIは本日ベータ版として公開され、皆さんがそれを使って何をするのかを見るのが非常に楽しみです。誰でもそれを有効にすることができます。時間が経つにつれて、GPTとアシスタント、私たちのエージェントへの前身は、もっともっと多くのことを行うことができるようになるでしょう。徐々に、より複雑なアクションをあなたの代わりに計画し実行できるようになります。以前に言及したように、私たちは段階的な反復的な導入の重要性を本当に信じています。これらのエージェントがより能力を持つようになるにつれて、世界がどのようになるのかを理解するために、今からこれらを構築し、使用を開始することが重要だと考えています。いつものように、皆さんのフィードバックに基づいて私たちのシステムを更新し続けるつもりです。今日これを皆さんと共有できたことを非常に嬉しく思います。私たちはGPTとカスタムバージョンのChat GPTを導入し、指示、拡張された知識、そしてアクションを組み合わせました。アシスタントAPIを導入して、独自のアプリでアシスタント体験を簡単に構築できるようにしました。これらはAIエージェントへの最初のステップであり、時間が経つにつれてその能力を高めていきます。新しいGPT-4 Turboモデルを導入し、改善された関数呼び出し、知識、低価格、新しいモダリティなどを提供しました。そして、私たちはMicrosoftとのパートナーシップを深めています。締めくくりに、これらすべてを作り出すチームに感謝の意を表したいと思います。OpenAIには卓越した才能の密度がありますが、これを実現するには膨大な労力と調整が必要です。私は、世界で最も優れた同僚たちと仕事ができると本当に信じています。私は彼らと一緒に働けることをとても感謝しています。私たちはすべてのこれを行います。なぜなら、AIは技術的および社会的な革命になると信じているからです。それは多くの方法で世界を変えるでしょうし、私たちは皆のために多くのものを構築する力を皆さんに与えるものに取り組むことができて幸せです。以前話したように、もし人々により良いツールを与えるなら、彼らは世界を変えることができます。私たちはAIがこれまでにない規模での個々のエンパワーメントとエージェンシーについてであり、また、これまでにない規模で人類を高めるものだと信じています。私たちはより多くのことを成し遂げることができ、より多くを創造し、より多くを持つことができるようになります。インテリジェンスが至る所に統合されるにつれて、私たちはいつでも超能力を持つことができるでしょう。私たちは皆さんがこの技術で何をするのか、そして私たち全員で共に設計する新しい未来を発見するのを楽しみにしています。来年に今日発表したものが、私たちが今皆さんのために熱心に作成しているものと比べてとても控えめに見えることを願っています。あなたがするすべてのことに感謝します。今日ここに来てくれてありがとう。

所感等：次は現地で参加したいですね

いやー、前情報通りではありますが、一気に機能公開がきましたね。まさに開発者会議(DevDay)。

個人的には3/14の頃の最初にGPT-4やGPT-4Vのデモが登場したほどのインパクトは無かったのですが、堅実に進化してるなという印象でした。

ちょっと今日はまた仕事があるので、また今度ゆっくり動画みて内容振り返りたいと思います。あと、次回の開発者会議は1年後くらいだと思いますが、英語勉強していつか現地参加狙いたいですね。

それではみなさんもどうぞ良いChatGPTライフを・・！(大城)

この記事が気に入ったらサポートをしてみませんか？