この動画は、AI対応デバイスrabbit r1の最新アップグレードを紹介しています。rabbit r1は高い人気を博し、現在6回目のバッチ予約中で、価格は$200です。新たにPerplexityとの提携でrabbit購入者に1年間の無料利用が提供され、そのGoogle検索のようなAI機能が強化されます。デバイスは、Airbnb予約の自動化など、多様なタスクを学習し、操作することができます。MicrosoftのCEOもこのデバイスを高く評価し、Rabbit創設者と共に言及しています。また、デバイスはiPhone Pro Maxに近いサイズで、左利きの人にも使いやすく、プライバシー保護のために回転カメラを装備しています。音声AIのレスポンス速度も向上しており、未来のAIアシスタンスとしての可能性も秘めています。
公開日:2024年1月21日
※動画を再生してから読むのがオススメです。
新しいrabbit r1デバイスは最近大幅にアップグレードされましたので、なぜこれが本当に素晴らしいのか、そして知らなかったことのいくつかを皆さんにお見せする必要があります。
なぜなら、このデバイスについての具体的な状況を示す独占的なビデオがいくつかありますので、rabbitを購入する方、楽しみにしている方は、ぜひ見ておきたいと思います。
まず、これらのデバイスは非常に速く売れています、本当に速く売れています、わかりますか?
10,000台のrabbit r1デバイスの第5バッチは完売しました。
第6バッチの予約受付は現在rabbit.techで行われています。総数は50,000台です。
第6バッチの予定配送日は2024年6月から7月であり、EUとUKのすべての住所については、バッチ1から6までが2024年7月末までに先着順で発送されます。
ですので、最初に注文した人は、現在注文している人よりも早く手に入れることができるでしょう。
そして、これはたったの200ドルです、約170ポンド、約70ユーロです。
最近の注目すべき出来事は、実際には非常に新しい発表があり、本質的にはPerplexityに関するものでした。
Perplexityが何かを知らない人が実際に多いので、このビデオを作成して皆さんに理解してもらいたいと思います。
基本的に、PerplexityはGoogle検索のようなものですが、AIを組み合わせてより効果的になっています。
正直に言って、試してみるまでわからないですが、本当に本当に効果的です。
ですので、Perplexityのトレーラーを見て、実際に何が起こっているのかを本当に理解してください。本当に本当に効果的だと言っていますから、信じてください。
それでは、これをご覧いただき、彼らの発表について説明します。
ヘッドフォンの選択肢の迷宮、ニュースの騒音に溺れたり、日本旅行の計画が停滞したりしている場合、Perplexity Copilotはあなたのガイド付き検索アシスタントです。
Copilotをオンにして質問してみてください。あなたが知りたいことについて徹底的に調査し、適切な簡潔な回答を提供します。
リンクの海に飛び込むことを忘れてください。Copilotは質問の本質を把握して、検索を微調整するための作業を行います。
Copilotは質問を明確にするためにあなたと対話します。
これにより、あなたが本当に求めているものを得ることができます。
あなたが求めているものを見つけるために、Copilotはさまざまな情報源を駆使して関連性と品質を確保します。
もっと知りたいですか?
すべての情報源は、より詳しく調査するためにクリックまたはタップするだけです。
例えば、簡単な質問をしたけれども、答えが求めていたものではなかったとしましょう。
簡単です、簡単な回答の下部で「書き直す」を選択し、Copilotを選ぶことで、簡単な検索をガイド付きの検索体験に変えることができます。
Perplexity Copilotを使えば、単に検索するだけでなく、インターネットへの新たな窓を開くことができます。
最も単純な質問から深い疑問まで、ここから知識が始まります。
ですので、Perplexityは本当に本当に効果的です。
そして、Perplexityが何かを知っている人や使用している人にとっては、私が言っていることが本当だということがわかるでしょう。
それがこの発表がとても素晴らしい理由です。なぜなら、rabbitは実際にPerplexityと提携して、rabbitデバイスを購入するすべての人に1年間完全に無料で提供するからです。
通常、これは月に10ドルまたは20ドルほどですが、現在は1年間完全無料で提供されます。
私が言っていることは、rabbitデバイスが非常に良くなるということです。
だからこそ、これは完全にパワーアップされたと言ったのです。
ビデオの後半では、実際のrabbitデバイスのいくつかのビデオを見ることができます。創設者がTwitterでいくつかのビデオを共有しており、サイズの参照などの他のクールなものもあります。
MicrosoftのCEOがrabbitのデバイスについて言及していました。
しかし、それから両社の創設者がTwitterのスペースでこの発表について話しているので、Discodeを聞いていただきたいと思います。本当に、本当に。
だから、Perplexityとrabbitがパートナーシップを組んでいることをお知らせできてとても嬉しいです。私たちはPerplexityのオンラインLLM APIを使用して、rabbit r1のリアルタイムで正確な回答を提供することに興奮しています。これには知識の制限がなく、常に私たちの検索インデックスに接続されています。また、最初の10万個のrabbit arbanの購入者には、1年間の無料Perplexity Proも提供されます。
その機能は知りませんでしたが、続けてください。
はい、最初の10万個のrabbit arbanの購入者は、1年間のPerplexity Proを無料で提供されます。
つまり、Perplexity Proが1年間無料で提供されるということは、200ドルの価値があるということです。
ですので、rabbit r1を200ドルで購入すると、2倍の価値を得ることができます。
はい、私たちは数日前にXでやり取りをしました。そして、次に起こることは数日後で、チームは一緒に本当に一生懸命働いてこれを実現させています。
私にとっては、rabbit r1を考えると、$199という価格、いや、実際には$2,200ではなく$199、加入料はなく、Perplexityの使命は十分に寛大で、1年間のPerplexity Proを提供してくれるということは、実際には200ドルですが、簡単な選択です。
それは本当にクールな発表があったけれど、他にもいくつかのことがあったんだ、わかる?
だから、MicrosoftのCEO、サン・アデラがrabbitの素晴らしさについて話していました。
rabbitの創設者として、自分が作った製品について世界最大の企業のCEOが話すのを見るのはどんな気持ちなのか想像できません。
rabbit OSとデバイスのデモは素晴らしかったと思います。
私は言わせてもらいますが、ジョブズのiPhoneの発表の後、エージェント中心のオペレーティングシステムとインターフェースの可能性を示す、最も印象的なプレゼンテーションの1つだと思います。
そして、私はそれがみんなが求めているものであると思います。どのデバイスがそれを実現するのか、など。
それははっきりしていませんが、コンピューターに戻ると、非常に、非常に明確だと思いますね。
ブレークスルーがあれば、自然なインターフェースで、1つのアプリずつ進む必要がなく、認知負荷がすべて人間にかかるというアイデアは、本当のブレークスルーがある可能性があるように思えます。
過去には、最初の世代のCortanaやAlexa、Siriなどがあったとしても、これらのTransformersやLarge Language Modelsがなかったため、非常に脆弱でしたが、今では新しいアプリモデルを作るための技術があると思います。
新しいインターフェースと新しいアプリモデルがあれば、新しいハードウェアも可能だと思います。
それはマイクロソフトからの機会ですか、それともハードウェアから離れているのですか?
いや、いつでもチャンスですよ。
その話は非常に興味深かったです。Microsoftはハードウェア市場を注視しているようです。
そして、覚えておいてください、それは数年前のことで、実際には数年前だけでなく、15年前くらいだったと思いますが、マイクロソフトはWindows Phoneというデバイスを完全に中止しました。
それについて知らない人もいるでしょうし、その通りです。うまくいかなかったので。
そして、実際にMicrosoftが再びこの市場に参入するかどうかは興味深いですが、CU OpenAIもデバイスに取り組む予定でない限り、参入しないと思います。
マイクロソフトがこれに再び参入するかどうかは興味深いですが、OpenAIもデバイスで取り組むつもりでない限り、彼らは参入しないと思います。
しかし、もし私が過去に語ったRay-BanのAIメガネに関する他のビデオをご覧になったのであれば、それが興味深いポイントになると思います。
さらに、多くの人々が見逃したことは、rabbitが実際にどのように機能するかということです。
rabbitについて話題となった素晴らしいテックのオリジナルビデオでは、彼らがLanguage Action Modelについて話しているウェブサイトのビデオは実際には紹介していませんでした。
基本的には、彼らが実際にエージェントを使ってウェブとやり取りするための新しい独自のシステムです。LLMsは良いですが、テキストベースですし、それが本来の目的です。
他の用途にも使えますが、それが作られた目的ではありません。
だから、彼らは本質的にLAMsを作りました。そして、このデモでは、大規模なアクションモデルがこれまで見た中で最も優れていることを説明しています。それは人間の意図を理解する新しい基盤モデルです。
なので、これは本当に興味深い腕時計だと思います。
それから、これの後で、実際に使用されているrabbitのビデオを皆さんに見せたいと思っていますので、もっと直接的なデモをいくつかお見せします。とても興味深いと思いますので。
なぜなら、注文した皆さんは、おそらくそれがどれくらい大きいのか知りたいと思うでしょうし、特定の機能についてはどのように動作するのか知りたいと思うでしょうから、すぐにお見せします。
Rabbid OSには、特定のアプリケーションの使い方を教えることができます。
このビデオでは、私が人間として通常通り操作しながら、rabbitにAirbnbの予約の仕方を教えています。
左の画面では、右側でLarge Action Modelが私の入力を学習し、リアルタイムで私の行動を模倣しています。
私は妻と娘と一緒にバルセロナへの旅行を計画しようとしています。
最初に私がすることは、どこでもオプションに移動し、検索フィールドにバルセロナと入力することです。
システムはバルセロナ、スペインを提案してくれます。それが私たちが行きたい場所です。
ウェブサイトのカレンダーツールを使って、15日にチェックインし、21日にチェックアウトする予定です。
さて、ゲストを追加し、メンバーを適切に調整します。
それでは、検索ボタンを押してみて、何が出てくるか見てみましょう。
私たちはビーチが好きなので、ビーチフロントのオプションを選ぶようにしましょう。
そして、よりプライベートな体験のために、私はまるごと貸切のオプションを選びます。そうすれば、私たちだけの場所になります。
予算については、最大で400,000、最小で100,000に設定します。そうすれば、すべてのオプションが私たちの価格帯内に収まります。
私たちは少なくとも2つのベッドルームが必要です。それぞれが自分のスペースを持てるように。
最後に、私たちの好みが設定されたので、条件に合う多くのオプションがあります。
ちょうど完璧なものを探してみます。
各トレーニングは数分で終わり、アプリケーションプログラミングインターフェース(API)へのアクセスも必要ありませんし、デバイスに何かをインストールする必要もありません。
各ワークフローを一度だけトレーニングするだけです。
では、Rabbid OSを使ってロンドンの部屋を予約してみましょう。
私の大家族がロンドンに行く予定です。
私たちは大人8人と子供4人です。
12月30日から1月5日までを考えています。
まだ確定ではありませんので、一般的なオプションを教えてください。
調べてもらえますか?
もちろん、お手伝いします。
最初のオプションは、ポルトベルムの家で、1,348,3511の宿泊料金で、評価は4.8です。
大規模なアクションモデルは、モバイルアプリ、ウェブアプリ、プロフェッショナルデスクトップアプリをサポートしています。
それはユーザーインターフェース上で直接学習し、それに基づいて行動します。
私たちはすでに最も人気のあるアプリのトレーニングプロセスを開始しています。
このビデオを見ている間に、rabbit OSは急速に学習し、数百のアプリに適応しています。
rabbitの究極の目標は、デバイス上のアプリを置き換える最初の自然言語オペレーティングシステムを定義することです。
機械に真剣に宿題をやらせる時間です。
だから、この製品がそのように売れた理由がわかると思います。彼らが言っていることが少しでも本当なら、トレーニングは数分で済み、APIは必要なく、ソフトウェアも一度だけで済むということです。
それが彼らが言ったことで、各ワークフローを一度だけトレーニングするだけです。
本当にそうなら、それは大胆な主張ですが、彼らは確かに新しい領域を切り拓いています。
それで私はそれを絶対に信じられないと言いたいと思います。
しかし、それはただの仕組みの一部の理解です。
そしてもちろん、私たちはベンチマークも行いました。実際にGPT-4やGPT-3.5、Flan-T5-XLなどと比較してみたのですが、LAM large 1がどれだけ優れているかがわかります。Neuro-Symbolicという彼らの新しい独自モデルです。
そして、もちろん、サイズの参照に移ります。
だから、ここで創設者が実際にこれがどれだけ大きいかについて話しています。なぜなら、あなたは、これがどれだけ大きいか、どのように機能するか、サイズがどうなっているか、そういったクールなことを見たいと思う人もいるかもしれません。
そして彼はまた、他の2つのビデオも見せてくれます。
だから、これを見せたいと思います。なぜなら、これがどれだけ大きいかを見ることは重要だと思うからです。
そして、私は、まるでiPhoneと比較してほしかったと思います。なぜなら、これはiPhoneを置き換えるかもしれないけれども、それでも似たような携帯デバイスだからです。
しかし、それにもかかわらず、絶対に見る価値があります。
しかし、アイデアは、7年前にRaven Hを設計したとき、私はこの磁気式の取り外し可能なピクセル化されたコントローラーを持っていて、それがメインデバイスにくっつくんですよ。
しかし、アイデアは、あなたが持ち運び、ちょっと待って、話すことができるということです。
しかし、r1は実際にはそれよりも小さいです。
それを上に置くと、フットプリントよりも小さいです。
しかし、それはまさにフットプリントと同じです。
ワイストワイズはまさにiPhone Pro Maxモデルと同じですが、フットプリントの50%です。
それがアイデアのようなものです。
だから、彼はそれがほぼiPhone 15 Pro Maxと同じサイズだと言っていますが、ちょうどその半分です。
そして、もちろん、これは、アクセシビリティのためのものです。
だから、彼はなぜ左利きのバージョンは必要ないのかについて話しています。
こんにちは、私はジェシーです。これが私のr1です。
たくさんの人々がTwitterで尋ねています。「左利きの人向けにL1を作ってもらえませんか?」
彼らは、これらのコントローラーやボタン、スクロールが右側にあると思っているため、外れていると思っています。おそらく右利きのために特別に設計されていると。
実際にはそうではありません。
実は私は左利きなので、これが私がr1を左手で持つのに最も快適な方法です。
もしもこれを見ていただければ、これを手に持って、ドックボタンを押すと、実際に私の中指は自然にここにPTDボタンの位置に着地しますし、スクロールに関しては、ジェスチャーを崩すことなく、基本的にはこうやって後ろからスクロールします。
このように持って、再生ボタンを押すだけで、Daft Punkの「Get Lucky」が流れます。
それは本当に効果的でした。
したがって、左利きの方々にとっては、これは問題にならないでしょう。
ねえ、ジェシー。そして、こちらが私のr1です。では、ここで...
そして、もちろん、彼は回転カメラについて話す別のずる賢いデモを見せます。
これは明らかに見る価値があります。
私のr1、回転カメラをじっくり見てみましょう。
カメラはデフォルトで下を向いており、プライバシーのための物理的なブロックがあります。
しかし、使おうとすると、ビジョンに行ってダブルクリックします。
そして、単に回転させるだけです。
もう一度やってみましょう。
戻る。
それは下を向いてビジョンに入ります。
回転し、もちろん、反対側にもフリップできます。
乾杯。
だから、彼らがこのデバイスをどのように作り上げたのかは、本当に魅力的だと思います。
宇宙では、いくつかのクリップを手に入れたので、全体を聞くことができました。
約48分でした。
本当に興味深いものでした。
そして、彼らは実際に3つのことについて話しました。
だから、この3つのことをお見せしたいと思います。なぜなら、彼らはAIアシスタントの未来について話していたからです。
彼らはまた、500ミリ秒の応答時間をどのように実現したかについても話しました。
そして、彼らはレイテンシーをどのように削減したかについても話しました。
そして、それらは私が将来において最も重要だと思う3つのことです。
なぜなら、低遅延は私たちがAIシステムをより楽しむことができるようにするからです。
なぜなら、より現実的に聞こえるからであり、彼らはより迅速に反応するからです。
もちろん、AIシステムの未来は重要です。なぜなら、これらの人々は市場に現在存在するものよりも優れた独自のモデルを開発しているようです。
この話は、彼らが500ミリ秒の応答時間を実現する方法についてのものであり、興味深い話だと思います。
このボタンを押すと、マイクが録音を開始します。
録音はオーディオファイルに保存され、そのオーディオファイルを文字列に変換する必要があります。
そして、それらの文字列はディクテーションエンジンまたは音声テキストエンジンに送られ、テキストに変換されます。
そして、そのテキストはOpenAI ChatGPT APIまたはPerplexity API、または他の大規模言語モデルに送られ、意図的な理解に基づいて生成が始まります。
しかし、私たちはストリーミングモデルを作成しました。つまり、チャンクを非常に小さなタイムスタンプのチャンクに切り分け、モデル全体をストリーミング化しています。
ただし、私たちはシーケンスをストリーミング化する技術を持っています。
現時点では、私たちはGPTやPerplexityの速度を加速させるわけではありません。
しかし、このストリーミングメカニズムにより、最新の情報を検索しないで尋ねる場合、私たちは常に基準値である1回の応答あたり500ミリ秒に達しています。
再度言いますが、これは私たちが押し進めるものであり、現時点では産業標準です。
それが彼らが推進する方法について話している内容です。
そして、もちろん、彼らはさらに詳細に掘り下げています。
そして、今日のあなたのレイテンシーをどのように考えますか?
それを他の類似のアプリ、例えばChatGPTの音声対話と比較したことはありますか?
例えば、2つを比較してみたことはありますか?
そうですね、私たちはこのストリーミングモデルを確立したのはかなり早い段階で、2年以上前から取り組んでいました。
なぜなら、遅延があるのか考えてみると、このボタンを押すとマイクが録音を開始し、オーディオファイルで録音され、そのオーディオファイルを文字列に変換する必要があるからです。
そして、その文字列はディクテーションエンジンまたは音声テキストエンジンに送られ、テキストに変換されます。
そして、そのテキストはOpenAI ChatGPT APIまたはPerplexity API、または他の大規模言語モデルに送られ、意図的な理解のために生成されます。
そして、それから、彼らの速度に基づいて生成が始まります。
そして、それは往復ですね?
これは単一の往復ですし、すべてが再び逆になります。
だから、これらすべてを合わせると、GPT-4をベースに最適化されていないボイスAIを構築する場合、単一の対話についてはおそらく5〜6秒かかることがわかっています。
しかし、私たちはストリーミングモデルを作成しました。つまり、チャンクを非常に小さなタイムスタンプのチャンクに切り分け、モデル全体をストリーミング化しています。
私は最適な人間ではないと思いますが、このことについて話すのは私ではないと思います。
私はこのことについて話すのに最適な人ではないと思います。
後で私たちのCが、このことについて何か書いてくれるかもしれませんね。
しかし、私たちはシーケンスをストリーミングにするための技術を持っています。
現時点では、GBPやpropr praityのスピードを加速しているわけではありません。
しかし、このストリーミングメカニズムにより、最新の情報の検索を要求する場合、私たちは常に500ミリ秒のレスポンスを達成しています。
しかし、私は皆さん、私たちのチーム、あなたと私が、最新の情報検索に関して何かできることを願っています。
そして、もしかしたらこれを少し遠くまで推し進めることができるかもしれません。なぜなら、これは私たちが推進するものであり、現在の産業標準であるからです。
はい、まったくその通りです。
私たちは確かに最先端にいます。
実際、ストリーミングを通じて行うことを希望するという事実は、完全な応答を待つよりも、知覚されるレイテンシーがすでにはるかに良くなっていることを意味します。
そして、私たちはそれを加速させるためにできることはまだまだたくさんあると思います。
そうですね、それが彼らがChatGPTと比較されているところであり、さらに良くなると思われます。
そして、これはアシスタンスの未来がどのように展開されるかについて話している最後のクリップです。
だから、そこからリードして、音声対音声の形態についてのあなたの考えを聞きたいですね。
そうですね、なぜなら、Rabbidデバイスは、単に画面やテキストを消費するだけでなく、より自然に対話することを可能にしてくれるからです。
では、人々がこれらのAIチャットボットやアシスタントとどのように関わり、消費するかについて、あなたの考えはどうですか?
そうですね、私たちは、私たちの年齢であることを考えると、残念ながら、音声認識エンジンは決して発明されませんでした。
そして、それが発明され、ひどい方法で使用されました。
私たちの現行世代は、ディクテーションエンジンの初期の日々、大規模言語モデルやトランスフォーマーなどが登場する前の自然言語処理の犠牲者だと思います。
だから、私は個人的には、おそらくここにいる皆さんと一緒に、初期バージョンの音声認識エンジンに対してPTSDを抱えていると思います。
だから、おそらく、声は正しい方法ではないかもしれないという強い印象を私たちの心に与えるのかもしれません。
私はむしろタイプする方が好きです。
しかし、私たちの原則は非常にシンプルです。コミュニケーションにとって最も包括的な方法は何か、ですね。
皆さんを考えてみてください。
もしも私たちがこのTwitterスペースをTwitterスペースの一種や、さらに悪い場合はファクトTwitterスペースに変換した場合、比較的短い時間でこの情報をすべて提供することはできないと思います。
だから、人間同士がどのようにコミュニケーションを取るかを考えると、ニューラリンクのようなものが使われる前の、特に声による会話はまだ最も効率的な方法です。
特に若い世代にとって、ここで聞いているリスナーの中には5歳、6歳、7歳の子供を持っている人がどれくらいいるかわかりませんが、彼らは実際にキーボード上のディクテーションアイコンをタイピングを始めるよりも好むということがあります。
今、問題は簡単になりました。なぜなら、私たちはPTSDを修正するだけで済むからです。
しかし、過去3、4年を見てみると、特に過去3年間を考えると、その周りの基盤インフラストラクチャが大幅に改善されてきたと思います。
特に若い世代、特にここにいるリスナーの中に、おそらく5歳、6歳、7歳の子供がどれくらいいるかはわかりませんが、若い世代、つまり2010年以降に生まれた子供たちの中で、キーボード上の音声入力アイコンを実際に好む子供が多いことが見られます。通常のタイピングよりも、声による入力を選好しているようです。
だから、異なる世代の利用行動はもう変わり始めていると思います。
もちろん、根本的な理由は、多くのインフラが十分に整っていて、冗長性があるからです。
だから、私たちにとって、r1を振るとr1に話しかけることしかできないのは、なぜなのかと言っているわけではありません。
でも、もっとも自然な方法を考えてみてください。急いでいる場合、アナログなボタンを見つけて、押し続けて話し始めることよりも良い方法はありません。
だから、それが私たちのデザインの原則だと思います。
私たちは、現在の困難さを理解していますが、少しでも前進したいと思っています。方法が間違っているわけではないですよね?
アプローチが間違っているわけではありません。
技術が準備できていないから違和感があるだけですが、過去3〜4年間で、多くのインフラが大きな進展を遂げてきたと思います。