rabbit社は、自然言語を中心に操作する新しいAIエージェント、LAMを開発しました。この技術を用いて、直感的でシンプルな操作が可能な新型コンピュータとスマートフォン、r1を発表しました。r1は音声によるコントロール、タッチスクリーン、回転カメラなどを搭載し、従来の音声AIアシスタントよりも高速に応答します。R1は複数のアプリケーションと連携し、自動的に複合タスクを実行でき、リアルタイム翻訳、メモ作成、料理レシピ提案など多彩な機能を持ちます。また、r1はユーザーから新しいスキルを学ぶことが可能です。r1は2024年に発売予定で、価格は$199です。
公開日:2024年1月10日
※動画を再生してから読むのがオススメです。
あまり知られていない小さな会社、rabbitがあります。
その会社は静かに、あなたの代わりにタスクを実行できるAIエージェントである大規模行動モデル、LAMを作りました。
その会社は最近、コンピュータとスマートフォンをほぼ完全にその大規模行動モデルによって再構想したr1サービスを発表しました。
その基調講演を見る必要があります。
皆さん、こんにちは!
私の名前はジェシーで、rabbitの創設者兼CEOです。
今日ここにいられてとてもワクワクしています。私たちが取り組んできた2つのこと、革新的な新しい基本モデルとそれによって動く画期的な消費者向けモバイルデバイスを紹介します。
私たちの使命は、最もシンプルなコンピュータを作ることです。それは直感的で、使い方を学ぶ必要がないほどです。
これを達成する最良の方法は、スマートフォンが現在使用しているアプリベースのオペレーティングシステムから脱却することです。
代わりに、自然言語中心のアプローチを考えています。
私たちが構築しているコンピュータは、私たちがコンパニオンと呼ぶもので、話すこと、理解すること、そして何よりも、あなたのために物事を成し遂げることができるべきです。
人間と機械のインターフェイスの未来はもっと直感的であるべきです。
さて、始める前に、私たちが毎日使っている既存のモバイルデバイスを見てみましょう。
あなたのポケットに入っている1つのデバイス、iPhoneやAndroidフォンのようなスマートフォンです。
これらは何年もここにあり、私たちはそれらに飽きてきました。
ただし、これらのデバイスの問題はハードウェアフォンの要因ではありません。
それは中にあるものです:アプリベースのオペレーティングシステム。
すぐにオフィスに行きたいですか?
それにはアプリがあります。
食料品を買いたいですか?
それにも別のアプリがあります。
何かをしたいたびに、使用したいアプリを見つけるために複数のページやフォルダをもたつきます。
そして、常にクリックする無数のボタンがあります。カートに追加し、次のページに進み、チェックボックスをチェックし、行ったり来たりし、などです。
スマートフォンは直感的であるとされていましたが、今日あなたの携帯にある何百もの相互に作動しないアプリでは、それはもはやそうではありません。
今日のアプリストアでトップランキングのアプリを見ると、そのほとんどがエンターテイメントに焦点を当てていることがわかります。
私たちのスマートフォンは、時間を節約する代わりに、時間を潰すための最高のデバイスになっています。
彼らにとって物事をするのは難しくなっています。
私たちの前には、AIを使ってもっとシンプルで直感的なコンピュータを作ろうとした多くの人々がいました。
10年前、Apple、Microsoft、Amazonなどの企業がSiri、Cortana、Alexaを作りました。
これらのスマートスピーカーでは、あなたが何について話しているのかわからなかったり、私たちが頼んだタスクを達成できなかったりします。
しかし、最近の大規模言語モデルの成果により、機械があなたを理解することがずっと簡単になりました。
過去数年間にチャットボットの人気が示しているように、自然言語ベースの経験が前進する道です。
ただし、これらのアシスタントがまだ苦戦しているのは、物事を実行することです。
例えば、チャットボットを使ってExpediaのプラグインでチケットを予約しようとすると、オプションを提案できますが、最終的には予約プロセス全体を最初から最後までサポートすることはできません。
チャットボットのようなものはあなたの意図を理解するのは非常に得意ですが、行動を引き起こすことに関してはもっと改善できます。
もう1つの注目されている話題は、彼らが「エージェント」と呼ぶものをめぐる研究の分野です。
これは多くのオープンソースプロジェクトや生産性ソフトウェア会社の注目を集めています。
解決すべきことは、これらのエージェントがタスクを正確かつ迅速にエンドツーエンドで実行することです。
問題は、モデルにそれが設計されていないタスクを強制することです。言語モデルにウェブページについてスーパープロンプトやスクリーンショットを使って推論させるなどです。
ユーザーが単にボタンをクリックするのと同じくらい良いエージェントをまだ生み出していません。
魅力的で直感的なコンパニオンという私たちのビジョンを実現するためには、複雑なソフトウェア以上のものが必要です。
私たちはそれを皆の手に渡したいと思っています。
そこで、まず私たちはコンピュータアプリがどのように構造化されているか、そしてもっと重要なことに、人間がそれらとどのようにやり取りするかを根本的に理解することから始めました。
私たちは、AIがユーザーに代わってあらゆる環境で行動を引き起こす方法を見つけたいと思っています。
私たちはそれをユニバーサルにしたいと考えています。Chromeのプラグインや限定されたアプリのセットだけでなく、iOS、Android、デスクトップなどすべてに対応します。
これらのアプリケーションには共通点があります:インターフェイスです。
それらはすべてユーザーインターフェイスを持っています。
したがって、哲学的なレベルで、私たちが人間のように任意の種類のインターフェイスで行動を引き起こすAIを作ることができれば、問題を解決します。
この洞察により、私たちは大規模行動モデル、または私たちが呼ぶようにLAMを作りました。
これは、コンピュータ上で人間の意図を理解し実行する新しい基本モデルです。
ニューロシンボリックシステムにおける私たちの研究によって駆動され、大規模行動モデルによって、アプリ、API、またはエージェントが直面する課題に対する根本的な解決策を見つけます。
私たちはインターフェイスを使ってそれを解決します。
LAMは、どのプラットフォームで実行されているかに関係なく、あらゆるソフトウェアのインターフェイスを学ぶことができます。
簡単に言えば、大規模言語モデルはあなたが言っていることを理解しますが、大規模行動モデルは物事を成し遂げます。
私たちはLAMを使用してAIを言葉から行動へと導きます。
ついに、あなたが言おうとしていることを理解するだけでなく、あなたに代わって物事を実際に助けることができるコンピュータを構築できます。
私たちは大規模行動モデルを高度なRapid OSオペレーティングシステムに組み込みました。
これは、LAMによって駆動されるあなたとrabbitの間のリアルタイムのやり取りのために設計されています。
大規模行動モデルのコンセプトとテスト結果は非常に強力であるため、私たちは独特のモバイルデバイスを作ることに決めました:r1、あなたのポケットコンパニオンの紹介です。
それはTeenage Engineeringとのコラボレーションによって設計されたrabbit r1です。
r1は完全に独立したデバイスで、主に自然言語によって駆動します。
私たちの研究、デザイン、ソフトウェアチームによる数え切れないほどの作業の積み重ねです。
使い方は簡単です。
r1には、あなたがr1と対話し、周囲を認識するために必要なものがすべて装備されています。
タッチスクリーン、プッシュ・トゥ・トーク・ボタン、アナログ・スクロール・ホイール、マイクとスピーカー、そしてrabbit・アイと呼ぶコンピューター・ビジョン対応の360度回転カメラが搭載されている。
ブルートゥースとWi-Fiに対応し、グローバルな4G LTEネットワークに対応するカラースロットも備えている。
では、その機能を見てみよう。
まるでチャットボットを使っているように、rabbitに何でも尋ねることができる。
しかし、違いはスピードだ。
rabbit OSを使うと、ほとんどの音声AIプロジェクトよりも10倍速く返事が返ってくる。
rabbitは500ミリ秒以内に私の質問に答えてくれる。
プッシュ・トゥ・トーク・ボタンを使えば、話しかける必要はない。
ボタンを長押しするだけで、トランシーバーのように話すことができる。
さあ、試してみよう。
現実の本質とは?
現実の本質とは、歴史を通じて哲学者や思想家の心を魅了してきたテーマである。
バートランド・ラッセルによれば、現実は感覚的な経験と論理的な分析から得られたハードデータから構成されている。
それは私たちの知覚、思考、そして外界の融合である。
私はr1で話すこともタイプすることもできる。
r1を振るとキーボードがポップアップする。
また、チャットボットのようなウェブブラウジングでLLMアシスタントアプリのいくつかを使用するよりも、反応速度がはるかに速いことに気づくでしょう。
コカ・コーラの株価は?
コカ・コーラの株価を検索。
Coca-Cola (KO)の株価は$59.76です。
クリストファー・ノーラン監督の最新作でオッペンハイマー役を演じたのは?
クリストファー・ノーラン監督の最新作『オッペンハイマー』では、J・ロバート・オッペンハイマー役をキリアン・マーフィーが演じている。
この映画は、アメリカの科学者J・ロバート・オッペンハイマーと原爆開発への彼の関わりを描いた伝記スリラーである。
では、大型アクションモデルとLAMの動きを見てみよう。
rabbit r1は、あらゆる種類のアプリケーションと相互作用することができます。
rabbitホールのウェブポータルを紹介しよう。
さまざまなサービスにログインして、r1の機能性をアンロックできるんだ。
まるでiCloudのようだ。
例えば音楽を聴きたいとしよう。
rabbit Holeウェブポータルを使えば、r1でどのサービスを有効にするか、どのプロバイダーで音楽を聴くかを完全にコントロールできる。
私はSpotifyを使っているので、Spotifyをrabbitホールに接続してみよう。
これがSpotifyのログインページだ。
ログイン・プロセスを始める前に、プライバシーに対する我々のコミットメントを強調しておきたい。
我々のアプリのインフラ設計では、偽ユーザーやスパムユーザーを作らない。
もちろん、サードパーティの認証情報を保存することもありません。
その代わり、サードパーティのログインページにリダイレクトします。
ユーザー名とパスワードを保存することはありませんし、データを追跡することもありません。
認証はそれぞれのアプリ上で行われる。
今、私はSpotifyでログインしています。
rabbitOSは、Spotifyが私のデバイスで認証されたことを認識する。
このプレゼンテーションの前に、UberやDoorDashなど他のアプリも事前に認証しておいた。
好きなサービスを選んで、そこからログインするだけで、あなたのデバイスで認証される。
とても簡単だ。
では、音楽をかけよう。
KraftwerkのPocket Calculatorを再生しよう。
KraftwerkのPocket Calculatorを再生します。
アルバムから別の曲を再生。
Computer Loveを再生します。
では、同じアルバムから全曲。
この曲は誰が作詞作曲したのですか?
クラフトワークのComputer Loveは、ラルフ・ヒュッターとエミール・シュルトが作詞しました。
この曲をサンプリングしたバンドは?
Computer Loveをサンプリングした曲としては、コールドプレイの『Talk』しか知られていないようだ。
この曲についてどう思いますか?
クラフトワークの『Computer Love』は、エレクトロニック・ミュージックの領域において画期的で影響力のある曲として広く知られている。
キャッチーなメロディー、ロボットのようなボーカル、シンセサイザーの革新的な使い方の融合は、このジャンルに永続的な影響を残した。
r1で車を呼ぶこともできる。
オフィスから家まで送ってもらう。
ではもちろん、あなたのオフィスから自宅までUberで予約しておきます。
乗車確認をお願いします。
6人で荷物が3つあります。
全員乗れるUberを探してください。
6人と荷物3個の場合、Uber XLを予約することをお勧めします。
乗車確認をお願いします。
乗り物が現れた。
確認を押したところ。
Uberが来る。
r1を使って食べ物を注文することもできる。
ピザハットの12インチピザをここに届けてくれ。
アプリの一番注文の多いオプションでいい。
ピザハットの12インチピザを注文。
最も多く注文されたオプションでいいとおっしゃったので、それを選びます。
12インチのピザを注文しました。
クラシックマリナーラソースとレギュラーチーズをトッピングします。
ご注文を確定してください。
とても美味しそうですね。
注文を確認しました。
あとはピザを待つだけだ。
スマートフォンでは複数のアプリで完結するような、より複雑な一連の動作をr1にさせることもできる。
例えば、私がロンドンへの旅行を計画したい場合、r1に私が望んでいることをすべて説明すればいい。
家族をロンドンに連れて行きたい。
私たち2人と12歳の子供1人です。
1月30日から2月5日を考えています。
旅行全体のプランニングをお願いできますか?
安い直行便、グループ分けされた座席、かっこいいSUV、Wi-Fiのある素敵なホテルがいいです。
あなたの旅行を実現するために航空券のオプションを探る。
あなたの旅行のために、様々なフライトオプション、選択可能なホテルの範囲、利用可能なレンタカーを見つけました。
詳細と予約については、各オプションを個別に確認してください。
というわけで、すべて計画済み。
確認、確認、確認で終わりです。
向こうにいる間の楽しいことのスケジュールを考えてくれる?
その通り。
詳細な旅行プランを用意しました。
要約すると、ロンドンの象徴的なランドマークを探索し、美術館を訪れ、地元のレストランでおいしい食事を楽しみ、さまざまな地域の活気ある雰囲気を体験するというものです。
ナビゲーションの詳細も準備していますし、参加したいイベントのチケット予約もお手伝いします。
r1が旅行のすべてを計画してくれたんだ。
それはすごい。
でも、ちょっとハードすぎるような気がします。
簡単なスケジュールを組んでくれる?
もちろん。
今作っているところだ。
ぜひ見て、感想を聞かせてください。
毎日、細かいところまでゆったりとしたスケジュールが組めるようになりました。
本当に良さそうだ。
素晴らしい旅が予感できる。
クールだろ?
r1は、電話のように、よりスマートに、他の人と連絡を取る手助けをしてくれる。
r1にはリアルタイム翻訳機とメモ機能が内蔵されており、コミュニケーションの最後の障壁を取り除くことができる。
r1は周囲で話されている言語を自動的に検出し、双方向の翻訳を提供する。
r1には、高度なコンピューター・ビジョン用に設計されたオンボード・カメラが搭載されている。
周囲の状況を分析し、リアルタイムでアクションを起こすことができる。
眼球を作動させるには、ボタンをダブルタップするだけだ。
ここで会うとはね、リック。
見せてくれ。
これが冷蔵庫にあるんだ。
カロリーの低い料理を作ってくれる?
見せて。
グリーン・ガーデン・オムレツはどう?
ブロッコリーとキャベツのみずみずしさと卵のクリーミーさがマッチした、おいしくて低カロリーな料理だ。
簡単なレシピをご紹介しましょう。
いいね!
すべての食材を認識し、実際のレシピを教えてくれた。
rabbit eyeは文書の作成も手伝ってくれる。
これは、私が仕事のアンケートのために作成した表です。
rabbit eyeについて言及した候補者と、私たちをどのように見つけたかについての質問とをマッチさせる追加の列を作成できますか?
もちろんです。
テーブルを見て、マッチするカラムを追加させてください。
テーブルを処理して、結果をメールで送りました。
では、メールを確認しましょう。
r1以降もrabbit OSとのやりとりは続けられる。
このメールに直接返信しよう。
質問にrabbitが含まれていて、LA在住の候補者にマッチする列をもう一つ追加できますか?
メールに返信したところ、私のメールを通してrabbitから修正版が届きました。
スマホではできない独自のルーティンやタスクがあるとします。
r1ならそれもできる。
私たちはティーチモードと呼ばれるものを試しています。
私が友達にスケートボードの乗り方を教えるのと同じように、r1にも乗り方を教えることができ、r1は私から学ぶことができる。
つまり、技術的なバックグラウンドに関係なく、どんなユーザーでもr1に新しいスキルを教えることができる。
ティーチモードに入り、新しいセッションを始める。
今日は、Discordを使ってプロンプトから私ジャーニーを使って子犬の画像を生成する方法を紹介しよう。
まず、サーバーのページに行き、自分のサーバーをクリックします。
これは一般的な画像生成なので、Midjourneyテキストチャンネルに行きます。
それから、プロンプトと一緒に画像コマンドを使う。
ここでは、大きな目をしたかわいい野犬の赤ちゃんのアニメーションを本物の8Kに載せている。
エンジンが画像を生成し始めるまで少し待ちましょう。
それが終わったら、画像をクリックしてリンクを取得しよう。
その後、ウサギにこのウサギの使い方を説明し、子犬だけでなく何でも生成できるように注釈を入れよう。
では、ウェブポータルに戻ってリクエストを送信しましょう。
ウェブポータルが処理を終えるまで数秒かかります。
とても簡単だ。
さて、トレーニングが終わったら、r1に戻ろう。
では、Midjourneyを使って、ピクセルアート風のウサギの絵を生成してみよう。
はい、ジェシー。
Midjourneyを使って、ピクセルアート風のウサギの絵を生成してあげよう。
画像を作成しますので少々お待ちください。
では、どうぞ。
Midjourneyのティーチモードで画像が生成されましたね。
見て、学んで、繰り返す。
それがティーチモードです。
とても簡単です。
今日のLAMのデモは以上だ。
日進月歩の私のr1は、いずれアプリベースの携帯電話では決して実現できないことを可能にしてくれるだろう。
現在のアプリベースの携帯電話について言えば、私たちがまず自問するのは、すでに1000台のiPhoneを持っているのに、なぜ新しいデバイスが必要なのかということだ。
私のiPhoneではまったくできないことだ。
私たちは、あなたの携帯電話を置き換えるためにrabbit r1を作っているのではありません。
単に世代の違うデバイスなのです。
アプリベースのシステムは15年以上前に導入され、新世代のネイティブAI搭載デバイスは始まったばかりです。
ここで簡単に振り返ってみよう。
r1は、自然言語による大規模なアクションモデルをホストする私たちのコンパニオンです。
何でも聞く、直接アクション、複雑なアクション、AIを強化したビデオ通話、メモ帳、rabbit eyeコンピュータービジョンによる翻訳、実験的なティーチモードなど、幅広いタスクに使うことができる。
ハードウェア面では、360度回転カメラ、グローバル4G LTE SIMカード、プッシュ・トゥ・トーク・ボタン、アナログ・スクロール・ホイールを搭載している。
最後にもうひとつ。
さて、価格を明らかにする前に、簡単な比較をしたい。
iPhone、アンドロイド携帯の最新バージョン。
iPhone、アンドロイド携帯の最新版。アプリベースのシステムを搭載したトップクラスの携帯電話で700ドルから1,000ドルといったところだ。
私は昨年、新しいiPhone 15 Pro Maxを購入したが、それは以前のものと同じ経験だ。
こちらはスマートではないスマートスピーカーだ。
大体200ドル前後で売られているが、どれも時代遅れだ。
そして最後に、大規模な言語モデルのみを搭載した新しいものをいくつか紹介しよう。
AI-Paintingは、ベースモデルで699ドルと月々のサブスクリプションを要求している。
Tabは600ドル、Metaリバンドメガネは300ドルだ。
覚えておいてほしいのは、これらは大規模な言語モデルのみを搭載したものだということだ。
私たちは、これらはまだ高すぎると考えています。
rabbit r1の価格は199ドル、サブスクリプションなし、隠れた手数料なしです。
r1は現在rabbit.comで注文でき、2024年の3月から4月にかけて出荷される予定です。
皆さんにr1を体験していただくのが待ち遠しいです。
ありがとうございました。
rabbit社はまた、コンピューター・アプリケーション上で人間の行動を学習させるという分野で、彼らが成し遂げたことを紹介するいくつかの研究を掲載した。
彼らは、コンピューター・アプリケーション上での人間の行動を推測してモデル化し、その行動を確実かつ迅速に実行できるシステムを開発し、様々なAIアシスタントやオペレーティング・システムへの導入に適していると主張している。
彼らのシステムはラージ・アクション・モデル(LAM)と呼ばれている。ラージ・アクション・モデル(LAM)は、人間の行動、特にコンピューター上の行動、ひいては物理的な世界での行動を通じて表現される人間の意図をよりよく理解することへの彼らのコミットメントを強調している。
彼らはニューロシンボリック・モデルと呼ばれるものについて話している。
彼らの重要な観察は、人間とコンピュータの相互作用に固有の構造は、自然言語や視覚とは異なるということである。
アプリケーションは、ラスタライズされた画像よりも構造化され、文章や段落よりも冗長でノイズの多い形式で表現される。
彼らがLAMに求める特性も、言語や視覚だけを理解する基礎モデルとは異なる。
彼らはインテリジェントなチャットボットに創造性を求めるかもしれないが、LAMがアプリケーション上で学習したアクションは、高度に規則的で、(オッカムの剃刀による)最小限のもので、安定していて、説明可能でなければならない。
言語モデルは、生のテキストでアプリケーションを理解するのに適していない。
Airbnb、Google Flights、Shazam、YouTube Musicで様々なタスクを完了するために必要な平均トークンを、現在トップクラスのLLMが示している。
彼らは、異なるスナップショットで一般的なウェブアプリケーションを生のHTMLで表現するのに必要なトークンを測定しています。
20万トークンのClaude、11万トークンのGPT-4、そして他の類似モデルのコンテキストウィンドウを比較しています。
おわかりのように、これらのコンテキストウィンドウの最大トークン制限は、これらのタスクのほとんどを完了するのに十分ではない。
長期的には、LAMは独自のスケーリング法則を示し、学習したアクションはあらゆる種類のアプリケーション(生成的なものでさえも)に一般化できると彼らは考えている。
時間の経過とともに、LAMは、操作に専門的なスキルを必要とする複数のアプリケーションにまたがる複雑な問題を解決するのにますます役立つようになる可能性がある。
彼らはまた、ウェブナビゲーションタスクにおけるLAMの競争力の初期兆候を示す結果も掲載している。
最近のウェブナビゲーション・アルゴリズムは、シミュレーション環境では人間レベルの性能を示しているが、実際のウェブサイトでは苦戦している。
Mind Web Benchmarkデータセットでテストしたところ、最も効果的な方法は70.8%の精度しか達成できなかった。彼らは、独自のベンチマークを使ったLAMの予備的評価を提供しており、89.6%、81.9%などの高い精度を示している。
この中では、大型ニューロシンボリックLAMが群を抜いて高い。
彼らは、さまざまな訓練方法でFlan、GPT-3.5、GPT-4と比較している。
フライトやホテルなどを確認しなければならないのに、なぜ見られないのかと疑問視する声もある。
別の書き込みでは次のように書かれていた: rabbitのキーノートは、実際にカメラに映し出されるものに関して、非常に多くのトリックを演じているようだった。
ルーは、rabbitに飛行機やホテルの予約を依頼するような大胆な依頼をし、実際にそれが完了したことを示すことなく、タスクの完了を宣言した。
もしあなたがr1を手に入れたければ、199ドルである。
しかし、これは予約注文なので、すぐに発送されるわけではない。
2024年の3月から4月にかけて、先行販売で購入したアメリカ国内の住所に発送を開始するようで、気が変わった場合は14日以内に注文をキャンセルすることができる。
しかし、ベンや他の人々がツイッターで述べているように、基調講演ですべてが示されたのか、それとも最も印象的な部分が強調されたのかはよくわからない。
数ヶ月後、つまり今から3〜4ヶ月後に最初の人々がr1を受け取り始めるまで、おそらくわからないだろう。
とにかく、あなたはどう思いますか?
本物だと思いますか?
そして、もし本物だとしたら、コンピューターや携帯電話で様々なタスクをこなすためにこのようなものを手に入れるだろうか?
どのような使用例があるのでしょうか?
私はこれが未来だと思う。
未来は、あなたの代わりにタスクを完了するAI搭載のオペレーティング・システムです。
ごく近い将来、私たちはタイピングやクリックをするのではなく、トップレベルの将軍のように、AIエージェントの部隊に命令するだけで、私たちの命令を実行するようになるのです。
これはその最初の現実的なバージョンになるのだろうか?
そうかもしれない。
あなたの意見をコメントで聞かせてください。
お待ちしています。