見出し画像

【rabbit r1:AI搭載の次世代スマートフォン】英語解説を日本語で読む【2024年1月10日|@TheAIGRID】

rabbit社は、自然言語を中心に操作する新しいAIエージェント、LAMを開発しました。この技術を用いて、直感的でシンプルな操作が可能な新型コンピュータとスマートフォン、r1を発表しました。r1は音声によるコントロール、タッチスクリーン、回転カメラなどを搭載し、従来の音声AIアシスタントよりも高速に応答します。R1は複数のアプリケーションと連携し、自動的に複合タスクを実行でき、リアルタイム翻訳、メモ作成、料理レシピ提案など多彩な機能を持ちます。また、r1はユーザーから新しいスキルを学ぶことが可能です。r1は2024年に発売予定で、価格は$199です。
公開日:2024年1月10日
※動画を再生してから読むのがオススメです。



There's a small previously unhyped company called rabbit.

あまり知られていない小さな会社、rabbitがあります。

It quietly created a Large Action Model, Lam, an AI agent capable of executing tasks on your behalf.

その会社は静かに、あなたの代わりにタスクを実行できるAIエージェントである大規模行動モデル、LAMを作りました。

The company just announced its r1 service, which is a reimagination of the computer and smartphone powered almost entirely by its Large Action Model.

その会社は最近、コンピュータとスマートフォンをほぼ完全にその大規模行動モデルによって再構想したr1サービスを発表しました。

You need to take a look at their keynote.

その基調講演を見る必要があります。

Hi, everyone!

皆さん、こんにちは!

My name is Jesse, and I'm the founder and CEO of rabbit.

私の名前はジェシーで、rabbitの創設者兼CEOです。

I'm so excited to be here today to present you two things we've been working on: a revolutionary new foundational model and a groundbreaking consumer mobile device powered by it.

今日ここにいられてとてもワクワクしています。私たちが取り組んできた2つのこと、革新的な新しい基本モデルとそれによって動く画期的な消費者向けモバイルデバイスを紹介します。

Our mission is to create the simplest computer, something so intuitive that you don't need to learn how to use it.

私たちの使命は、最もシンプルなコンピュータを作ることです。それは直感的で、使い方を学ぶ必要がないほどです。

The best way to achieve this is to break away from the app-based operating system currently used by smartphones.

これを達成する最良の方法は、スマートフォンが現在使用しているアプリベースのオペレーティングシステムから脱却することです。

Instead, we envision a natural language-centered approach.

代わりに、自然言語中心のアプローチを考えています。

The computer we're building, which we call a companion, should be able to talk, understand, and, more importantly, get things done for you.

私たちが構築しているコンピュータは、私たちがコンパニオンと呼ぶもので、話すこと、理解すること、そして何よりも、あなたのために物事を成し遂げることができるべきです。

The future of human-machine interfaces should be more intuitive.

人間と機械のインターフェイスの未来はもっと直感的であるべきです。

Now, before we get started, let's take a look at the existing mobile devices that we use daily.

さて、始める前に、私たちが毎日使っている既存のモバイルデバイスを見てみましょう。

The one device that's in your pocket, the smartphones like iPhone and Android phones.

あなたのポケットに入っている1つのデバイス、iPhoneやAndroidフォンのようなスマートフォンです。

These guys have been here for years, and we've grown tired of them.

これらは何年もここにあり、私たちはそれらに飽きてきました。

The problem with these devices, however, is not the hardware phone factor.

ただし、これらのデバイスの問題はハードウェアフォンの要因ではありません。

It's what's inside: the app-based operating system.

それは中にあるものです:アプリベースのオペレーティングシステム。

Want to get right to the office?

すぐにオフィスに行きたいですか?

There's an app for that.

それにはアプリがあります。

Want to buy groceries?

食料品を買いたいですか?

There's another app for that.

それにも別のアプリがあります。

Each time you want to do something, you fumble through multiple pages and folders to find the app you want to use.

何かをしたいたびに、使用したいアプリを見つけるために複数のページやフォルダをもたつきます。

And there are always endless buttons that you need to click, add to the cart, go to the next page, check the boxes, and jump back and forth, and so on.

そして、常にクリックする無数のボタンがあります。カートに追加し、次のページに進み、チェックボックスをチェックし、行ったり来たりし、などです。

The smartphone was supposed to be intuitive, but with hundreds of apps on your phone today that don't work together, it no longer is.

スマートフォンは直感的であるとされていましたが、今日あなたの携帯にある何百もの相互に作動しないアプリでは、それはもはやそうではありません。

If you look at the top-ranking apps on App Stores today, you'll find that most of them focus on entertainment.

今日のアプリストアでトップランキングのアプリを見ると、そのほとんどがエンターテイメントに焦点を当てていることがわかります。

Our smartphones have become the best device to kill time instead of saving it.

私たちのスマートフォンは、時間を節約する代わりに、時間を潰すための最高のデバイスになっています。

It's just harder for them to do things.

彼らにとって物事をするのは難しくなっています。

Many people before us have tried to build simpler and more intuitive computers with AI.

私たちの前には、AIを使ってもっとシンプルで直感的なコンピュータを作ろうとした多くの人々がいました。

A decade ago, companies like Apple, Microsoft, and Amazon made Siri, Cortana, and Alexa.

10年前、Apple、Microsoft、Amazonなどの企業がSiri、Cortana、Alexaを作りました。

With these smart speakers, they either don't know what you're talking about or fail to accomplish the tasks we ask for.

これらのスマートスピーカーでは、あなたが何について話しているのかわからなかったり、私たちが頼んだタスクを達成できなかったりします。

Recent achievements in large language models, however, have made it much easier for machines to understand you.

しかし、最近の大規模言語モデルの成果により、機械があなたを理解することがずっと簡単になりました。

The popularity of chatbots over the past years has shown that the natural language-based experience is the way forward.

過去数年間にチャットボットの人気が示しているように、自然言語ベースの経験が前進する道です。

However, where these assistants struggle is still getting things done.

ただし、これらのアシスタントがまだ苦戦しているのは、物事を実行することです。

For example, if you go to the chatbot and use your Expedia plug-in to book a ticket, it can suggest options but ultimately cannot assist you in completing the booking process from start to finish.

例えば、チャットボットを使ってExpediaのプラグインでチケットを予約しようとすると、オプションを提案できますが、最終的には予約プロセス全体を最初から最後までサポートすることはできません。

Things like chatbots are extremely good at understanding your intentions but could be better at triggering actions.

チャットボットのようなものはあなたの意図を理解するのは非常に得意ですが、行動を引き起こすことに関してはもっと改善できます。

Another hot topic is the field of research around what they call agents.

もう1つの注目されている話題は、彼らが「エージェント」と呼ぶものをめぐる研究の分野です。

It has caught the eye of many open-source projects and productivity software companies.

これは多くのオープンソースプロジェクトや生産性ソフトウェア会社の注目を集めています。

What remains to be solved is for these agents to perform tasks end-to-end accurately and speedily.

解決すべきことは、これらのエージェントがタスクを正確かつ迅速にエンドツーエンドで実行することです。

The problem is forcing a model to perform a task it is not designed for, whether for a language model to reason about a web page using super prompts or screenshots.

問題は、モデルにそれが設計されていないタスクを強制することです。言語モデルにウェブページについてスーパープロンプトやスクリーンショットを使って推論させるなどです。

We have yet to produce an agent as good as users simply clicking the buttons.

ユーザーが単にボタンをクリックするのと同じくらい良いエージェントをまだ生み出していません。

To fulfill our vision of a delightful, intuitive companion, we must go beyond a piece of complex software.

魅力的で直感的なコンパニオンという私たちのビジョンを実現するためには、複雑なソフトウェア以上のものが必要です。

We want it to be in the hands of everyone.

私たちはそれを皆の手に渡したいと思っています。

So we first set out to fundamentally understand how computer apps are structured and, more importantly, how humans interact with them.

そこで、まず私たちはコンピュータアプリがどのように構造化されているか、そしてもっと重要なことに、人間がそれらとどのようにやり取りするかを根本的に理解することから始めました。

We wanted to find a way for our AI to trigger actions on behalf of users across all environments.

私たちは、AIがユーザーに代わってあらゆる環境で行動を引き起こす方法を見つけたいと思っています。

We want it to be universal, not just a Chrome plug-in or a limited set of apps, but everything: iOS, Android, and desktop.

私たちはそれをユニバーサルにしたいと考えています。Chromeのプラグインや限定されたアプリのセットだけでなく、iOS、Android、デスクトップなどすべてに対応します。

These applications share something in common: the interface.

これらのアプリケーションには共通点があります:インターフェイスです。

They all have a user interface.

それらはすべてユーザーインターフェイスを持っています。

So, at a philosophical level, if we can make an AI trigger actions on any kind of interface, just like a human would, we will solve the problem.

したがって、哲学的なレベルで、私たちが人間のように任意の種類のインターフェイスで行動を引き起こすAIを作ることができれば、問題を解決します。

This insight led us to create the Large Action Model, or Lam, as we call it.

この洞察により、私たちは大規模行動モデル、または私たちが呼ぶようにLAMを作りました。

It is a new foundational model that understands and executes human intentions on computers.

これは、コンピュータ上で人間の意図を理解し実行する新しい基本モデルです。

Driven by our research in neurosymbolic systems, with a Large Action Model, we fundamentally find a solution to the challenges that apps, APIs, or agents face.

ニューロシンボリックシステムにおける私たちの研究によって駆動され、大規模行動モデルによって、アプリ、API、またはエージェントが直面する課題に対する根本的な解決策を見つけます。

We solve it with interfaces.

私たちはインターフェイスを使ってそれを解決します。

LAM can learn any interfaces from any software, regardless of which platform they're running on.

LAMは、どのプラットフォームで実行されているかに関係なく、あらゆるソフトウェアのインターフェイスを学ぶことができます。

In short, the large language model understands what you say, but the Large Action Model gets things done.

簡単に言えば、大規模言語モデルはあなたが言っていることを理解しますが、大規模行動モデルは物事を成し遂げます。

We use LAM to bring AI from words to action.

私たちはLAMを使用してAIを言葉から行動へと導きます。

Finally, we can build a computer that, in addition to understanding what you're trying to say, can actually help you do things on your behalf.

ついに、あなたが言おうとしていることを理解するだけでなく、あなたに代わって物事を実際に助けることができるコンピュータを構築できます。

We pack the Large Action Model into an advanced Rapid OS operating system.

私たちは大規模行動モデルを高度なRapid OSオペレーティングシステムに組み込みました。

It is built for real-time interactions between you and the rabbit, powered by Lam.

これは、LAMによって駆動されるあなたとrabbitの間のリアルタイムのやり取りのために設計されています。

The Large Action Model's concept and test results are so powerful that we decided to make a one-of-a-kind mobile device: introducing r1, your pocket companion.

大規模行動モデルのコンセプトとテスト結果は非常に強力であるため、私たちは独特のモバイルデバイスを作ることに決めました:r1、あなたのポケットコンパニオンの紹介です。

It's the rabbit r1, designed in collaboration with Teenage Engineering.

それはTeenage Engineeringとのコラボレーションによって設計されたrabbit r1です。

The r1 is a fully standalone device, primarily driven by natural language.

r1は完全に独立したデバイスで、主に自然言語によって駆動します。

The accumulation of countless hours of work from our research, design, and software teams.

私たちの研究、デザイン、ソフトウェアチームによる数え切れないほどの作業の積み重ねです。

It is simple to use.

使い方は簡単です。

r1 is equipped with everything you need to interact with it and perceive your surroundings.

r1には、あなたがr1と対話し、周囲を認識するために必要なものがすべて装備されています。

It comes with a touchscreen, a push-to-talk button, an analog scroll wheel, a microphone and speakers, and a computer vision-enabled 360-degree rotational camera we call the rabbit Eye.

タッチスクリーン、プッシュ・トゥ・トーク・ボタン、アナログ・スクロール・ホイール、マイクとスピーカー、そしてrabbit・アイと呼ぶコンピューター・ビジョン対応の360度回転カメラが搭載されている。

It is Bluetooth and Wi-Fi capable, and it has the same color slots that support the global 4G LTE network.

ブルートゥースとWi-Fiに対応し、グローバルな4G LTEネットワークに対応するカラースロットも備えている。

And now, let's see how it works.

では、その機能を見てみよう。

I can ask rabbit for anything, just like if I'm using a chatbot.

まるでチャットボットを使っているように、rabbitに何でも尋ねることができる。

The difference, though, is the speed.

しかし、違いはスピードだ。

With rabbit OS, I get a response 10 times faster than most of the voice AI projects.

rabbit OSを使うと、ほとんどの音声AIプロジェクトよりも10倍速く返事が返ってくる。

rabbit answers my questions within 500 milliseconds.

rabbitは500ミリ秒以内に私の質問に答えてくれる。

With the push-to-talk button, you don't need to say anything to wake it up.

プッシュ・トゥ・トーク・ボタンを使えば、話しかける必要はない。

Just press and hold the button and talk like a walkie-talkie.

ボタンを長押しするだけで、トランシーバーのように話すことができる。

Now, let's give it a shot.

さあ、試してみよう。

What's the nature of reality?

現実の本質とは?

The nature of reality is a topic that has captivated the minds of philosophers and thinkers throughout history.

現実の本質とは、歴史を通じて哲学者や思想家の心を魅了してきたテーマである。

According to Bertrand Russell, reality is composed of hard data derived from sensory experiences and logical analysis.

バートランド・ラッセルによれば、現実は感覚的な経験と論理的な分析から得られたハードデータから構成されている。

It is the amalgamation of our perceptions, thoughts, and the external world.

それは私たちの知覚、思考、そして外界の融合である。

I can speak or type with r1.

私はr1で話すこともタイプすることもできる。

If you shake r1, a keyboard will pop up.

r1を振るとキーボードがポップアップする。

You will also notice that the response speed is much faster than using some of the LLM assistant apps with web browsing, such as chatbot.

また、チャットボットのようなウェブブラウジングでLLMアシスタントアプリのいくつかを使用するよりも、反応速度がはるかに速いことに気づくでしょう。

What's the stock price of Coca-Cola?

コカ・コーラの株価は?

Searching for the stock price of Coca-Cola.

コカ・コーラの株価を検索。

The stock price of Coca-Cola (KO) is $59.76.

Coca-Cola (KO)の株価は$59.76です。

Who played the role of Oppenheimer in Christopher Nolan's latest movies?

クリストファー・ノーラン監督の最新作でオッペンハイマー役を演じたのは?

In Christopher Nolan's most recent film, Oppenheimer, the role of J. Robert Oppenheimer is played by Killian Murphy.

クリストファー・ノーラン監督の最新作『オッペンハイマー』では、J・ロバート・オッペンハイマー役をキリアン・マーフィーが演じている。

The film is a biographical thriller that explores the story of American scientist J. Robert Oppenheimer and his involvement in the development of the atomic bomb.

この映画は、アメリカの科学者J・ロバート・オッペンハイマーと原爆開発への彼の関わりを描いた伝記スリラーである。

Now, let's see how the Large Action Model works with Lam.

では、大型アクションモデルとLAMの動きを見てみよう。

rabbit r1 can interact with all kinds of applications.

rabbit r1は、あらゆる種類のアプリケーションと相互作用することができます。

Introducing the rabbit Hole web portal.

rabbitホールのウェブポータルを紹介しよう。

I can log into different services and unlock functionalities for r1.

さまざまなサービスにログインして、r1の機能性をアンロックできるんだ。

It's just like iCloud.

まるでiCloudのようだ。

Let's say I want to listen to some music.

例えば音楽を聴きたいとしよう。

With the rabbit Hole web portal, I have complete control over which services I want to activate on my r1 and which provider I prefer for music.

rabbit Holeウェブポータルを使えば、r1でどのサービスを有効にするか、どのプロバイダーで音楽を聴くかを完全にコントロールできる。

I use Spotify, so let's go ahead and connect my Spotify to the rabbit Hole.

私はSpotifyを使っているので、Spotifyをrabbitホールに接続してみよう。

Now, that's the Spotify login page.

これがSpotifyのログインページだ。

Before I start the login process, I want to emphasize our commitment to privacy.

ログイン・プロセスを始める前に、プライバシーに対する我々のコミットメントを強調しておきたい。

The way we design the infrastructure for apps that we interact with, we don't create fake users or spam users.

我々のアプリのインフラ設計では、偽ユーザーやスパムユーザーを作らない。

We don't hack their infrastructures, and of course, we do not store any of your third-party credentials.

もちろん、サードパーティの認証情報を保存することもありません。

Instead, we redirect you to their login page.

その代わり、サードパーティのログインページにリダイレクトします。

We never save your username and password, and we don't track your data.

ユーザー名とパスワードを保存することはありませんし、データを追跡することもありません。

The authentication happens on their respective apps.

認証はそれぞれのアプリ上で行われる。

Now, I'm logging in with Spotify.

今、私はSpotifyでログインしています。

rabbit OS recognizes that Spotify has been authenticated on my device.

rabbitOSは、Spotifyが私のデバイスで認証されたことを認識する。

Before this presentation, I pre-authenticated some other apps like Uber and DoorDash.

このプレゼンテーションの前に、UberやDoorDashなど他のアプリも事前に認証しておいた。

Just choose your preferred services and log in through them to get authenticated on your device.

好きなサービスを選んで、そこからログインするだけで、あなたのデバイスで認証される。

It's that easy.

とても簡単だ。

Now, let's play some music.

では、音楽をかけよう。

Play Kraftwerk'sPocket Calculator.

KraftwerkのPocket Calculatorを再生しよう。

Playing Pocket Calculator by Kraftwerk for you.

KraftwerkのPocket Calculatorを再生します。

Play another song from the album.

アルバムから別の曲を再生。

Sure, playing Computer Love for you.

Computer Loveを再生します。

Now, all the tracks from the same album.

では、同じアルバムから全曲。

Who wrote the lyrics for this song?

この曲は誰が作詞作曲したのですか?

Ralph Hütter and Emil Schult wrote the lyrics for the song Computer Love by Kraftwerk.

クラフトワークのComputer Loveは、ラルフ・ヒュッターとエミール・シュルトが作詞しました。

Which band sampled this song?

この曲をサンプリングしたバンドは?

It seems that Coldplay's Talk is the only known example of a song that sampled Computer Love.

Computer Loveをサンプリングした曲としては、コールドプレイの『Talk』しか知られていないようだ。

What do you think about this song?

この曲についてどう思いますか?

Computer Love by Kraftwerk is widely regarded as a groundbreaking and influential song in the realm of electronic music.

クラフトワークの『Computer Love』は、エレクトロニック・ミュージックの領域において画期的で影響力のある曲として広く知られている。

Its fusion of catchy melodies, robotic vocals, and innovative use of synthesizers has left a lasting impact on the genre.

キャッチーなメロディー、ロボットのようなボーカル、シンセサイザーの革新的な使い方の融合は、このジャンルに永続的な影響を残した。

I can also use r1 to call a ride.

r1で車を呼ぶこともできる。

Get me a ride from my office to home.

オフィスから家まで送ってもらう。

Now, of course, I will book an Uber ride for you from your office to your home.

ではもちろん、あなたのオフィスから自宅までUberで予約しておきます。

Please confirm the ride.

乗車確認をお願いします。

I have six people with three luggages.

6人で荷物が3つあります。

Find me an Uber that can fit all of us.

全員乗れるUberを探してください。

For six people and three pieces of luggage, I recommend booking an Uber XL, as it provides ample space for all passengers and luggage.

6人と荷物3個の場合、Uber XLを予約することをお勧めします。

Please confirm the ride.

乗車確認をお願いします。

The ride shows up.

乗り物が現れた。

I just hit confirm.

確認を押したところ。

Uber's on my way.

Uberが来る。

I can also use r1 to order food.

r1を使って食べ物を注文することもできる。

Get me a 12-inch pizza from Pizza Hut, delivered here.

ピザハットの12インチピザをここに届けてくれ。

The most ordered option on the app is fine.

アプリの一番注文の多いオプションでいい。

Ordering a 12-inch pizza from Pizza Hut.

ピザハットの12インチピザを注文。

Since you mentioned that the most ordered option is fine, I will select that for you.

最も多く注文されたオプションでいいとおっしゃったので、それを選びます。

I just created an order for a 12-inch pizza.

12インチのピザを注文しました。

It's going to be hand-tossed with a classic marinara sauce and topped with regular cheese.

クラシックマリナーラソースとレギュラーチーズをトッピングします。

Please confirm your order.

ご注文を確定してください。

That sounds really good.

とても美味しそうですね。

I just confirmed the order.

注文を確認しました。

Now I'm waiting for my pizza.

あとはピザを待つだけだ。

I can also make r1 do a set of more complex actions that may take multiple apps to finish on a smartphone.

スマートフォンでは複数のアプリで完結するような、より複雑な一連の動作をr1にさせることもできる。

For example, if I want to plan a trip to London, I can just describe what I wish in full to r1.

例えば、私がロンドンへの旅行を計画したい場合、r1に私が望んでいることをすべて説明すればいい。

I want to take my family to London.

家族をロンドンに連れて行きたい。

It's going to be two of us and a child of age 12.

私たち2人と12歳の子供1人です。

We're thinking of January 30th to February 5th.

1月30日から2月5日を考えています。

Can you plan the entire trip for me?

旅行全体のプランニングをお願いできますか?

We like cheap non-stop flights, grouped seats, a cool SUV, and a nice hotel that has Wi-Fi.

安い直行便、グループ分けされた座席、かっこいいSUV、Wi-Fiのある素敵なホテルがいいです。

Exploring ticketing options to make your trip a reality.

あなたの旅行を実現するために航空券のオプションを探る。

For your trip, I found various flight options, a range of hotels to choose from, and car rentals available.

あなたの旅行のために、様々なフライトオプション、選択可能なホテルの範囲、利用可能なレンタカーを見つけました。

Please confirm each option individually for further details and booking.

詳細と予約については、各オプションを個別に確認してください。

So it's all been planned out.

というわけで、すべて計画済み。

I just confirmed, confirmed, confirmed, and that's it.

確認、確認、確認で終わりです。

Could you come up with a schedule for fun things to do while I'm over there?

向こうにいる間の楽しいことのスケジュールを考えてくれる?

On it.

その通り。

I have prepared a detailed travel plan for your trip.

詳細な旅行プランを用意しました。

In summary, you will be exploring London's iconic landmarks, visiting museums, enjoying delicious meals at local restaurants, and experiencing the vibrant atmosphere of different neighborhoods.

要約すると、ロンドンの象徴的なランドマークを探索し、美術館を訪れ、地元のレストランでおいしい食事を楽しみ、さまざまな地域の活気ある雰囲気を体験するというものです。

Navigation details are also prepared, and I can help you book tickets for any events you'd like to attend.

ナビゲーションの詳細も準備していますし、参加したいイベントのチケット予約もお手伝いします。

r1 just planned the entire trip for me.

r1が旅行のすべてを計画してくれたんだ。

That's awesome.

それはすごい。

But it seems like this is a little bit too intense.

でも、ちょっとハードすぎるような気がします。

Can you plan an easy schedule for us?

簡単なスケジュールを組んでくれる?

Sure.

もちろん。

I'm working on it.

今作っているところだ。

Please take a look at it and let me know what you think.

ぜひ見て、感想を聞かせてください。

It gave me a more relaxed schedule every day with all the details.

毎日、細かいところまでゆったりとしたスケジュールが組めるようになりました。

Sounds really good, and I just confirmed that.

本当に良さそうだ。

I can foresee a wonderful trip.

素晴らしい旅が予感できる。

Isn't that cool, huh?

クールだろ?

r1 can help me reach others, just like a phone but smarter.

r1は、電話のように、よりスマートに、他の人と連絡を取る手助けをしてくれる。

It comes with a built-in real-time translator and a notetaker, removing the final barriers to communication.

r1にはリアルタイム翻訳機とメモ機能が内蔵されており、コミュニケーションの最後の障壁を取り除くことができる。

r1 automatically detects the language spoken in the environment and provides bidirectional translation.

r1は周囲で話されている言語を自動的に検出し、双方向の翻訳を提供する。

r1 has an onboard camera designed for advanced computer vision.

r1には、高度なコンピューター・ビジョン用に設計されたオンボード・カメラが搭載されている。

It can analyze surroundings and take actions in real-time.

周囲の状況を分析し、リアルタイムでアクションを起こすことができる。

To activate the eye, just double-tap the button.

眼球を作動させるには、ボタンをダブルタップするだけだ。

Oh, funny seeing you here, Rick.

ここで会うとはね、リック。

Let me take a look.

見せてくれ。

This is what I got in the fridge.

これが冷蔵庫にあるんだ。

Can you make me a nice dish that's low in calories?

カロリーの低い料理を作ってくれる?

Let me see.

見せて。

How about a green garden omelette?

グリーン・ガーデン・オムレツはどう?

It's a delicious and low-calorie dish that combines the freshness of broccoli and cabbage with the creaminess of eggs.

ブロッコリーとキャベツのみずみずしさと卵のクリーミーさがマッチした、おいしくて低カロリーな料理だ。

Here's a simple recipe for you.

簡単なレシピをご紹介しましょう。

Nice!

いいね!

It recognized all the stuff and gave me the actual recipes.

すべての食材を認識し、実際のレシピを教えてくれた。

rabbit eye can also help you with your documents.

rabbit eyeは文書の作成も手伝ってくれる。

Here's the table I've been working on for a job questionnaire.

これは、私が仕事のアンケートのために作成した表です。

Can you create an additional column that matches candidates who mentioned rabbit, then their questions about how they found us?

rabbit eyeについて言及した候補者と、私たちをどのように見つけたかについての質問とをマッチさせる追加の列を作成できますか?

Sure.

もちろんです。

Let me take a look at the table and add the matching column for you.

テーブルを見て、マッチするカラムを追加させてください。

I've processed the table and sent you an email with the results.

テーブルを処理して、結果をメールで送りました。

Okay, now let's check our email.

では、メールを確認しましょう。

I can continue to interact with rabbit OS even beyond r1.

r1以降もrabbit OSとのやりとりは続けられる。

Let's reply to this email directly.

このメールに直接返信しよう。

Can you add another column that matches candidates who have included rabbit in their question and are LA-based?

質問にrabbitが含まれていて、LA在住の候補者にマッチする列をもう一つ追加できますか?

I just replied to the email, and I got a revised version from rabbit through my email.

メールに返信したところ、私のメールを通してrabbitから修正版が届きました。

Let's say I have a unique routine or task I cannot do on my phone.

スマホではできない独自のルーティンやタスクがあるとします。

r1 can do that too.

r1ならそれもできる。

We are experimenting with what we call the teach mode.

私たちはティーチモードと呼ばれるものを試しています。

Just like how I can teach my friend how to skateboard, I can show r1 how to do it, and it will learn from me.

私が友達にスケートボードの乗り方を教えるのと同じように、r1にも乗り方を教えることができ、r1は私から学ぶことができる。

This means that any user, regardless of technical background, can teach r1 to learn new skills.

つまり、技術的なバックグラウンドに関係なく、どんなユーザーでもr1に新しいスキルを教えることができる。

So, you go to teach mode, start a new session.

ティーチモードに入り、新しいセッションを始める。

Today, I will show you how to generate an image of a puppy using me Journey from prompt using Discord.

今日は、Discordを使ってプロンプトから私ジャーニーを使って子犬の画像を生成する方法を紹介しよう。

First, I will go to the servers page and click on my own server.

まず、サーバーのページに行き、自分のサーバーをクリックします。

Since this is only a general image generation, I'll go to the Midjourney text channel.

これは一般的な画像生成なので、Midjourneyテキストチャンネルに行きます。

Then, I will use the image command along with the prompt.

それから、プロンプトと一緒に画像コマンドを使う。

Here, I'm putting a cute baby wild dog with big eyes, animated cartoon on a real 8K.

ここでは、大きな目をしたかわいい野犬の赤ちゃんのアニメーションを本物の8Kに載せている。

Let's wait for a minute for the engine to start generating the images.

エンジンが画像を生成し始めるまで少し待ちましょう。

Once it's done, let's click on the image to get a link.

それが終わったら、画像をクリックしてリンクを取得しよう。

I will then explain to rabbit how to use this rabbit and annotate it so that I can generate anything, not just puppies.

その後、ウサギにこのウサギの使い方を説明し、子犬だけでなく何でも生成できるように注釈を入れよう。

So, let's go back to our web portal, submit the request.

では、ウェブポータルに戻ってリクエストを送信しましょう。

It takes seconds for the web portal to finish processing, and that's it.

ウェブポータルが処理を終えるまで数秒かかります。

It's that simple.

とても簡単だ。

Now, once we finish the training, I can go back to my r1.

さて、トレーニングが終わったら、r1に戻ろう。

Now, let's use Midjourney, as I told you, to generate a picture of a bunny in pixel art style.

では、Midjourneyを使って、ピクセルアート風のウサギの絵を生成してみよう。

Certainly, Jesse.

はい、ジェシー。

I will use Midjourney to generate a picture of a bunny in pixel art style for you.

Midjourneyを使って、ピクセルアート風のウサギの絵を生成してあげよう。

Please give me a moment to create the image.

画像を作成しますので少々お待ちください。

Now, here you go.

では、どうぞ。

You got an image generated on Midjourney through teach mode.

Midjourneyのティーチモードで画像が生成されましたね。

Watch, learn, and repeat.

見て、学んで、繰り返す。

That's teach mode.

それがティーチモードです。

It's that simple.

とても簡単です。

That's all the demos for today with Lam.

今日のLAMのデモは以上だ。

Fast-evolving, my r1 will eventually help me to do things that can never be achieved on an app-based phone.

日進月歩の私のr1は、いずれアプリベースの携帯電話では決して実現できないことを可能にしてくれるだろう。

Speaking of the current app-based phones, the first question we ask ourselves is, Why would I need a new device if I already have a thousand iPhones?

現在のアプリベースの携帯電話について言えば、私たちがまず自問するのは、すでに1000台のiPhoneを持っているのに、なぜ新しいデバイスが必要なのかということだ。

My iPhone can't do any of this at all.

私のiPhoneではまったくできないことだ。

We do not build rabbit r1 to replace your phone.

私たちは、あなたの携帯電話を置き換えるためにrabbit r1を作っているのではありません。

It's just a different generation of devices.

単に世代の違うデバイスなのです。

The app-based system was introduced more than 15 years ago, and the new generation of native AI-powered devices is just getting started.

アプリベースのシステムは15年以上前に導入され、新世代のネイティブAI搭載デバイスは始まったばかりです。

Here's a quick recap.

ここで簡単に振り返ってみよう。

r1 is our companion that hosts the Large Action Model with natural language.

r1は、自然言語による大規模なアクションモデルをホストする私たちのコンパニオンです。

I can use it for a wide range of tasks: ask anything, direct actions, complex actions, AI-enhanced video calls, notetaker, translator with the rabbit eye computer vision, and experimental teach mode.

何でも聞く、直接アクション、複雑なアクション、AIを強化したビデオ通話、メモ帳、rabbit eyeコンピュータービジョンによる翻訳、実験的なティーチモードなど、幅広いタスクに使うことができる。

On the hardware perspective, we've got a 360-degree rotational camera, a global 4G LTE SIM card, a push-to-talk button, and an analog scroll wheel.

ハードウェア面では、360度回転カメラ、グローバル4G LTE SIMカード、プッシュ・トゥ・トーク・ボタン、アナログ・スクロール・ホイールを搭載している。

One last thing: what about the price?

最後にもうひとつ。

Now, before we reveal our price, I want to do a quick comparison.

さて、価格を明らかにする前に、簡単な比較をしたい。

Here are some of the best phones on the market right now: iPhone, the latest version of Android phones.

iPhone、アンドロイド携帯の最新バージョン。

We're looking at somewhere around $700 to $1,000 for a top phone with an app-based system.

iPhone、アンドロイド携帯の最新版。アプリベースのシステムを搭載したトップクラスの携帯電話で700ドルから1,000ドルといったところだ。

I bought my new iPhone 15 Pro Max last year, and it's the same experience as my previous ones.

私は昨年、新しいiPhone 15 Pro Maxを購入したが、それは以前のものと同じ経験だ。

Here are not-so-smart smart speakers.

こちらはスマートではないスマートスピーカーだ。

They're asking roughly around $200, but they're all outdated.

大体200ドル前後で売られているが、どれも時代遅れだ。

And finally, here are a couple of the new things with only large language models.

そして最後に、大規模な言語モデルのみを搭載した新しいものをいくつか紹介しよう。

You've got AI-Painting asking for $699 plus monthly subscriptions for their base models.

AI-Paintingは、ベースモデルで699ドルと月々のサブスクリプションを要求している。

You've got Tab asking for $600, and you've got Meta reband glasses asking for roughly $300.

Tabは600ドル、Metaリバンドメガネは300ドルだ。

Remember, these are the things with only large language models.

覚えておいてほしいのは、これらは大規模な言語モデルのみを搭載したものだということだ。

We still think these are too expensive.

私たちは、これらはまだ高すぎると考えています。

We priced the rabbit r1 at $199, no subscription, no hidden fees.

rabbit r1の価格は199ドル、サブスクリプションなし、隠れた手数料なしです。

You can order the r1 now at rabbit.com, and we are shipping starting in March to April of 2024.

r1は現在rabbit.comで注文でき、2024年の3月から4月にかけて出荷される予定です。

I can't wait for you to experience the r1 for yourself.

皆さんにr1を体験していただくのが待ち遠しいです。

Thank you.

ありがとうございました。

rabbit also posted some research showcasing what they managed to achieve in the field of learning human actions on computer applications.

rabbit社はまた、コンピューター・アプリケーション上で人間の行動を学習させるという分野で、彼らが成し遂げたことを紹介するいくつかの研究を掲載した。

They claim to have developed a system that can infer and model human actions on computer applications, perform the actions reliably and quickly, and is well-suited for deployment in various AI assistants and operating systems.

彼らは、コンピューター・アプリケーション上での人間の行動を推測してモデル化し、その行動を確実かつ迅速に実行できるシステムを開発し、様々なAIアシスタントやオペレーティング・システムへの導入に適していると主張している。

Their system is called the Large Action Model (LAM). The Large Action Model or LAM emphasizes their commitment to better understanding human actions, specifically human intentions expressed through actions on computers and, by extension, in the physical world.

彼らのシステムはラージ・アクション・モデル(LAM)と呼ばれている。ラージ・アクション・モデル(LAM)は、人間の行動、特にコンピューター上の行動、ひいては物理的な世界での行動を通じて表現される人間の意図をよりよく理解することへの彼らのコミットメントを強調している。

They talk about something called the neurosymbolic model.

彼らはニューロシンボリック・モデルと呼ばれるものについて話している。

Their key observation is that the inherent structures of human-computer interactions differ from natural language or vision.

彼らの重要な観察は、人間とコンピュータの相互作用に固有の構造は、自然言語や視覚とは異なるということである。

The applications are expressed in a form that is more structured than a rasterized image and more verbose and noisy than a sentence or a paragraph.

アプリケーションは、ラスタライズされた画像よりも構造化され、文章や段落よりも冗長でノイズの多い形式で表現される。

The characteristics they desire from a LAM are also different from a foundational model that understands language or vision alone.

彼らがLAMに求める特性も、言語や視覚だけを理解する基礎モデルとは異なる。

While they may want an intelligent chatbot to be creative, LAM-learned actions on applications should be highly regular, minimalistic (per Occam's razor), stable, and explainable.

彼らはインテリジェントなチャットボットに創造性を求めるかもしれないが、LAMがアプリケーション上で学習したアクションは、高度に規則的で、(オッカムの剃刀による)最小限のもので、安定していて、説明可能でなければならない。

Language models are ill-equipped to comprehend applications with raw text.

言語モデルは、生のテキストでアプリケーションを理解するのに適していない。

They show the average tokens required to complete various tasks on Airbnb, Google Flights, Shazam, and YouTube Music by the top-leading LLMs right now.

Airbnb、Google Flights、Shazam、YouTube Musicで様々なタスクを完了するために必要な平均トークンを、現在トップクラスのLLMが示している。

They measure the tokens required to represent common web applications across different snapshots in raw HTML state-of-the-art large language models with their existing tokenizers have trouble fitting the raw text application representation within their context window.

彼らは、異なるスナップショットで一般的なウェブアプリケーションを生のHTMLで表現するのに必要なトークンを測定しています。

They compare the context window of Claude at 200,000 tokens, GPT-4 at 110,000 tokens, and other similar models.

20万トークンのClaude、11万トークンのGPT-4、そして他の類似モデルのコンテキストウィンドウを比較しています。

As you can see, these maximum token limits of the context window are not enough to complete most of these tasks.

おわかりのように、これらのコンテキストウィンドウの最大トークン制限は、これらのタスクのほとんどを完了するのに十分ではない。

They believe that, in the long run, LAM exhibits its own version of scaling laws where the actions it learns can generalize to applications of all kinds, even generative ones.

長期的には、LAMは独自のスケーリング法則を示し、学習したアクションはあらゆる種類のアプリケーション(生成的なものでさえも)に一般化できると彼らは考えている。

Over time, LAM could become increasingly helpful in solving complex problems spanning multiple apps that require professional skills to operate.

時間の経過とともに、LAMは、操作に専門的なスキルを必要とする複数のアプリケーションにまたがる複雑な問題を解決するのにますます役立つようになる可能性がある。

They also post some results showing early signs of LAM competitiveness in web navigation tasks.

彼らはまた、ウェブナビゲーションタスクにおけるLAMの競争力の初期兆候を示す結果も掲載している。

Although recent web navigation algorithms have shown human-level performance in simulated environments, they struggle on real websites.

最近のウェブナビゲーション・アルゴリズムは、シミュレーション環境では人間レベルの性能を示しているが、実際のウェブサイトでは苦戦している。

When tested on the Mind Web Benchmark dataset, the most effective method only achieves an accuracy of 70.8%. They provide a preliminary evaluation of LAMs using their own benchmark, showing accuracy rates as high as 89.6%, 81.9%, etc.

Mind Web Benchmarkデータセットでテストしたところ、最も効果的な方法は70.8%の精度しか達成できなかった。彼らは、独自のベンチマークを使ったLAMの予備的評価を提供しており、89.6%、81.9%などの高い精度を示している。

The large neurosymbolic LAM is the highest by far out of all these.

この中では、大型ニューロシンボリックLAMが群を抜いて高い。

They compare it to Flan, GPT-3.5, GPT-4 with various training methods.

彼らは、さまざまな訓練方法でFlan、GPT-3.5、GPT-4と比較している。

Some people have questioned why we don't get to see when he has to confirm flights, hotels, etc.

フライトやホテルなどを確認しなければならないのに、なぜ見られないのかと疑問視する声もある。

Another write-up on the subject said the following: It seemed that the keynote, the rabbit keynote, was playing an awful lot of tricks in terms of what it actually showed on camera.

別の書き込みでは次のように書かれていた: rabbitのキーノートは、実際にカメラに映し出されるものに関して、非常に多くのトリックを演じているようだった。

Lou would make audacious requests like asking rabbit to book flights and hotels and pronounce the task completed without actually showing that it was completed.

ルーは、rabbitに飛行機やホテルの予約を依頼するような大胆な依頼をし、実際にそれが完了したことを示すことなく、タスクの完了を宣言した。

If you wanted to get the r1 for yourself, it's going to cost $199.

もしあなたがr1を手に入れたければ、199ドルである。

However, this is a pre-order, so it's not going to ship immediately.

しかし、これは予約注文なので、すぐに発送されるわけではない。

It looks like they begin shipping to US addresses for pre-sale purchases in March to April of 2024, and you have 14 days to cancel the order if you change your mind.

2024年の3月から4月にかけて、先行販売で購入したアメリカ国内の住所に発送を開始するようで、気が変わった場合は14日以内に注文をキャンセルすることができる。

However, like Ben and others have mentioned on Twitter, we're not quite sure if the keynote showed everything or perhaps highlighted the most impressive parts.

しかし、ベンや他の人々がツイッターで述べているように、基調講演ですべてが示されたのか、それとも最も印象的な部分が強調されたのかはよくわからない。

We likely won't know until the first people start receiving their r1s in a few months from now, about 3 to 4 months from now.

数ヶ月後、つまり今から3〜4ヶ月後に最初の人々がr1を受け取り始めるまで、おそらくわからないだろう。

Anyways, what do you think?

とにかく、あなたはどう思いますか?

Do you think it's real?

本物だと思いますか?

And assuming it is real, would you get something like this to help you complete various tasks on your computer and phone?

そして、もし本物だとしたら、コンピューターや携帯電話で様々なタスクをこなすためにこのようなものを手に入れるだろうか?

What are the use cases?

どのような使用例があるのでしょうか?

I think this is the future.

私はこれが未来だと思う。

The future is AI-powered operating systems that complete tasks on your behalf.

未来は、あなたの代わりにタスクを完了するAI搭載のオペレーティング・システムです。

Very soon, we won't be typing and clicking, but rather, like a top-level general, simply commanding our troops of AI agents to go forth and do our bidding.

ごく近い将来、私たちはタイピングやクリックをするのではなく、トップレベルの将軍のように、AIエージェントの部隊に命令するだけで、私たちの命令を実行するようになるのです。

Will this be the first viable version of that?

これはその最初の現実的なバージョンになるのだろうか?

Maybe.

そうかもしれない。

Let me know what you think in the comments.

あなたの意見をコメントで聞かせてください。

I'm all ears.

お待ちしています。


この記事が気に入ったらサポートをしてみませんか?