rabbit r1が見た夢

2024年7月3日 14:56

rabbit inc.が発売しているrabbit r1というガジェットを買いました。

予約が始まってからすぐに予約したのですが、米国での出荷が始まってから「日本への出荷は今年後半ね」というアナウンスが出たので、ちょっと諦めかけていたのですが、なぜか6月後半に届きました。

米国ではすでにレビューが出回っていて「詐欺的商品」「何もできない」と言われています。それは正しいのですが、そういう基準で判断すべきプロダクトではないという個人的な思いがありますので、今回はそれを書いてみます。
まずはrabbit r1ってどんな触れ込みで登場したのかをおさらいしてみます。

Rabbit R1は、日常のタスクを簡素化するために設計されたコンパクトなAIアシスタントです。以下はその主な機能と特徴です。

主な機能
音楽コントロール: SpotifyやApple Musicのストリーミングをサポートし、音声コマンドでプレイリストを操作可能。
生成AI: Midjourneyを使用してAI画像を生成。
ライドシェアとフードデリバリー: Uberでのライド予約やDoorDashでの食事注文が可能（地域によってはテスト中）。
検索と情報取得: Perplexity AIとWolfram Alphaを利用して最新の検索と情報取得が可能。
レビューと推薦: Yelpでのレビュー検索。
会話型AI: 大規模言語モデル（LLM）を使用して会話を行う。
AIビジョン: カメラを使用して物体を識別し、情報を提供。
双方向翻訳: テキストと音声のリアルタイム翻訳。
メモ取りと要約: 音声メモや会議の記録、AI生成の要約を提供。
メモリリコール: 過去の対話や日記のエントリを記憶し、パーソナライズされた支援を提供。
音声コマンド: 主に音声コマンドで操作し、迅速なタスク処理が可能。

実用的な応用
物体識別: カメラを使用して物体を識別し、詳細情報を提供。
タスク自動化: Photoshopでの透かし除去など、特定のタスクを実行。
音声コマンド: 食事の注文やライドの予約、音楽再生などを音声コマンドで簡素化。
AI強化コミュニケーション: ハンズフリーでのメッセージングや通話を支援。

https://www.rabbit.tech/

夢のような機能じゃないですか！これで199ドル！サブスクなし！
すごく小さいんだけど、rabbit r1にはもの技適マークが貼ってあります。「電波法により、5.2/5.4GHz帯は屋内使用に限ります」と日本語で書いてある。4ポイントくらいの極小文字で。

そしてこのような機能を実現するためにLLMじゃなくてLAMというコンセプトを導入しています。

LAM（Large Action Model）は、Rabbit社が開発した新しい基盤モデルで、コンピュータ上で人間の意図を理解し実行することを目的としています。以下にLAMの主な特徴をまとめます。

LAMの特徴
人間の意図の理解と実行: LAMは、自然言語インターフェースを通じて人間の意図を理解し、それを具体的な行動に変換します。これにより、ユーザーは音声コマンドを使ってタスクを実行できます。
視覚的インターフェースの学習: LAMは、アプリケーションやサービスのユーザーインターフェースを視覚的に学習し、人間と同じ方法で操作することができます。これにより、APIに依存せずに多くのアプリケーションを操作することが可能です。
継続的な学習と適応: LAMは、ユーザーの行動を観察し、データを蓄積することで、時間と共にその能力を向上させます。これにより、より効率的かつ正確にタスクを実行できるようになります。

実用例
アプリケーション操作: LAMは、UberやDoorDashなどのアプリを操作し、ライドシェアの予約や食事の注文を行うことができます。
カスタムタスクの実行: ユーザーは特定のタスクをLAMに教えることができ、例えばPhotoshopでの画像編集など、複雑な操作も自動化できます。

まとめ
LAMは、従来の大規模言語モデル（LLM）を進化させたもので、ユーザーの意図を理解し、それを具体的な行動に変換する能力を持っています。これにより、Rabbit R1は多様なアプリケーションを音声コマンドで操作することができ、ユーザーのデジタル体験を大幅に向上させる可能性を秘めています。

https://www.rabbit.tech/

すごいですね。Language ModelじゃなくてAction Modelなんですね。
で、実際にとりうるActionは（将来的には）ユーザが学習させることもできるようになると言われています。

で、届いたものはどうだったかというと、
ライドシェアとフードデリバリー　→　日本ではできない
音楽コントロール　→　できた
生成AI　→　できた
AIビジョン　→　できた
双方向翻訳　→　できた
メモリリコール　→　できた
ただし、できたと書いてある部分も英語で使えば、という条件です。

rabbit r1に「please speak in Japanese.」と言うと、「rabbitは日本語はわかるけど、英語で応答するよ！」と答えるのですが、日本語で話しかけるとガン無視されます。なので、iPhoneのGoogle翻訳に日本語で話しかけて英訳させ、それを読ませて入力するという作戦で使います。次の動画は「知っていいる俳句があったら教えてください。日本で話してください」と英語で依頼しています。

どうでしょう。俳句っぽいものを表示しているのですが、読んでいるのは中国語っぽく聞こえます。よく聞いてみるとひらがなはひらがなとして読んでいるのですが、漢字は中国語読みです。そこで、次は「ひらがなでよんでくれ」と言っています。

（すいません。Short動画にしたらnoteには埋め込めないようです。）
ぜんぶひらがなで読んでもらったら、あやしいですが、一応読めることは読めました。
この音声認識に何を使っているかはわかりませんが、いまどきの音声認識APIであれば、言語の設定さえちゃんとすれば聞き取って、OpenAIにせよPerplexityにせよ、日本語で渡せば日本語で返してくれるように思います。ユーザのロケール設定みたいなものが現在ではまったくできなくて、例えば東京の天気を聞いても気温は華氏で答えてきます。
これとは別に「英語と日本語で翻訳して」というと、翻訳モードに入ります。こちらのモードだと日本語も問題なく聞き取り、翻訳、表示、読み上げが出来ています。

どうでしょう。日本で使うのは厳しいと思いますし、英語圏でも「え、ぜんぶスマホのアプリでできるじゃん」と言われてます。そうですよね。肝心のLAMのラーニングができない状態では、普通にスマホ使った方がいいですからね。出荷後に内部を解析され、OSがAndroidベースであるということがバレてから「使いにくいもうひとつのスマホを持ち歩くのか」という批判が起こって返品する人も多いようです。

じゃあ、僕はrabbit r1を買って後悔しているかと言うと、まったく後悔していません。なぜなら僕はLAM（Large Action Model）に非常に期待しているからです。もしLAMが実現すれば、いまのスマホの使い方とは全く違う使い方ができると思うからです。
例えば、いまあなたがお腹がすいているとしましょう。現在のスマホの考え方であれば、まずスマホを起動する前に出前をとるか、レストランまで行くかを考えます。どちらかと言えば出かけれるのは面倒に思えて、ウーバーイーツを起動して注文できるメニューを選び始めます。でも碌なものがないように思えてブラウザからファミレスのサイトを検索して、近くの店舗を探したりします。自分で何をやればいいのか考えて、それを実行するという方法です。LAMであればたぶんrabbitに「お腹がすいた」と話しかけることからはじまるでしょう。お腹がすいたらどうするかはLAMが考えます。LAMは何が食べたいかユーザに聞いて、ウーバーイーツから候補検索し、ユーザに提示します。ユーザが候補を選択すればそれを注文しますし「これらは注文したくない」と言われたら、近くのレストランでいまは入れるところを検索して候補を表示するでしょう。もしユーザが遠くのレストランを選択したら、そこまで行くウーバーか、Luupを予約してくれるかもしれません。どうすればいいかを考えるのはLAMの仕事になるのです。ユーザはアプリの使い方などを学習する必要はありません。

rabbit r1を見ていると、General Magicを思い出します。General MagicのMagicCapも野心的なプロダクトでした。

General MagicのエージェントOSは、1990年代初頭にGeneral Magic社によって開発された「Magic Cap」と「Telescript」を中心としたシステムです。以下にその概要を説明します。

Magic Cap（Magic Communicating Applications Platform）は、PDA（携帯情報端末）向けのオペレーティングシステムで、以下の特徴があります：
ユーザーインターフェース:
Magic Capは、デスク（机の上）、ホール（廊下）、ダウンタウン（街）という3つの画面から成り立ちます。デスクにはPDA的なツールがあり、ホールにはアプリケーションのドアが並び、ダウンタウンにはサービスを提供する会社のビルが立ち並ぶという、視覚的に分かりやすいインターフェースを提供しました。
操作性:
当時の他のPDAと異なり、手書き認識に依存せず、アイコンやメニューをタップして操作する方式を採用していました。

Telescriptは、エージェント技術を用いた通信スクリプト言語で、以下の特徴があります：
エージェント技術:
Telescriptは、ネットワーク上で自動的に情報を検索し、取得するソフトウェアエージェントを作成するための言語です。例えば、株価や航空券の価格情報を自動的に取得することができました。
分散処理:
Telescriptは、通信を言語の基本的なプリミティブとして扱い、仮想マシン間で実行中のプロセスを移動させることができる機能を持っていました。これは、後のクラウドコンピューティングの概念に近いものでした。
General MagicのエージェントOSは、Magic CapとTelescriptという2つの主要なコンポーネントから成り立ち、視覚的に分かりやすいユーザーインターフェースと高度なエージェント技術を提供しました。これにより、ユーザーは直感的にデバイスを操作し、ネットワーク上で自動的に情報を取得することが可能でした。しかし、当時の技術や市場の準備不足もあり、商業的には成功しませんでしたが、その後のモバイルコンピューティングの発展に大きな影響を与えました。

実装方法はぜんぜん違いますが、Telescriptのエージェント技術もユーザの意思を代行することを目的としていました。

当時僕はMagicCapのβテストに参加していましたが、たぶんβが終了して端末は返してしまったのではないかとおもいます。rabbit r1はこれからどうなるのか、ひょっとしたら後継端末は出ないでこのまま終了になるかもしれませんが、端末は保存しておきたいと思います。

この記事が気に入ったらサポートをしてみませんか？