rabbit r1が見た夢
rabbit inc.が発売しているrabbit r1というガジェットを買いました。
予約が始まってからすぐに予約したのですが、米国での出荷が始まってから「日本への出荷は今年後半ね」というアナウンスが出たので、ちょっと諦めかけていたのですが、なぜか6月後半に届きました。
米国ではすでにレビューが出回っていて「詐欺的商品」「何もできない」と言われています。それは正しいのですが、そういう基準で判断すべきプロダクトではないという個人的な思いがありますので、今回はそれを書いてみます。
まずはrabbit r1ってどんな触れ込みで登場したのかをおさらいしてみます。
夢のような機能じゃないですか!これで199ドル!サブスクなし!
すごく小さいんだけど、rabbit r1にはもの技適マークが貼ってあります。「電波法により、5.2/5.4GHz帯は屋内使用に限ります」と日本語で書いてある。4ポイントくらいの極小文字で。
そしてこのような機能を実現するためにLLMじゃなくてLAMというコンセプトを導入しています。
すごいですね。Language ModelじゃなくてAction Modelなんですね。
で、実際にとりうるActionは(将来的には)ユーザが学習させることもできるようになると言われています。
で、届いたものはどうだったかというと、
ライドシェアとフードデリバリー → 日本ではできない
音楽コントロール → できた
生成AI → できた
AIビジョン → できた
双方向翻訳 → できた
メモリリコール → できた
ただし、できたと書いてある部分も英語で使えば、という条件です。
rabbit r1に「please speak in Japanese.」と言うと、「rabbitは日本語はわかるけど、英語で応答するよ!」と答えるのですが、日本語で話しかけるとガン無視されます。なので、iPhoneのGoogle翻訳に日本語で話しかけて英訳させ、それを読ませて入力するという作戦で使います。次の動画は「知っていいる俳句があったら教えてください。日本で話してください」と英語で依頼しています。
どうでしょう。俳句っぽいものを表示しているのですが、読んでいるのは中国語っぽく聞こえます。よく聞いてみるとひらがなはひらがなとして読んでいるのですが、漢字は中国語読みです。そこで、次は「ひらがなでよんでくれ」と言っています。
(すいません。Short動画にしたらnoteには埋め込めないようです。)
ぜんぶひらがなで読んでもらったら、あやしいですが、一応読めることは読めました。
この音声認識に何を使っているかはわかりませんが、いまどきの音声認識APIであれば、言語の設定さえちゃんとすれば聞き取って、OpenAIにせよPerplexityにせよ、日本語で渡せば日本語で返してくれるように思います。ユーザのロケール設定みたいなものが現在ではまったくできなくて、例えば東京の天気を聞いても気温は華氏で答えてきます。
これとは別に「英語と日本語で翻訳して」というと、翻訳モードに入ります。こちらのモードだと日本語も問題なく聞き取り、翻訳、表示、読み上げが出来ています。
どうでしょう。日本で使うのは厳しいと思いますし、英語圏でも「え、ぜんぶスマホのアプリでできるじゃん」と言われてます。そうですよね。肝心のLAMのラーニングができない状態では、普通にスマホ使った方がいいですからね。出荷後に内部を解析され、OSがAndroidベースであるということがバレてから「使いにくいもうひとつのスマホを持ち歩くのか」という批判が起こって返品する人も多いようです。
じゃあ、僕はrabbit r1を買って後悔しているかと言うと、まったく後悔していません。なぜなら僕はLAM(Large Action Model)に非常に期待しているからです。もしLAMが実現すれば、いまのスマホの使い方とは全く違う使い方ができると思うからです。
例えば、いまあなたがお腹がすいているとしましょう。現在のスマホの考え方であれば、まずスマホを起動する前に出前をとるか、レストランまで行くかを考えます。どちらかと言えば出かけれるのは面倒に思えて、ウーバーイーツを起動して注文できるメニューを選び始めます。でも碌なものがないように思えてブラウザからファミレスのサイトを検索して、近くの店舗を探したりします。自分で何をやればいいのか考えて、それを実行するという方法です。LAMであればたぶんrabbitに「お腹がすいた」と話しかけることからはじまるでしょう。お腹がすいたらどうするかはLAMが考えます。LAMは何が食べたいかユーザに聞いて、ウーバーイーツから候補検索し、ユーザに提示します。ユーザが候補を選択すればそれを注文しますし「これらは注文したくない」と言われたら、近くのレストランでいまは入れるところを検索して候補を表示するでしょう。もしユーザが遠くのレストランを選択したら、そこまで行くウーバーか、Luupを予約してくれるかもしれません。どうすればいいかを考えるのはLAMの仕事になるのです。ユーザはアプリの使い方などを学習する必要はありません。
rabbit r1を見ていると、General Magicを思い出します。General MagicのMagicCapも野心的なプロダクトでした。
実装方法はぜんぜん違いますが、Telescriptのエージェント技術もユーザの意思を代行することを目的としていました。
当時僕はMagicCapのβテストに参加していましたが、たぶんβが終了して端末は返してしまったのではないかとおもいます。rabbit r1はこれからどうなるのか、ひょっとしたら後継端末は出ないでこのまま終了になるかもしれませんが、端末は保存しておきたいと思います。
この記事が気に入ったらサポートをしてみませんか?