見出し画像

なぜこの哲学者はAI企業を立ち上げたのか

※27,481文字と長文のため、テキストの読み上げ機能の使用を想定しております。各OS標準搭載のアクセシビリティ機能(読み上げコンテンツ)でも良いですが、個人的にはMicrosoft Edgeブラウザの「音声で読み上げる」機能をおすすめします。

「多くの人がAI分野で働きたいと思っていますが、AIや機械学習の学位を持っていません。AIエージェント開発者になるには多くの学位が必要だという誤解があります。参考までに、私は大学で哲学を専攻しました。全くAIのバックグラウンドはありませんが、機械学習とAIモデルを中心にキャリアを築き、さらに会社まで設立することができました。実際のところ、これは参入するのに最適な分野の一つです。最善の方法は、自分の知識の限界を押し広げるようなプロジェクトを見つけることです。問題は、ドキュメントを読んでも何も得られないということです。コースを読んだり、本を読んだり、教科書を読んだりしても何も得られません。ここで最高の教師となるのは経験です。」
「全く同感です。では、あなたのAIの目覚めはどのようなものだったのか聞かせてください。AIが世界を変えると気づいたのはいつで、この業界に入りたいと思ったのはいつですか?そして、最初に取った行動は何でしたか?」
「実際、学部生の時でした。哲学と経済学を専攻していたんですが、ある教授が本当に刺激を与えてくれて、チャレンジゾーンにある、つまり快適ゾーンの外にあるものに挑戦するよう後押ししてくれました。そして、データマイニングという名前だけで興味をそそられる、本当に面白い授業がありました。その意味が分からなかったのですが、この授業は完全に機械学習の授業だったんです。」
「つまり、偶然に機械学習の側面に足を踏み入れたわけですね。」
「完全に偶然でした。でも、私はそれを積極的な偶然と呼んでいます。うまくいくかどうか分からないベットをするけど、時にはそれが予想もしなかった大きな勝利になることがあるんです。快適な場所にいて予想通りの結果を得るか、それとも少し痛みを伴うかもしれないけど大きなリターンがあるかもしれないものに挑戦するか、どちらを選びますか?」
「まだ納得していない人のために、AIが素晴らしい分野である理由は何ですか?」
「AIは素晴らしい分野です。人類史上かつてないほど多くのデータが収集されており、新しい応用方法が次々と見つかっています。そして、この創造的なツールセットがあります。それはほとんど何でも作れるレゴのセットのようなものです。そして明らかに、これは最も急成長している分野の一つで、給料もとてもいいです。人々がAI分野での仕事を考えるべき理由はたくさんあります。
ところで、AIの革命を見逃したくない人は、私のコミュニティに参加してください。私に直接アクセスできますし、6月中に参加すれば、あなただけのカスタムGPTを作ります。はい、6月末までに参加した全ての人に、カスタムGPTを作ります。興味があれば、ぜひ参加してください。リンクは説明欄の一番上にあります。
でも、あなたが言ったように、待つこともできます。もしかしたら、5年後には存在しないかもしれない職業にいるかもしれません。そういう職業はたくさんあります。あるいは、今日少し不快感を感じても、学び始めることもできます。ピボットする必要があるかもしれないし、スキルアップして職業を変える必要があるかもしれないことを受け入れるのです。あるいは、何もせずに5年後、10年後に自分の仕事が置き換えられたときに、大きな痛みを経験することになります。解雇されるかもしれないからです。」
「こう言いますが、AI分野に入るのは少し不快というより、おそらくかなりの不快感があるでしょう。大きな学習曲線があることも考慮しなければなりません。プログラミングを学ぶ必要があり、多くの数学的概念、かなりの微積分、かなりの線形代数、そして多くの統計を学ぶ必要があります。これらの概念を本当に理解し、新しい問題に応用する方法を理解するには、非常に長い時間がかかると思います。
しかし、まさにあなたが言ったように、業界によって運命がコントロールされる人になりたいですか?それとも、ある意味で世界がどうなるかを形作る人になりたいですか?なぜなら、あなたはその分野のリーダーになるからです。そして、たとえ仕事を自動化していたとしても、実際にはそれを自動化しているのではなく、より効率的にしているのです。以前は退屈だったことをより速く、より良くしているのです。」
「サム・アルトマンがLex Fridmanの番組で言っていたように、仕事ではなくタスクを自動化すると考えるべきです。つまり、全ての仕事には簡単に自動化できるタスクがいくつかあります。誰かが研究者を自動化しようと決めたわけでも、コピーライターを自動化しようと決めたわけでもありません。単にコピーライティングのタスクが今は自動化されているだけです。」
「こう考えるべきだと思います。Google以前に誰かに調査をお願いするようなものです。図書館に行って司書と話し、本を開いて本を検索しなければなりませんでした。これは私たちがしたくないことで、調査をあまり効果的でないものにしています。Googleの存在によって調査が消えたとは言い難いです。むしろ逆で、flourishしています。
実際に物事をより効率的にすることで、逆説的に、それがより広まり、より需要が高まる瞬間を作り出すのです。プログラミングでも同じことが見られます。開発をより簡単にするツールがずっと増え、業界にはもっと多くの開発者が入ってきて、混んでいるように見えますが、コンピューターサイエンスへの需要、コードへの需要、AIへの需要は実際にはどんどん増えています。なぜなら、それがどんどん良くなっているからです。
これは多くの人が理解できていないことの一つです。業界は縮小しているのではなく、拡大しているのです。多くの人が押し寄せてきていますが、十分なチャンスがあります。実際、チャンスはより価値あるものになると言えるでしょう。だから早めに参入する方が良いのです。」
「そうですね。人々は私たちがどれだけ早い段階にいるかを理解していません。いつも例えに使うんですが、ChatGPTは週に約1億人のユーザーがいます。世界人口と比べると、それは約1.2%です。つまり、文字通り99%の人々がChatGPTを使っていないのです。そして、ChatGPTアカウントを作った人のおそらく1%未満しかAIエージェントについて考えていません。つまり、1%の1%です。私たちは全員、超早期段階にいるのです。
もちろん、もっと早く始められたかもしれません。これを見ている人たち、特にあなたのことを言っているわけではありませんが、アレックス、人々は私たち全員が超早期段階にいることを理解する必要があります。あなたが言ったように、今始めた方が、後で始めるよりずっと良いのです。誰もが、1990年代初頭にインターネット革命に飛び込んだり、2000年代後半にソーシャルメディア革命に飛び込んだりしていたらよかったのにと思うでしょう。人々は常に後から振り返って願うのですが、それが起こっているときは、それを見て、未来を信じなければなりません。」
「AIの分野で多くの人が使う議論について聞きたいのですが、『でもAIは違う』というものです。この機会の増加の話をすると、『でもこれは何か根本的に違う技術だ』と言います。何らかの理由で、仕事を創出せず、ただ破壊するだけだと。この議論についてどう思いますか?」
「人々がとる角度はたくさんあると思います。AIがものすごい速さで、非常に効果的に物事を自動化し、人々を不要にすると言います。しかし、それは真実からかけ離れていると思います。実際に起こるのは、私たちが集中したい、問題解決に本当に重要なことに焦点を当てるようになることです。つまり、問題文を考え出し、正しいデータを取得し、ブロッカーを止める方法を見つけることです。そして、多くの人々の政治、顧客を見つけること、販売することなどです。これらのことに私たちはもっと集中するようになります。
なぜなら、今は私たちはハンマーとノミでプログラミングしているようなものだからです。最初の作家たちは、ハンマーとノミで文字を刻んでいました。今のVS CodeやVimのような多くのツールは、ハンマーとノミのようなものです。もし新しいタイプライターを作ることができれば、このAIの瞬間はグーテンベルクの瞬間のようなものです。人類とテクノロジーの相互作用を本当に変えた瞬間として、歴史を振り返ったときに二つの瞬間があると言えるでしょう。それは印刷機とこれからのAIです。
高レベルの説明で問題をどのように解決したいかを説明するだけで、問題を解決してくれるのです。そして、私たちが集中するのは、問題を解決する方法ではなく、エージェントに指示する際の思慮深さになるでしょう。印刷機では、誰も文字自体を気にしません。言葉の背後にある意味を気にするのです。同じように、エージェントに送る指示の背後にある意味、そしてそれらが私たちが望むことをどのように形作るかについて考える必要があります。」
「そこにはたくさんの解釈があります。一つ触れたいのは、ノミでプログラミングしているという話です。これは私の、基本的に私たちは石器時代に生きているという考えに似ています。人々は常に、自分たちが最も進歩していると考えます。100年前を振り返り、人々がいかに原始的で技術が不足していたかを笑います。しかし、今の私たちも将来から見れば同じです。
例えば、私たちが着ている服には新しい技術はありません。毎日靴下を履くのに時間がかかります。私は新しい素材で足を自動的に包む台の上に立ち、1.5秒で超未来的な靴下ができるようなものが欲しいです。他にもたくさんあります。タイピングは遅すぎます。これがイーロン・マスクがニューラリンクを推進している理由です。話すことやタイピングは、思考のスピードに比べてとてつもなく遅いのです。
あなたが言ったように、私たちは振り返って、どうやってこれらをやり遂げたのかと思うでしょう。私の意見では、私たちは基本的に石器時代に生きていて、技術、AI、コンピューターが唯一の本当の未来の約束です。それが私たちが持つ唯一の進歩したものです。
もう一つの例は、誰も自分の健康について何も知らないということです。個人化された血液検査、さまざまな指標、全ての器官の測定をする人はどれくらいいるでしょうか。誰も自分の健康について何も知りません。そして、全ての治療法、全ての治癒法は一般化されています。これは個別化されたソリューションと比べると、ひどいアプローチです。
非常に明らかに原始的なことがたくさんありますが、なぜか人間には、自分たちが進歩しているという傲慢さがあります。」
「豊かさを当たり前だと思うのは非常に簡単です。靴下の例は本当に賢いです。服という文化的人工物には異なる段階があります。人類の歴史のほとんどの期間、服は非常に高価でした。中世ヨーロッパでは、人が亡くなったとき、墓泥棒を防ぐために法律と武装警備員が必要でした。墓泥棒は遺体から服を盗むのです。服はそれほど価値があり、高価だったのです。
今、私たちは服が豊富な時代に生きています。バーゲンビンで1ドル以下のTシャツを手に入れることができます。明らかに、これを当たり前だと思っています。『過去はそれほど貧しくなかった』と考えていませんでした。今、世界のほとんどの地域で誰も飢えていません。一部の地域ではまだ大きな問題ですが、楽観的に考えれば、これはもう問題にならないでしょう。食べ物に飢えるのではなく、『ミシュランの星付きディナーが食べたい』とか『寿司が食べたい』といった欲求になるでしょう。
技術が進歩するにつれて、私たちは物事を当たり前だと思い始めます。おそらく20年後か30年後には、プログラミングや多くのプロセスを現在のように考えることはないでしょう。私たちのことを『どうやって生きていたんだろう?パンチカードを使っていたなんて、全く意味がわからない技術を使っていた』と思うでしょう。
過去を振り返り、人々が本当にどのように技術と共に生きていたか、そしてどれだけ進歩したかを意識していなかったかを基準にするのは本当に役立ちます。」
「もう一つ役立つフレームは、新しい技術に対する公衆の反応から学べることです。ヘンリー・フォードが車を発明したとき、新聞は『明らかに誰もが馬車を望むだろう。なぜ馬のいない馬車が欲しいのか?燃料補給が必要で、壊れやすい。馬は信頼できる』と書きました。AIでも同じことが見られます。多くの人々が批判しています。
あなたが挙げた貧困削減の例も同様です。過去100年から200年の間に、絶対的貧困がほぼゼロに近づいているというデータがたくさんあります。極度の貧困は約8%だと思います。技術はこれを可能にした大きな要因です。それでも、技術に反対し、減速させたいと思っている人がたくさんいます。なぜそういう議論をするのでしょうか?明らかなグラフが見えないのでしょうか?」
「それを擁護するなら、私もこの意見に賛成ではありませんが、最善を尽くして説明します。世界的な利益が均等に広がらないということです。経済が成長しても、最も恵まれない人々、最貧困層が恩恵を受けるとは限りません。富裕層だけが恩恵を受け、貧困層は恩恵を受けないかもしれません。
しかし、歴史的に見てそれは事実ではありません。過去10年間で、携帯電話が普及したことを考えるのは驚くべきことです。誰もがこれらを持っています。最初は非常に高価で贅沢品でした。長い間、車載電話があり、その後非常に高価な携帯電話がありました。今では50ドル以下、時にはそれ以下で手に入れることができます。
携帯電話を持っている人は誰でも、インターネットに接続できる非常に強力なコンピューターを持っています。多くの携帯電話でプログラミングもできます。WhatsAppでビジネスを行うこともできます。世界中とつながることができます。最貧国の人々、アマゾンの熱帯雨林の人々でさえ、WhatsAppにアクセスでき、Starlinkなどを通じてインターネットにつながることができます。
技術は大きく見れば、民主化されます。最初は非常に高価で、アクセスが難しいですが、時間とともに最もアクセスの少ない人々にも非常にアクセスしやすくなります。このAIの動きも同じように考えるべきでしょう。今は残念ながら非常にアクセスしにくいです。プロンプトの仕方について多くのことを知っていなければならず、インターネットにアクセスする必要があり、ChatGPTの支払いにはクレジットカードが必要です。
しかし、これはすぐに変わる可能性があります。私たちのほとんどはGPUが豊富な世界に住んでいます。そして最終的には、ハードウェア自体がより安くなり、よりアクセスしやすくなります。人々はこれらを自分で試すことができるようになり、知識を共有し、これらの上にネットワークを構築する新しく賢明な方法を見つけるでしょう。
これは、携帯電話というハードウェアの瞬間よりもずっと速く起こる可能性があります。なぜなら、すでに誰もが携帯電話を持っていますが、大規模言語モデルはクラウドで実行できるだけでなく、ローカルでも実行できるからです。人々は自分の電話や低性能なラップトップでOllamaやLM Studioを実行しています。すぐに電話でも実行できるようになるでしょう。GoogleはGoogle Chromeで実行できると発表しています。
ハードウェアが民主化されるだけでなく、AIも民主化される時代に入ろうとしています。誰もがアクセスできるようになるのです。」
「全く同感です。新しいハードウェアを80億人に配布するよりも、ソフトウェアアップデートを配信する方が簡単です。
あなたは、これがもっと速く起こると言及しましたが、これはタイムラインの質問につながります。AGI(汎用人工知能)やスーパーインテリジェンスについて、あなたのタイムラインはどうですか?2年後にAGIが来て、その数か月後にスーパーインテリジェンスが来るとか言う人たちの一人ですか?それともヤン・ルクンのように、もっとゆっくりだと考えていますか?」
「ここで推定するのは難しいです。こう言いましょう。AnthropicやOpenAI、Mistralなどの会社で構築している人々の中で、AGIとは何か、それがどのように到来するか、そしてそれが何を意味するかについて、多くの意見が混在しています。多くの意見の不一致があります。
まず一つは、AGIに必要なものは、基本的に分布外にあるということです。例えば、AGIは癌の治療法を見つけることを意味するかもしれませんが、癌の治療法を作るために必要なデータは、人類が今まで収集したあらゆるデータの分布の外にあるかもしれません。全く新しいものかもしれません。そのようなデータに到達するまでには、残念ながら非常に長い時間がかかる可能性が高いと思います。
このようなAGIの瞬間は、私たちが現在持っているものよりもはるかに対処が難しいと思います。アルゴリズムとハードウェア自体が分布をより速く、より安価に学習し、意味のある方法で問題を解決できる点に到達するかもしれません。しかし、この AGI の瞬間、さらには恐ろしいものにつながる多くのものは、おそらくまだ非常に遠い未来にあると思います。
その間に多くの人々が試みているのは、ツールを構築し、エージェントが世界と相互作用する能力を構築することです。そこで物事がより強力になると思います。AIエージェントを大規模言語モデルがツールに接続されたものと考えることができます。ツールは世界の状態を変更し、突然変異させることを可能にします。
つまり、内部のニューラルネットワークの外側にあるもの、APIを更新したり、データベースを変更したり、場合によってはロボットを制御したり、他の人間を雇って物事を行ったりすることさえできるのです。これらのメカニズムは、概念と現実の間のギャップを橋渡しする、または実際に持つことを可能にするものです。
しかし、現在私が懸念しているのは、大きなデータセットのギャップと内部推論能力です。ここが大きな議論の的になっています。これらのものが完全に自律的で人生を変えるほどの能力を持つ内部推論が可能だと全ての人が信じているわけではありません。」
「明らかに、AGIのタイムラインについて話すときに最も重要な要因はおそらく定義です。多くの異なる定義があるからです。最も簡単なのは、平均的な人間よりも賢いAIシステムというものです。そのためには、癌を解決する必要はないと思います。新しい科学を行う必要もありません。正直に言って、平均的な人間よりも有用であるというバーはそれほど高くありません。
しかし、一段階上げて、新しい物理学の発見をしたり、病気を治したりする必要があると言えば、それはAGIとスーパーインテリジェンスの間の何か中間的なステップだと思います。何と呼べばいいかわかりませんが。
定義は大きく影響します。では、高速な離陸と遅い離陸のどちらを信じていますか?つまり、新しい科学や新しいAI研究ができるものができた後、数か月でスーパーインテリジェンスの年になると思いますか?それとも、何年も、あるいは数十年かかると思いますか?」
「ボトルネックは常に物理的な世界と物理的な人間だと思います。新しい科学や研究を行うには、基本的に実験対象、臨床試験、実際に実験を行うロボットを作ることが必要です。真実は、これらは非常に高価で、非常に遅いということです。何かを国の一方から他方に移動させたいだけでも、郵便局に行くか、パッケージで発送する必要があります。
そのため、そのような離陸を妨げる巨大な物理的障壁があると思います。人間が間違いなく制限要因になるでしょう。技術ではありません。おそらく、それがマインドセットの転換になるでしょう。AIは人々よりもずっと速く離陸するということです。私たちが遅い離陸の理由になるのです。技術が原因ではありません。」
「同意します。あなたはAnthropicやOpenAIなどで働いている人々と話をしていると言いましたが、サンフランシスコの雰囲気はどうですか?どんな感じで、どんな話題が出ていますか?」
「一般的に言えば、サンフランシスコは人生で最も野心的なプロジェクトに取り組むのに世界で最高の場所です。これはスタートアップの創業者にも、大企業の研究者にも、大企業の起業家にも当てはまります。誰もが最先端の研究や最先端の技術をどのように応用し、より良く、より速く、より役立つものにするかを見つけようとしています。
研究者たちの一般的な雰囲気は、AIが良くなることに賭けるべきではないということです。大まかに言えば、より効果的になるだけです。例えば、多くの人々がAIをより賢く、より速くするためのツールを追加する会社を立ち上げていますが、それらはトランスフォーマーやそれらを動かすニューラルネットワークの基本的なものではありません。
常にGPT-5やGPT-6、あるいは何であれ、以前のものからの大きな改善のマイルストーンになるものに賭けるべきです。これらの小さなハックは大きな違いを生み出すものにはならないでしょう。一時的な解決策かもしれません。市場のソリューションかもしれませんが、長期的なものとは期待すべきではありません。
良い例は、PDFとのチャットです。みんなこの概念が好きです。PDFとチャットするには、まずドキュメントパーサーに読み込み、OCRや表抽出などを行う必要があります。これを一時的な修正と考えるべきで、1、2モデル後には組み込まれるでしょう。将来的には、これらの奇妙なドキュメントローダーステップやデータ処理ステップを行う代わりに、バイナリを直接読み取ることができるかもしれません。
私が「ハック」と呼ぶこれらの小さなものは、おそらく将来的には消えるでしょう。モデルに賭けるか、モデルに反して賭けるかを考えるときは、そのように考えるべきです。モデルに反して賭けるということは、モデルをよりよくするためのハックを構築しているということですが、常にモデル自体が改善されることを期待すべきです。」
「これは、AIの創業者が受け取れる最高のアドバイスの一つかもしれません。多くの人がGPT-5によって破壊されるものを構築していて、驚いた魚のように『何が起こったの?』となるでしょう。しかし、彼らはAIに反して賭けていたのです。基本的にOpenAIをショートしていたようなものです。LLMが停滞し、彼らのソリューションがより良い言語モデルでは実現できないと賭けているのです。これは明らかに非常にリスクの高い賭けです。特に未来を信じているなら。」
「楽観的な使用例の一つは、AIコーディングエージェントです。現在、多くのコーディングエージェントはそれほど優れていません。かなり幻覚を起こし、遅く、非常に高価です。多くの研究者や開発者、創業者がAIエージェントコーディング分野に入り、モデルが十分に良くないと考えています。これは全くその通りで、モデルをより良く、期待通りに動作させるための小さなハックを構築する必要があります。
しかし、モデルが改善されることに賭けるべきです。そして、将来的には今は50%しか効果がないかもしれませんが、次のモデルでは90%効果的になるかもしれません。常により良くなることを期待すべきです。」
「全く同感です。ところで、このトピックについて、私のDiscordコミュニティの多くの人が質問しています。前回の動画であなたがAugmentを使っていると言及したからです。それは公開されていますか?多くの人が『アレックスが紹介してくれると言っていた』と言っています。まず、なぜ他のものではなくAugmentを使っているのか、そして他の人はどうやって使えるのか教えてください。」
「実際、私はいくつかのこのようなコパイロットスタイルのツールを試しました。オリジナルのGitHub Copilotを試しました。それが出たときの初期のベータテスターの一人でした。そのツールに惚れ込みました。それから、Cursor Copilotも試しました。これもかなり良いです。他にも興味があるのは、Continueというオープンソースのコパイロットです。これはローカルで実行でき、Ollamaインスタンスやオフラインインスタンスで実行するように設定できます。
Augmentは私の最新のお気に入りです。非常に速く、多くのコードベースをコンテキストに読み込むので、ChatGPTに物事をコピーペーストしたり、幻覚と戦ったりする必要がなく、多くのクリックを省略できます。私が求めているものを正確に理解してくれます。
現在、Augmentはベータ版です。私たちのDiscordに参加していただければ、おそらくいくつかのライセンスやトライアルを設定できると思います。確かに、現在最も先端的なツールの一つで、コードエディタの主要なコパイロットになるために戦っています。」
「もし私のコミュニティにライセンスを設定できれば素晴らしいですね。あなたが言及したとき、多くの人が尋ねていたので。」
「もちろん、Augmentのチームとかなり親密なので、いくつかのライセンスを設定するのを手伝えると思います。」
「素晴らしいです。実際、視聴者からの質問ですが、あなたのスタートアップであるAgent Opsを使用する際に、エージェントデータをあなたと共有せずに使用するオプションはありますか?」
「多くの企業や会社が二つのことを望んでいるのを見てきました。VPCと空中ギャップを望んでいます。データが彼らのクラウドやシステムから出ないようにしたいのです。私たちはこれに非常に密接に取り組んでいます。
大きな課題の一つは、非常に厳密なプライバシー契約を設定することです。データが決してシステムから漏れず、ユーザーが最高の体験をするためにのみ使用され、プライバシーが完全に維持されることを確認します。これが私たちがセットアップしている主な方法です。
しかし、ローカルで実行し、プライベートに保ちたいと考えている多くの顧客と出会いました。オフラインホスティングで対応できました。自己設定は以前に設定したことがあります。これについて話したい人がいれば喜んで対応します。」
「素晴らしいですね。コミュニティメンバーからのもう一つの質問です。AIの次の大きなブレークスルーは何だと思いますか?そして、Agent Opsはそのブレークスルーのフロントラインにいるためにどのように計画していますか?」
「次の大きな瞬間は間違いなくマルチモーダルです。これらの音楽ジェネレーター、基本的にGPT-4 VisionとGPT-4を見てきました。彼らはまだ音声モデルを見せていませんが、それはすぐに来ると思います。そして、それは間違いなく私たちのやり方を変えるでしょう。
これに興奮しているのは、ビデオ、音声、画像はすべて自然な使用例があるからです。しかし、その拡張は任意のファイルタイプです。バイトコードをトランスフォーマーが認識できるものに変換する方法についての本当にクールで興味深い研究論文がいくつかあります。バイトをどのようにトークン化するかです。これは非常に強力になる可能性があります。
一般的に言えば、世界の真の意味でマルチモーダル入力を持つことになるでしょう。任意の種類のファイルタイプをモデルに供給し、それと連携できるようになります。
Agent Opsでは、単なる文字列トークンだけでなく、より多くのモダリティを扱う方法を考えています。現在、ビデオと画像を扱っていますが、確実にオーディオもすぐに来るでしょう。他の任意のタイプのファイルも近いうちに登場すると思います。
そのようなモデルがリリースされ次第、画像とオーディオを超えて何かを見つける人がいれば、それは本当に根本的にこれらのLLMとの相互作用の方法を変えるでしょう。Agent Opsでは確実にそれについて考えています。今のところ、テキスト、画像、ビデオに本当に集中しています。他のものもすぐに来ますが、いつかは言えません。少なくとも1、2年以内には来るでしょう。」
「最も基本的なレベル、つまり入力に行っても、ほとんどの人は1分間に40語程度のとても遅いタイピングをしていますよね。しかし、話すのはもっと速く、おそらく150から200語程度です。それだけでも大きな突破口になるでしょう。何かをして、それから話すだけで、オープンEE^A^のアプリと作業したり、何らかの音声エージェントと作業したりできるようになれば。基本的に、非常に遅いタイピングの代わりに、生産性のスピードを3倍から4倍にできるのです。単にLLMにマルチモダリティを持たせるだけで。」
「そうですね、ハックについて考えてみましょう。これは再びオープンEE^A^やAnthropicなどの大手プレイヤーに反して賭けることを意味します。本当に会話型AIを作る唯一の方法は、文字起こし技術に投資することだと信じることです。
文字起こし技術は一種のハックで、音声をテキストに変換し、そのテキストをLLMに供給します。しかし、期待すべきは、LLMが自分で音声を受け取ることができるようになることです。それは文字起こしのステップよりもずっと良く、ずっと効果的になるでしょう。
そのように考えてください。私たちとモデルの間にある現在のギャップは何か、そしてそのうちのどれが消えそうかを考えるのです。」
「そのとおりです。コミュニティメンバーからのもう一つの質問です。人々はどのようにして先を行くことができるでしょうか?多くの人が、1年で陳腐化してしまうものを学ぶのではないかという恐れを持っています。人々はそれを防ぐことができるでしょうか?そして、人々はどうすれば本当に先を行くことができるでしょうか?」
「持つことができる最も重要なスキルは、問題の効果を評価する方法を学ぶことだと思います。モデルがどれほど良いか、そして個人的なレベルでも、ChatGPTからの入力と出力がどれほど良いかを評価する方法を学ぶことです。
業界では時々、生成される「slop」、つまり良くない出力について話します。しかし、それを科学的なレベルでどのように行うのか、これらのシステムを使用することについてどのように科学的に考えるのかということです。
私の見方を本当に変えた素晴らしい本があります。『統計学習の要素』という本です。読むのは本当に難しい本ですが、これらの概念をマスターできれば、システムやモデルがどれほど効果的かについて多くの不確実性がある世界に備えることができます。しかし、何が良くて何が悪いかを見分ける方法を持つことができます。
このようなスキルは決して消えません。アルゴリズムは常に変化し、問題セットやデータ、それらをロードする方法、モデルも常に変化しています。このポッドキャストの直前でさえ、Anthropicは新しいモデルを公開しました。少しトレッドミルのようですが、システムを評価する方法について考える核心的な基礎に本当に集中すれば、浮かび上がることができます。
モデルは常に変化し、数字は常に変化していますが、基本は決して変わりません。」
「基本的にメタスキルを学ぶということですね。それは他のスキルをサポートするメタスキルです。新しい概念を素早く学ぶ能力や、集中して取り組む能力もメタスキルです。これらは常に価値があります。Windows、macOS、Cursor IDE、GitHub Copilot、Augmentを使っているかどうかに関係なく。
それはほとんど詳細のようなものです。一生懸命働く能力、集中して取り組む能力、自分で考える能力、あなたが言ったように物事の重要性を評価する能力などのメタスキルがあれば、単一のプログラミング言語よりもはるかに価値があります。それは学ぶことができます。」
「そのとおりです。おそらく最も重要なスキル、これも非常に高レベルですが、実践し始めると理解できるのは創造性です。創造性とは、異なる分野のアイデアを新しい方法で適用することを意味します。
例えば、1400年代からの非常に古い産業である船舶輸送を考えてみましょう。多くの船舶輸送はまだペンと紙で行われています。多くは紙の文書です。少しずつデジタル化されていますが、これらの技術にはほとんど触れていません。
創造性とは、ChatGPTのようなものを取り、船長にそれを紹介し、彼らの分野について学び、そして知っている技術についても学び、彼らが今まで考えたこともなかった問題を解決するためにアプリを適用することを意味します。
一つの分野と別の分野の間のギャップを見つけ、そこに新しいレベルの創造性を適用する方法を学ぶことが、世界を形作る方法です。これは実際に、これらの大規模言語モデルの大きな弱点の一つです。彼らは実際にはあまり創造的ではありません。芸術を作ったり、異なるスタイルを適用したり、物事を混ぜ合わせたりする点では創造的ですが、実際の問題を解決する方法で新しいものや創造的なものではありません。
ここで私たち人間が本当に専門化できるのは、『モデルが決して持たない知識を私は持っている』とか『私はその分野の専門家を知っている』と言って、彼らが見逃しているものを指摘することです。そのようなつながりをどのように作るかを考えることは、常に投資する価値のあるスキルです。」
「一つ思い出したのは、船舶の例です。アンドリュー・ンがその会社で、ある船舶会社のためにそれを解決したと思います。MLモデルを実装し、船の経路を最適化することで、燃料コストを大幅に削減できました。
あなたは『GPU豊富』という概念について言及しましたが、それは特に西洋社会のことを指しているのですか?それとも個人やレベルについても言えることですか?将来的には、今人々が車や家を自慢するように、『私はスーパーコンピューターを持っている』と自慢するようになると思いますか?上流階級の一部として、誰もが自宅に自分のクラスターを持つようになると思いますか?全員ではなく、1%の人々についてです。」
「少し小道具を持ってきますね。はい、GPUの帽子です。いいですね、被ったままにしておきます。私もGPUの帽子を持っています。
さて、これについて考える方法は、コンピューティングの提供者には二種類あるということです。エッジで実行するか、クラウドで実行するかです。エッジとは、ラップトップや携帯電話など、ローカルデバイスで実行することを意味します。
クラウドは常に、一般のユーザーが競合することを意図していない規模の経済を持つでしょう。私たちのデバイスは汎用ですが、クラウドセンターも汎用です。
平均的な人々にとって、正しい考え方は、どのような計算が専門家に送られ、クラウドでアウトソースされるか、対してどのような計算がローカルで実行されるかという二分法です。
これは大規模言語モデルだけの問題ではありません。ほぼすべてのことに当てはまります。例えば、ビデオ編集者であれば、ビデオの圧縮、エクスポート、編集に特化した非常に強力なMacBookが欲しいかもしれません。一方で、性能の低いラップトップを使っている場合は、Adobe Cloudにエクスポートして処理してもらいたいかもしれません。
大まかに言えば、多くのハードウェアメーカーがデバイス上でより強力なGPUを作成しています。GPTほど良くて大きくはないかもしれませんが、オフラインで実行できる、より高速な計算を実行できるようになるでしょう。飛行機の中や砂漠の真ん中でも実行できます。これらはGPU豊富な人々にとってアクセス可能なものです。
GPUが貧弱な人でも、あるいはGPUが豊富でローカルで実行したい人でも、チェックアウトすべき本当にクールなツールがいくつかあります。一つは LM Studio です。これは本当にクールなチャットアプリで、GPUに接続したり、ローカルモデルをロードして大規模言語モデルとチャットを始めたりできます。
もう一つは Ollama です。Ollama はターミナルで実行できるサーバーを作成し、アプリケーションに使用できます。多くの AI エージェントが Ollama 上で実行されているのを見ています。ローカルで物事を実行する簡単な方法だからです。」
「はい、Ollama をローカルで実行して複数の動画を作りました。機密性の高い作業をしていなくても、ローカルで物事を実行することには一定の魅力があります。『データは自分のものだ、誰も見ていない、自分のコンピューターで実行されている』という感覚です。なぜそうだと思いますか?」
「これらの大企業の多くが、ユーザーとの信頼関係を築くのに非常に苦労していると思います。2023年11月のサム・バンクマン-フリードの騒動から何か学んだとすれば、会社が表面上は構造化されているように見えても、根本的に何か間違っているかもしれないし、何か裏で悪いことが行われているかもしれないということです。
常に信頼しつつ検証できるシステムを持つべきです。多くのこれらのクローズドソースモデルプロバイダーは、あまり信頼する理由を与えてくれません。なぜなら検証できないからです。
ローカルモデルは、特にヘルスケアなど多くの産業のロックを解除する大きな可能性を持っています。例えば、私たちが知っている多くのエージェント開発者は、ヘルスケアプロセスを支援するAIエージェントを構築しています。診断など危険な可能性のあるものではなく、書類処理や保険文書の読み取りなどです。
これは必ずしもクラウドに置きたくない情報です。オープンEE^A^があなたの電話番号で訓練しているかどうか分からないからです。または顧客の健康データを漏洩させているかもしれません。
ローカルで実行したい理由はたくさんあります。Agent Opsでも、これに多く焦点を当てています。データをクラウドに送りたくないユーザーのために多くのツールを作ろうとしています。基本的に、これらのエージェントシステムで何が起こっているかを追跡し、理解し、管理しやすくします。データをサードパーティプロバイダーに売り渡す必要はありません。」
「それは素晴らしいですね。多くの需要があります。様々な分野や種類の企業が、オープンEE^A^のようなものを使いたいけれど、共有したくないという状況です。マイクロソフトのAzureにオープンEE^A^ Azureがあることは知っていますが、それでもローカルで実行するのと同じではありません。ローカルで実行する方が常に良いでしょう。インターネット経由で送信さえしないのですから。
あなたが言ったように、オープンEE^A^は API トークンでトレーニングしないと約束していますが、他の目的で使用している可能性があります。新しいモデルのトレーニングだけでなく、他にもできることがたくさんあります。そのようにデータを使用されたくない場合は、別のソリューションを探す必要があります。」
「一つ言及したいのは、クラスターやスーパーコンピューターなどの特殊なコンピューティングについてです。ビットコインは美しい例です。プルーフオブワークを解決するために最適化された ASIC マイナーがありますが、他のことにはほとんど役に立ちません。
そうですね、おそらく私は同意します。AI推論やAIトレーニング、ビットコインなど、一つのことのために作られたスーパーコンピューターは持っていないでしょう。そして、汎用ハードウェア、つまり私たちが使っているコンピューターは、何でもできるようになるでしょう。」
「多くのハードウェアプロバイダーが、ML計算用に特別に設計されたチップを専門にしています。例えば、Groq という本当に興味深い会社があります。多くの人が聞いたことがあるでしょう。イーロンの Grok と混同しないでください。
Groq は、大規模言語モデルで使用される計算用に特別に設計された、非常に高速なチップを作っています。もう一つ興味深いチップを作っている会社は Extropic です。彼らはサーマルコンピューターと呼ばれるものを作っています。エネルギーベースのモデルと呼ばれるものを使用し、実際に温度が自己調整する物理学を利用して、バイナリ計算を使用するよりも速く、より効果的に確率分布からサンプリングし、計算を行います。
これらの種類のコンピューターは、私たちが電話やコンピューターでアプリケーションを実行するのと同じような汎用アプリケーションはないかもしれませんが、機械学習に特化したアプリケーションを持つでしょう。
Web3の世界や暗号の世界でASICがそうだったように、機械学習や深層学習モデルを実行するための特別なチップがたくさん出てくるのを見ることになるでしょう。」
「先ほど、経済的な進歩があると、主に資産を所有する人々に流れ、社会の底辺にいる人々にはあまり流れないと言及しましたね。歴史的にはそうではないという傾向がありますが、短期的には確かにそうです。
例えば、コロナの時に見られました。小さなレストランやジムは苦戦していましたが、テクノロジー株を所有していた人は全員幸せでした。株価が爆発的に上がったからです。
質問です。『賢い者はより賢くなる』という概念について、あなたはどう思いますか?AIの最先端にいる人々が、さらに先に進むと信じていますか?彼らはエージェントを使用し、2時間の作業を自動化し、それを他のことに使えるからです。彼らはプロンプトが上手いので、LLMからより多くを引き出せます。
賢い人がより賢くなり、AIの最先端にいる人と、AIを無視している人との間のギャップがさらに広がると信じていますか?」
「私は経済史から見て根本的に楽観的です。賢い人がより賢くなるということには同意しますが、みんなが恐れているのは、K字型の分岐です。賢い人はより賢くなりますが、貧しい人はある意味で悪化します。何かを失っているからです。
しかし、大まかに言えば、技術進歩の歴史を見ると、常に民主的でした。それは常に、最も価値を得られる人々にもたらされました。実際には最も賢い人々ではなく、最も貧しい人々が平均して最も価値を得ています。
そのため、これらの技術を開発するとき、おそらく誰もの利益になる方法で行っていると楽観的に考えるべきだと思います。悪意を持って使用し、物事を盗むような方法で使用すれば、確実に人々を傷つけるでしょう。しかし、それについては意図的でなければなりません。
人間について素晴らしいのは、私たちは多くの恐ろしいことができますが、お互いのために働くということです。これはアダム・スミスの言葉に戻りますが、私たちは自分のために働きますが、そうすることで他の全ての人をより良くするのです。」
「しかし、多くの人々はこれを理解していません。あなたと私には明らかですが、何百万、何千万もの人々が、お金持ちは悪だという概念を根本的に理解していません。製品やサービスを提供し、他の人々がそれを買うことでお金を得るということを理解していません。」
「それは深い哲学的なものですし、かなり議論の余地があると思います。この考えはスコットランド啓蒙時代にまで遡り、アダム・スミスのような思想家たちは基本的に、取引が私たちをより豊かにすると言いました。
経済史の大部分で、経済学者たちは国家間の取引が国家を貧しくし、孤立した自給自足の方が良いと考えていました。しかし、真実は、デビッド・リカードのような経済学者が登場し、比較優位と国際貿易を通じて、平均して世界を全員にとってより豊かにすると言ったのです。
この技術についても同じように考えるべきです。全てを自分たちのために蓄えることは理にかなっているかもしれませんが、実際に他の人々と関わり、これを共有することで、取引や正当な取引を行うことで、全員に利益をもたらします。
進歩が人々をより悪くすると考えるには、本当に世界に対して暗い見方をしなければならないと思います。何かが消えても、何が改善されているかを常に楽観的に見るべきです。平均して、そして歴史的に見て、人々は単に利益を得るのです。」
「そうですね。あなたは全員と共有すると言及しましたが、これはオープンソースの話題につながります。オープンソースについてどう思いますか?AIが良くなるにつれて、より開かれたものにすべきだと思いますか?それともより閉じたものになるべきだと思いますか?
オープンソースは、大まかに言えば、より広範な目標を達成しようとする企業にとって、多くの異なる成長戦略を可能にすると思います。例えば、Mistralはオープンソースを目指していますが、それはオープンソースでお金を稼ごうとしているわけではありません。より大きな企業が特殊で大規模なモデルを求めるときに、アップセルできることを知っているからです。
基本的に、オープンソースモデルはサンプルのようなものです。ある程度まで到達させますが、Mistralは90%から95%、100%まで引き上げる内部知識を持っています。
オープンソースモデルについて多くの人が考えているのは、潜在的に危険な可能性のある方法での知識です。これはオープンAIの周りで多く聞かれる言説です。あまりにも多くの人が非常に急速に技術にアクセスすると、問題のあるシステムにつながる可能性があるというものです。
私の予測はこうです。AI以前の古い世界では、伝統的なサイバーセキュリティがありました。攻撃者であるレッドチームと、防御者であるブルーチームがいました。レッドチームは必ずしも良い人々ではありませんでした。時には北朝鮮政府でした。ソニーを倒したりXboxを倒したりするハッカーでした。特にゲームコミュニティで顕著でした。彼らは単に混乱を引き起こすために存在していました。
しかし、課題は攻撃者に力を与えすぎないようにすることです。そのためには防御者に投資することです。現在、私たちは非常に堅牢なサイバーセキュリティ産業を持っています。
以前言及しなかったのですが、私はキャリアをサイバーセキュリティで始めました。Checkpointという会社で働いていました。Checkpointはおそらく最初の企業グレードのファイアウォールでした。それ以来、多くの他の製品を生み出しました。その多くはAIと機械学習ベースです。私は機械学習研究チームにいました。機械学習分類器を使用して新しいランサムウェア攻撃を特定していました。
モデルに多くの投資をしているかもしれませんが、モデルが根本的に危険だと考えるなら、それはレッドチームになります。ブルーチームは、これらのモデルが制御不能にならないようにする方法を考えます。これらが制御不能にならないようにする多くの異なる方法や方法論があります。自分のシステムにコントロールを作ることです。チェックを作ることです。人間がこの種のものに遭遇する準備ができていることを確認することです。
これは、実際に最も成長を見るだろう産業だと思います。はい、モデルは非常に急速に、非常に強力になるでしょう。しかし今は、潜在的なリスクに対してどのように防御するかを実際に考える時です。そこで多くの産業が現在成長しています。
Red Coatという非常に興味深い会社を知っています。基本的に、AIを使用して会社に侵入しようとします。基本的にGPTを使用してソーシャルエンジニアリングの試みを行い、そうした会社の中で知識のないユーザーを見つけます。そして彼らを捕まえると、AI対策トレーニングプログラムを受けさせ、自分でAIを検出する方法を学ばせます。
これらは、私たちが考え始める必要があるプログラムの種類です。攻撃者がこれらのツールを手に入れるだろうと考え、防御者をどのように準備するかということです。これは大きな産業機会です。」
「そうですね。例えば、良い側に100倍や1000倍のコンピューティングパワーがあれば大丈夫だと思いますか?人々は明らかに生物兵器などを恐れています。誰かが特定のグループを標的にできる病原体を作成できたら、どうでしょうか?もし私たちが大規模に補償し、治療法や、これを防ぐことができるタンパク質や他のものに1000倍のコンピューティングパワーを使えば、問題は解決すると思いますか?
悪意のある行為者がアクセスを持つ問題は、サイバーセキュリティと同じように、良い側にはるかに多くのリソースを投入することで解決できると思いますか?」
「これは歴史的に最も効果的だったものだと思います。常に攻撃があり、常に攻撃者がいるでしょう。これは避けられない常数です。しかし、私たちが投資する必要がある二つのことは、Aの保護とBの修復です。
サイバーセキュリティで働いていたとき、多くの時間を費やしたのは、会社がAのサイバーポスチャーに投資する準備をすることでしたが、Bは避けられないことが起こったときにどのように対処する準備をするかでした。
多くの会社、例えばエネルギー会社、石油、天然ガス、さらには原子力を扱っていました。ハッカーがあなたの原子力発電所を乗っ取り、それについて何もできない場合、このシナリオで世界がどのように準備できるかを考えます。
多くのチェックを持つことです。基本的に大きなチェックリストを持ち、『OK、攻撃者が原子力発電所にアクセスしました。次は何?』と考えます。PR対応を知ることです。『すべてコントロール下にあります』と言うことです。適切な人々に通知することです。ブリーチコーチを持つことです。適切な保険文書を準備することです。
基本的に、AIはハリケーンのようなものだと想像してください。しかし、フロリダの素敵なビーチに住むことも可能にします。フロリダは常にハリケーンに襲われています。ハリケーンがあるからといって、ビーチに住みたくないわけではありません。災害が起きたときに準備ができているかどうかです。
多くのこれは、正直に言って人間のコントロールについてです。適切な保険方針を持つこと、災害緩和の準備ができている適切な人々を持つことについてです。
人々が大好きな素晴らしい答えではないかもしれませんが、真実は、私たちは常に災害に対処しています。差し迫ったAI災害があるかもしれませんが、それは伝統的にサイバーセキュリティや通常の保険、通常の災害で対処するのと同じ方法で準備することです。」
「哲学的には、すべてをオープンソースにする方向に傾いているように聞こえます。」
「すべてをオープンソースにすることは、防御者にとって簡単になると思います。攻撃者にとっても簡単になるかもしれませんが、防御者には彼らが必要とする弾薬を与える必要があります。彼らにリソースを与えなければ、はるかに難しくなるでしょう。」
「同意します。コミュニティメンバーからのもう一つの質問です。GPT-5はどれくらい良くなると思いますか?特にAIエージェントに関してはどうでしょうか?」
「GPT-5は2023年6月にリリースされるという噂が最初にありましたが、それは否定されました。今はほぼ6月の終わりですからね。編集で1ヶ月後になっているかもしれません。
GPT-5が持つと想像されるのは、より複雑なマルチモーダル能力です。オープンAIが話していた興味深いヒントの一つは、オープンAIがリリースするモデルには二つのクラスがあるということです。基本の数字があります。GPT-3を基本、GPT-4を基本と考えることができます。そして半増分があります。3.5と4.5です。
基本モデルのGPT-3は独自のクラスで、3.5は実際には4に近く、4.5は5のベータ版のようなものです。このように考えることができます。GPT-5で起こることはすべて、すでにGPT-4.5でヒントが与えられています。これは基本的に基本線の拡張です。
より長いコンテキストウィンドウ、より速い推論、マルチモダリティ、GPT-4で見たすべてのものです。GPT-4.5では1208のコンテキストウィンドウを見ています。これは基本的に、さらに長いコンテキストウィンドウを見ることになるというヒントです。
GPT-4 Visionも見ています。そのビジョンは大きな要素になるでしょう。そしてOmni、つまり音声も要素になるでしょう。確実にマルチモダリティと非常に大きなコンテキストウィンドウです。
ベンチマークを見れば、標準的なベンチマークでのパフォーマンスがはるかに高くなるでしょう。」
「多くの人がベンチマークという言葉を好まないのは、特に研究所で働いていない人々にとっては、『すごい、MLUでより良くなった』と言われても、『それが私にとって何の意味があるの?』となるからです。
特に多くのAI製品デモがデモに大きく焦点を当て、製品が期待に応えられないことがあるので、実際の使用例について質問します。個人的な生活やビジネスで実際に役立っているエージェントをどのように使用していますか?」
「内部的に多くのエージェントを構築して、いくつかの問題を解決しています。例えば、アパートでパーティーを主催したとき、誰が来るのか、基本的に彼らについて少し調査したいと思いました。多くの招待された人々を本当に知らなかったからです。
そこで、実際にソーシャルメディアのプロフィールに行き、彼らに関する高度な情報を収集するエージェントを構築しました。多くの人々は招待状に本名を記載していませんでしたが、私は彼らのInstagramやTwitterを見つけ、『ああ、この人を知っているのは、誰々とつながっているからだ』と理解することができました。このような単純なことが私の生活を大いに助けています。
多くのコーディングエージェントも使用しています。Vercelのv0を使用して多くのReactコンポーネントを書いています。また、Cursorを使用してコードスニペットを書いています。
Agent Opsで内部的に常に使用しているエージェントの一つは、実際には競合他社のエージェントです。ウェブサイトを与えると、ウェブサイトからすべての情報をスクレイピングし、その情報の要約された表を作成し、その表を私たちのCRMに保存します。
そうすることで、最新の情報のリストを持つことができます。また、CRMをチェックして、重複エントリーでないことを確認します。重複エントリーの場合は表を更新します。これは、物事を最新の状態に保つためのかなりスマートな方法です。」
「Hopspotのダルシュが同様のものを構築しなかったでしょうか?彼がagent.というドメイン名を所有していて、最初に立ち上げたエージェントがまさにそのような会社調査エージェントだったと思います。」
「素晴らしい点は、構築にそれほど時間がかからなかったことです。1日もかからず、いくつかのコードを組み合わせただけです。基本的に自分で操作するのに十分賢かったのです。
agent.AIやHopspotなどの開発者たちの利点は、配布を非常に簡単にすることです。私たちの配布は実際にはかなり難しかったです。これはクラウドで実行していたローカルサーバーで動作していて、Slackbotに接続していました。実際に多くの配線作業をする必要がありました。
アクセシビリティの部分が、エージェントが本当に輝く場所です。WhatsAppやDiscord、iMessageなど、他のアプリでエージェントにアクセスできることを想像してください。そこに大きな利点があります。技術が明らかに良好である必要がありますが、配布が鍵となります。」
「そうですね、ここで大手テクノロジー企業が圧倒的な優位性を持っています。20億人にアップデートを配信できれば、スタートアップがそれと競争するのはどうやってでしょうか?」
「大企業は配布を持っており、多くの理由で最高の配布パートナーになる可能性が高いです。例を挙げましょう。私たちは実際にChat OCRというGPT-4プラグインを立ち上げました。これはGPTにプラグインストアがあったときのことで、今はGPTストアになっています。
私たちは最初の100のプラグインの1つで、画像が含まれたPDFを読み取ることができる唯一のものでした。この自然な配布メカニズムがあったおかげで、多くのお金を稼ぐことができ、4万人以上のユーザーが私たちのプラグインを使用しました。
この配布戦争でどうやって勝ち、競合他社に食われないようにするかを考えると、正直難しいです。なぜなら、競合他社は通常、最高の配布者を食べてしまう動機があるからです。例えば、Zendesk には多くの AI カスタマーエクスペリエンスとカスタマーサポートのプラグインがありましたが、Zendesk は自分たちで作ってしまいました。
別の戦いで戦わなければならないかもしれません。そうしないと、彼らに食べられてしまう可能性があります。」
「AI エージェントの未来について描いてください。それを見ていない人々のために、1年後、2年後にどこにいるのかを描いてください。もちろん、タイムラインの予測は無視してください。ただ、AI エージェントの約束、私たち全員がエージェントのチームを持って働くことについて、あなたが興奮していることは何ですか?そして2つ目の部分は、なぜ私たちはまだそこにいないのでしょうか?」
「AI エージェントはコンピューティングにおける次の大きなパラダイムシフトです。現在、私たちには2つのモデルがあります。API と開発者です。現在、開発者が API から情報を要求し、それが基本的な物事の流れです。
しかし今、エージェントという新しいモダリティがあります。エージェントが API からデータを要求し、開発者がエージェントからデータを要求し、エージェントがエージェントからデータを要求し、エージェントが開発者からデータを要求する、というように考えることができます。
この全く新しいコンピューティングのモダリティは、世界で行える完全に自律的な操作の数を大幅に増やします。エージェントが自分で解決方法を見つけ出すことができるため、これまでに存在しなかったデータシンクとデータソースを作成できるようになります。
全く新しいプログラムを作成できます。エージェントは自分でプログラムを作る能力があり、自分で問題を解決する能力があります。基本的に、「このウェブサイトに行って、私のためにデータを推測してほしい」と言うだけで、エージェントはその問題をどのように解決するかを理解し、すべて自分で行います。もはや開発者は必要ありません。
任意の API を与えれば、これまでにない方法で API から情報をキュレートすることができます。人間ができることは基本的にすべて、エージェントができると考えてください。それがウェブ上にあれば。
そして間もなく、電話をかけたり、メールを送ったり、人間に指示を出したりする能力を与えれば、非常に強力になります。単純な仕事で、人間の代わりにエージェントがあなたに指示を出すかもしれません。これは非常に興味深く、非常に強力です。」
「人々がどのように反応するかを見てみましょう。まだこの側面に関しては、多くのネガティブな制限的な信念がありますからね。しかし、あなたが言ったように、それは起こるでしょう。避けられません。」
「多くの人々はこれに気づいていませんが、おそらくすでにエージェントから指示を受けているでしょう。典型的な例を挙げましょう。200以上の Airbnb 物件を AI エージェントで管理している開発者を知っています。
ユーザーがリクエストや苦情を持っている場合、「鍵がかかっています」「Wi-Fi のパスワードが必要です」「水をもっと送ってください」などと言うと、エージェントがすべてのリクエストを管理します。エージェントは「掃除のリクエストがあります」と言って、清掃員に電話をかけ、エージェントの音声を使って WhatsApp メッセージを送信したり電話をかけたりします。
清掃員が来て、すべてがこのエージェントシステムを通じて調整、管理されます。ユーザーは実際には人間ではない相手と話していることに気づきません。メッセージを送信してから返信を受け取るまでの時間遅延を、人間が書いているように見えるほど長くしているからです。
非常に強力で、多くの人々が現在システムと対話していることに気づいていません。」
「将来的には逆転すると思います。現在、ほとんどの人は人間と話していないことを知ったら怒るでしょう。しかし、将来的にはエージェントの方が人間よりも能力が高く、より有能になるでしょう。『なぜ人間と話しているの?エージェントに解決してもらおう』となるでしょう。」
「私たちはすでにこれを目にしています。Clara というスウェーデンの後払い会社があります。彼らは顧客サポートシステムをエージェントに切り替えることで、年間 4000 万ドルを節約しています。それだけでなく、エージェントを使用するユーザーは、以前の人間よりも高い顧客満足度評価を得ています。
多くの人々が実際にエージェントを好むようになると思います。」
「彼らは知らないときにエージェントを好むのです。もちろん、将来的には変わると思いますが、現在、ほとんどの人にアンケートを取って『人間と話したいですか、それともエージェントや AI と話したいですか』と聞けば、人間を選ぶでしょう。Clara のすべてのデータ、すべての顧客満足度調査でエージェントの方がはるかに良いパフォーマンスを示しているにもかかわらずです。」
「私たちは『人間』という名前のエージェントを出すかもしれません。そうすれば、人々が気づかなければ...それはより良い方法かもしれませんが、私はそうは思いません。
顧客サポートで最大の課題は、人間を求める理由が、人間がスクリプト化されていないからだということです。人間は実際にツールを使用でき、例外を作ることができます。多くのこれらの図式ベースのワークフローメカニズムでは答えられない質問に答えることができます。
AI エージェントにこれらの種類のワークフローにアクセスする能力を与えれば、それが非常に強力になり、私たちが本当にそれらを好むようになる時です。」
「そうですね。例えば、ロボコップのような警察官ロボットを考えてみましょう。例外を作るべき状況があります。しかし、純粋に if-then 文や現在の LLM だけだと、ただルールに従うだけになります。倫理や道徳性によって人間の警官が例外を作るような状況で、ロボット人型ロボットはおそらく例外を作らないでしょう。それは明らかに人々を怒らせるでしょう。」
「Agent Ops に関連する質問で締めくくりましょう。あなたの夢の投資家や顧問は誰ですか?難しい質問ですね。」
「私たちの夢の投資家...まず、私たちにはすでに夢の投資家がいます。しかし、エージェントのワークフローによってすべてが揺さぶられようとしていることを本当に理解している人たちです。
多くの人々は、この分野に勝者はいないと考えているようです。唯一の勝者はコンピューティングプロバイダーになると考えています。しかし、真実は、これらのエージェントが私たちの日常生活に入ってくる方法は、高いレベルからは理解しにくいのです。具体的なユースケースに入ると、実際に『ああ、これらの人々はエージェントで大金を稼いでいる』と分かります。
将来を本当に理解し、それがどこに向かっているのか、そして多くのことが今後自律的になっていくことを理解している人たちです。単にコパイロットだけでなく、本当に完全に自律的なものになるのです。
この使命を本当に理解し、信じている人なら誰でも、私たちにとって夢のアドバイザーであり投資家です。特に、これによって解決できるニッチなユースケースのアルファと理解を持っている人たちです。
私たちは創造的な人を探しています。私は、最大の付加価値は、シリコンバレーの人々が聞いたことのない分野をよく理解していることだと思います。船舶は素晴らしい例です。機会を見て、それが提供できるギャップも見ることができる人たちです。
つまり、2つのこと、将来を信じることと、適用できる応用分野を見つけるのに十分創造的であることです。」
「質問を少し変えましょう。もし最も尊敬し、憧れる人を一人選ぶとしたら、誰ですか?」
「ああ...有名なデータサイエンティストで、私が大ファンの人がいます。彼は私が根本的に信じているすべてを捉えていると思います。この分野について考える彼のアプローチは...彼の名前はジェレミー・ハワードです。
彼はデータサイエンスの最も大きな名前の一人で、哲学のバックグラウンドも持っています。問題を非常に深い科学的な視点から考えるアプローチは、物事を見る非常に新鮮な方法です。
彼はまた、過去にいくつかの信じられないほどの会社を立ち上げています。そして、AI システムを全般的に測定し、考える方法についても非常に深く考え始めていると思います。
彼はおそらくこの分野で最高の思想的リーダーの一人になるでしょう。」
「多分彼がこれを見て、Agent Ops に投資したり、あなたに連絡してくれるかもしれませんね。ジェレミー、あなたは最高です。たとえ承諾しなくても、あなたは依然として最高です。」
「アレックス、時間を取ってくれてありがとうございます。素晴らしい議論だったと思います。Agent Ops で行っていることは非常にスマートだと思います。一つのフレームワークではなく、ツールを売る戦略を取っています。一つのものに賭けるのではなく、分野全体に賭けています。これは正しい戦略だと思います。
再度、時間を取ってくれてありがとうございます。この会話を楽しみました。」
「私たちは、アプローチをベンチマークするのではなく、市場をベンチマークするという考えが大好きです。AI エージェントやエージェントシステムを開発したい人は誰でも、喜んで話し合います。非常にオープンな Discord があり、多くの興味深い質問をし、多くの興味深い議論をしています。
自分のエージェントをチャットしたり構築したりするのに助けが必要な人がいれば、私に連絡してください。Twitter や Discord で非常に利用可能です。喜んで話し合います。デビッド、これは素晴らしかったです。ありがとうございました。」
「それらのリンクはすべて説明欄にあります。Agent Ops や Discord、GitHub をチェックしたり、Twitter でアレックスをフォローしたい場合は、ビデオの下にリンクがあります。
再度、視聴してくださってありがとうございます。素晴らしい一日を。

この記事が気に入ったらサポートをしてみませんか?