見出し画像

6,000億ドルのAIの波...ソフトウェア3.0

100万ドルを稼ぐ方法と、100万ドルから10億ドルに成長する可能性のある方法があります。世界には何億もの中小企業があり、ビジネスは基本的に数回のタップで自社のAIエージェントを立ち上げることができます。私は、将来的にすべてのビジネスが、今日のメールアドレスやウェブサイト、ソーシャルメディアのプレゼンスと同じように、顧客が話しかけることのできるAIエージェントを持つようになると考えています。そして、私たちはそれを可能にしたいと思っています。
AIに大きな機会があることは常に分かっていたけれど、どうやってそれを活用すればいいのか分からなかったという人には、このビデオが参考になるかもしれません。私が話しているのはソフトウェア3.0です。少し変に聞こえるかもしれませんが、ちょっと説明させてください。というのも、起業家の方や自分でビジネスを始めたいと思っている方、あるいはAIの最先端にいたいと思っている方にとって、これは私たちの人生で最大のチャンスかもしれないからです。
簡単に説明すると、これはアンドレ・カーパシーという元OpenAIの非常に尊敬されているAI研究者の言葉です。日付に注目してください。これは2017年末の話です。彼はソフトウェア2.0について話しています。それは何でしょうか。古典的なスタックがソフトウェア1.0です。それは私たちが一般的にソフトウェアと考えているものです。コードで、Pythonや C++などの言語で書かれ、プログラマーが書いた明示的なコンピューターへの指示で構成されています。基本的に人間です。人間がコンピューターに何をするか明示的に指示しているのです。文字通り、1文字ずつタイプして、各行のコードを書くことで指示を与えています。プログラマーは、望ましい動作を持つプログラム空間の特定のポイントを識別します。つまり、私たちはコンピューターに何かをしてほしいのです。私たちはこの物事に何かをしてほしいのです。私たちは各行のコードを書くことでそれを実現します。彼は特にそこでその用語を使っています。各行のコードを書くということです。それは重要です。
では、ソフトウェア2.0とは何でしょうか。想像できますか。アンドレ・カーパシーは、ソフトウェア2.0は人間にとってはるかに抽象的で不親切な言語、例えばニューラルネットワークの重みで書かれていると言っています。人間がこのコードを書くことはありません。なぜなら、多くの重みがあるからです。典型的なネットワークには何百万もの重みがあるかもしれません。これは2017年に書かれたものなので、今日ではもっと多くなっているかもしれないと想像できます。重みを直接コーディングするのは難しいです。彼は試しました。これはニューラルネットワークの外観です。ニューロンは重みで接続されています。これらは線です。これは人間の脳にやや似ています。私たちにもニューロンがあり、そしてそれらのニューロン間の接続があります。それらはより頻繁に使用されるとき、つまり何かが起こることを予測するときに、より強く結合します。それがパブロフの犬の全体、ベルへの反応でした。
時間が経つにつれて、私たちが何かを嗅ぐと、つまり私たちの脳の匂いを捉える部分が、例えば犬の場合、唾液分泌によって反応できるようになります。なぜなら、特定の匂いがおいしい食べ物があることを意味するという神経接続を形成したからです。しかし、ベルを鳴らしても、犬は反応しません。ベルが食べ物を意味するという神経接続はありません。でも、時間をかけて食べ物を与え、ベルを鳴らし続けると、ベルが鳴ると唾液を分泌し、食べ物がもらえると思うようになります。オフィスのあのエピソードで、ジムがドワイトにベルが鳴るたびにブレスミントをあげていたのは、まさにそのことでした。
ニューラルネットワークもそのような仕組みです。これらすべての接続が何らかの結果を生み出しますが、私たち自身でプログラムするわけではありません。アンドレ・カーパシーの言葉を借りれば、私たちのアプローチは、何らかの目標や望ましい行動を指定することです。例えば、囲碁の試合に勝つとか。そして、アンドレが言ったように、コードのラフなスケルトン、つまりニューラルネットのアーキテクチャーがあります。そして、そのニューラルネットワークは勾配降下法、バックプロパゲーションを使用してトレーニングされます。ここで起こっていることを理解するために深く掘り下げる必要はないので、詳しくは説明しません。
ところで、もっと詳しく知りたい方には、アンドレ・カーパシーの最新の取り組みをお勧めします。数週間前に発表されたばかりで、7月17日付けのものです。OpenAIの共同創業者アンドレ・カーパシーがAI教育のスタートアップ、Eureka Labsを発表しました。これは覚えておいてください。後で必要になるかもしれません。ただの予感ですが。
ソフトウェア1.0とソフトウェア2.0について、大きな takeaway は、これです。これもアンドレ・カーパシーのブログからのものです。この距離がプログラムの複雑さを表しています。非常に単純なものから非常に複雑なものまで。ソフトウェア1.0はここにあります。これがソフトウェアができることです。ソフトウェア1.0を人間がコンピューターにさせるためにコーディングするものと定義するなら、それがその程度です。まあ、かなりの量です。世界中がそれで動いていて、かなりのことをしていますが、ソフトウェア2.0と比べると限られています。
ソフトウェア2.0では、1行ずつタイプする代わりに、一種のプロセスがあります。それがAIのトレーニングです。ブラックボックスにしてしまいますが、そのプロセスがAIをトレーニングします。私たちが望む結果を達成するようにニューラルネットをトレーニングします。私たちは単に望む結果を言うだけです。かわいい犬の写真を作れと言えば、かわいい犬の写真を作れる脳をトレーニングします。コードを書けと言えば、コードを書くことを学ぶものを作り出す方法を見つけ出します。
これは大幅に簡略化されています。明らかに、データ、計算能力、他にも100万のことが関わっています。しかし、重要なのは、明示的に何をすべきか指示する代わりに、私たちは単に望むことを伝え、それが望むことを行うものを作り出すということです。つまり、私たちは一種の層を取り除いたようなものです。
さて、ホットショット君、ソフトウェア3.0はどのようなものに見えるでしょうか。私たちが話している観点から、次の進化はどのようなものでしょうか。これが明示的な指示であり、これが私たちが望むことを伝え、それが望むことを行うものを作り出す方法だとすれば、次の進化はどのようなものでしょうか。3.0はどうでしょうか。
最後にこれを付け加えます。1年前には、このものが存在することさえ明らかではありませんでした。それが私たちに利用可能になるとは明らかではありませんでした。アンドレがこのブログ投稿のどこにもソフトウェア3.0について言及していなかったことを覚えておいてください。それは2017年のことでした。その時点では、この全体がどのように展開するかさえ明らかではありませんでした。
さて、この時点で、あなたは「じゃあ、ソフトウェア3.0って何なの?教えてよ」と思っているかもしれません。まず、マーク・ザッカーバーグが最新リリースのLlama 3.1について話しているのをご覧ください。GPT-4レベルのオープンソースAIの巨人です。そのインタビューを見たことがある方は先に進んでください。ビデオチャプターを設定してあるので、次の部分にスキップできます。見たことがあってもなくても、彼が言っている、彼がリリースした大きな悪いモデル、彼が教師モデルと呼んでいるモデルで何を構築することが許可されているか、何を構築できるかに特に注目してください。
私は、特に今、私たちがLlamaをめぐるコミュニティポリシーを変更して、人々がそれを教師モデルとして使用し、蒸留や微調整を行い、基本的に他のどんなモデルでも作成できるようにしていることで、人々が何をするのか本当に楽しみです。
そして、ここでもう一つ短いクリップがあります。彼は、人々がこれらのオープンソースモデルを使用してエージェントなどを作成した場合の最終的な結果について、彼が信じていることについて話しています。彼は、すべてがベースのLlamaモデルの上で動作する、いわば1つのモデルですべてを支配するようなものについて話しているのでしょうか、それともそれ以上に断片化されているのでしょうか。
私たちは、世界で最も高度なモデルを構築し、それを誰もが無料で利用できるようにするという能力とビジネスモデルを持っていると思います。それは大きな利点だと思います。私たちのすべてのアプリから非常に簡単に使用できます。だから、それがどのように進んでいくのかについて、私はかなりワクワクしています。はい、私たちは基本的なアシスタントを持っています。そして、それは大きな出来事になると思います。しかし、それ以上に、私たちが焦点を当てているのは、すべてのクリエイターとすべての中小企業に、自分たち自身のAIエージェントを作成する能力を与えることです。私たちのプラットフォーム上のすべての人が、自分が対話したいAIエージェントを作成できるようにすることです。
考えてみれば、これらは巨大な分野です。世界中に何億もの中小企業があります。私が本当に重要だと思うことの1つは、基本的に比較的少ない労力で、ビジネスが基本的に数回のタップで、自分たちのためのAIエージェントを立ち上げることができるようにすることです。そのエージェントは、カスタマーサポート、販売、すべての人々、すべての顧客とのコミュニケーションを行うことができます。私は、将来的にはすべてのビジネスが、今日のメールアドレスやウェブサイト、ソーシャルメディアのプレゼンスと同じように、顧客が話しかけることのできるAIエージェントを持つようになると考えています。そして、私たちはそれをすべての人々に可能にしたいと思っています。それは何億、おそらく何十億もの中小企業のエージェントになるでしょう。
クリエイターについても同様です。私たちのプラットフォームには2億人以上のクリエイターがいます。彼らは基本的に私たちのプラットフォームを使用して、主にコミュニティを構築し、コンテンツを発信しています。それは彼らの仕事の一部のようなものです。そして、彼らはみな、1日の時間が足りないという基本的な問題を抱えています。彼らのコミュニティと望むほど関わることができません。同様に、彼らのコミュニティも一般的に彼らの時間をもっと欲しがっていますが、1日の時間が足りません。
だから、私はこれが大きな unlock になると思います。基本的に、すべてのクリエイターがソーシャルメディアからすべての情報を取り込み、これらのシステムを彼らの価値観やビジネス目標、彼らが達成しようとしていることを反映するようにトレーニングすることができ、そして人々がそれと対話できるようになります。それはほとんど、クリエイターが作成する一種の芸術的な人工物のようなものになり、人々はそれと様々な方法で対話することができます。
そして、それは人々が自分自身のために様々なAIエージェントを作成して、異なることを行うことができるようになる、すべての異なる方法についてさえ触れていません。だから、私たちは最終的に何億、何十億もの異なるAIエージェントがある世界に住むことになると思います。おそらく世界の人口よりも多くのAIエージェントが存在することになるでしょう。そして、人々はそれらと様々な方法で対話することになります。
それが製品ビジョンの一部です。明らかに、そこには多くのビジネスチャンスがあります。そこで私たちはお金を稼ぎたいと思っています。私たちはモデル自体へのアクセスを販売することでお金を稼ぐつもりはありません。なぜなら、私たちはパブリッククラウド企業ではないからです。私たちは最高の製品を構築することでお金を稼ぐつもりです。最高の製品の重要な要素は、最高のモデルを持つことです。オープンソースの周りに最高のエコシステムを持つことが、それを達成するのに役立ちます。
だからこそ、これはすべて私たちにとって整合性が取れているのです。そして、これが最終的に私たちにとって本当に価値のあるものになると思うのです。私たちが構築できる最高品質の製品を構築し、このオープンソースコミュニティを構築することで最高のビジネス結果を得ることができます。しかし、それはまた、すべてが哲学的に整合性が取れている理由でもあります。私たちは、誰もが使用する1つの大きなAI、それが製品であれモデルであれ、が存在するとは考えていません。私たちは基本的に、この幅広い多様性と異なるモデルのセットがあると信じています。そして、すべてのビジネスや人々が、自分たちで作成する多くの独自のものを望むようになると思います。私はそれが興味深いものになると思います。それがこれを興味深いものにする多くのことの1つになると思います。
これはサラ・グーです。彼女は最近、「マイ・ファースト・ミリオン」ポッドキャストに出演し、彼女が非常に興味を持っているスタートアップとAI分野について議論しています。彼女は非常に具体的な投資テーゼ、つまりAIスタートアップで本当に進展をもたらすと彼女が考えているものを持っています。そして、ここで彼女はソフトウェア3.0とは何かを説明しています。聞いてみましょう。
私は、次のレベルの価値と影響は間違いなく、特定の声に微調整することになると思います。
あなたの包括的な投資テーゼは何ですか。あなたはソフトウェア3.0というものを持っていますが、ソフトウェア3.0とは何ですか。
はい、そうですね。ソフトウェア3.0というフレーズの種は、実際には数年前にアンドレ・カーパシーがソフトウェア2.0について書いたエッセイから来ています。基本的な前提は、機械学習以前の世代では、多くのソフトウェアを手作業で書かなければならなかったということです。そして、ソフトウェア2.0、アンドレはテスラで働いていて、オートパイロットに取り組んでいましたが、それは本当にデータセットのラベリングについてでした。機械学習モデルに新しいタスクを行う方法を教えるために、パイプラインに入れるデータを選択することについてでした。
ソフトウェア3.0は、次世代のソフトウェアの多くが基礎モデルを操作することについてのアイデアです。それらは基礎モデルと呼ばれています。なぜなら、それらは最初から多くの能力を持っているからです。それらをゼロからトレーニングする必要はありません。ただガイダンス、強化、あなたのビジネスに特化した情報を与えるだけでいいのです。
例えば、ショーンが彼のリードキャプチャのインテークフォームの音声について話していたように、彼はモデルをトレーニングする必要はありません。そのソフトウェアアプリケーション、音声エージェントはソフトウェアアプリケーションですが、そのためのデータを収集する必要はありません。ただ、それが彼のスケジューリングシステムと候補者のデータベースに接続されていることを確認し、ビジネスに関する正しい情報を取得し、特定のトーンで一貫して顧客に応答できるようにする必要があるだけです。
そして、それは人々、研究所がニッチと考えるかもしれない、すべてのこれらの使用ケースに役立つ何かになるために、基礎モデルを操作することについてのものです。世界は非常に大きなニッチで構成されています。だから、私はこれが起業家にとって、そして私たちにとって本当に大きな機会だと思います。
ちなみに、これはこのアイデアに投資している唯一の投資家やファンドではありません。a16zもAIと交差するいくつかの分野に大きく賭けています。ゲーム、アプリ、インフラストラクチャ、成長などです。彼らは、例えばAIと金融が交差する分野、そしてゲーム、ヘルスケアなどにも非常に興味を持っています。
しかし、私たちの元の質問に戻りましょう。1.0が私たち人間がコンピューターに望むことをさせるためのコードを作成することであり、2.0が私たちがこの種のプロセスに望むことを伝え、それが私たちが望むことを行うAIのニューラルネットの脳を作成するという考えだとすれば、私には3.0がその次の反復として見えます。このAIの脳、例えばそれが大きな基礎モデル、Llama 3.1、4050億パラメータのモデルだとしましょう。これはトレーニングや作成に非常にコストがかかりますが、オープンソースで非常に優れています。また、少し扱いにくく、ラップトップで実行することはできません。しかし、あなたはそれをあなたのビジネス、個人生活などのために100万の異なる使用ケースで使用したいかもしれません。
私たちがこの種の教師モデルでできることは、それを使用して合成データを作成し、私たちの特定の使用ケースに合わせてカスタマイズされた小さなモデルをトレーニングすることです。この大きなものがその考えをボトルに詰め、小さなモデルのためのある種のトレーニングセットを作成します。カスタマーサービスを実行したり、宿題を手伝ったり、カレンダーを管理したり、テキストメッセージに答えたり、その知能が役立つかもしれないあらゆることのための小さなモデルです。
これは、マイクロソフトのOrca 2の背後にある研究が早い段階で示したものの一種です。私たちは、この大きな、扱いにくい、高価なモデルを取り、そこからある種のデータセットを作成し、その上に小さなモデルをトレーニングすることができます。そして、このモデルはそのことを行うのに非常に効果的です。
これをソフトウェア3.0と呼びましょう。これらの数字や何かは公式なものではありません。私たちはこれらを進めながら作り上げています。しかし、それは概念を説明するためのものです。
では、これらすべての要点は何でしょうか。基本的に、これを0%から100%の線と考えてください。これは、アメリカ、世界、あなたがいる場所のすべてのビジネスへのAIの浸透率のようなものです。現在、どれくらいの割合のビジネスが、AIで自動化できるすべてのものを自動化するために、自家製のAIを使用していますか。AIを適用できるタスクに知能を追加するために、どれくらいの割合のビジネスがAIを使用していますか。私はその数字が何かわかりませんが、それは低いです。1%と言いますが、それでさえそれほど高くないと思います。
これは、コンピューターが登場した頃と似ています。ある時点で、0%のビジネスがコンピューターを使用していました。コンピューターが良くなり、有用になり、安価になると、おそらく1%のビジネスがコンピューターを使用するようになりました。そして、時間が経つにつれて、それは100%に近づきました。今日では、ほぼ100%のビジネスが、デスクトップ、電話、マイクロチップを搭載した何らかのコンピューターを使用して、ある方法で事業を運営しています。
私たちは、AIでも同じことが起ころうとしているのを目撃しています。ごく一部のビジネスがこれを使用して事業を運営している状態から、次のX年間、それが5年であれ10年であれ15年であれ、その数字が100%に向かって上昇し始めるでしょう。これは、学校の生徒たち、私たちの個人的なものの多くにも起こるでしょう。
そのAIは、コーダーが1行ずつコーディングして開発されるわけではありません。また、これらの大きなAIラボがその巨大なトレーニングクラスターを使用して、これらの巨大なモデルを作成するわけでもありません。あるいは、もしかしたら小さなモデルかもしれません。重要なのは、彼らが利益の出る使用ケースのために一度作成するということです。しかし、AIが必要とされる100万の特別な仕事、特別な手作りの使用ケースがあるでしょう。
その特別な種類の、その自家製のAI、職人的なAI、何と呼びたいかはあなた次第ですが、それを開発することは、これらの大きなオープンソースモデルから作られ、トレーニングされ、作成され、微調整されるでしょう。これが私たちがソフトウェア3.0と呼んでいるプロセスの一種です。
それらは、それらのビジネスや人々の生活に、サーモスタットからセキュリティカメラの監視まで、あなたが想像できるあらゆるものにトレーニングされ、展開されるでしょう。そして、このプロセスは、おそらくコードを書くことほど技術的ではありませんし、確実にディープラーニングやニューラルネットを理解し、この種の作業を行うほど技術的ではないでしょう。
私の推測では、20年後には子供たちが、自分のポケモンを追跡するためなど、自分専用のカスタムな小さなAIモデルを作り出しているでしょう。
さて、この機会がどれほど大きいかについては詳しく説明しません。なぜなら、おそらく私はそれを過小評価してしまうでしょうし、実際、私がそれをあなたに売り込もうとすることはこの目的ではありません。あなたがそれを理解するかもしれませんし、しないかもしれません。私が正しいかもしれませんし、間違っているかもしれません。
しかし、私は以前にも言いましたが、将来、ビジネスを運営することは、あなたのFactorioの基地を管理するようなものになるでしょう。すべてがほぼ自動化され、あなたはただ異なるプロセスやシステムを微調整して、パフォーマンスを最適化するだけです。
私はそれについて間違っていたかもしれません。なぜなら、TwitterのXで文字通り、大規模言語モデルを使用してFactorioを自動化している人がいるからです。想像できますか。私はこのプロジェクトを大変興味深く追跡しています。彼はちょうど3週間の更新を投稿したところです。私はこのビデオを締めくくるために、彼が行っているこのプロジェクトを強調したいと思います。なぜなら、私はそれを endless に魅力的だと感じているからです。
彼が更新を行っている数分間、私は今すぐこれを投稿します。彼のプロフィールへのリンクを以下に残しておきます。しかし、これを見ながら、自問してください。この分野が進歩し、大規模言語モデルであれ、あるいは数年後には何か他の種類のフロンティアモデルであれ、この知能を追加することがますます容易になるにつれて、私たちが決定を下したり、何かに目を光らせたり、何かを自動化したりするのに役立つ可能性のあるところならどこでも、これらのAIニューラルネットがその特定のことを行うように訓練される可能性があるように思えます。これは、私たちの生活のあらゆる側面に存在し、私たちが行うほぼすべてのことを手伝ってくれるようになるように思えます。
どう思いますか。コメントで教えてください。私は頭がおかしいのでしょうか、それともこれはコンピューター、インターネット、携帯電話よりも大きなものになるのでしょうか。コメントで教えてください。
この大規模言語モデルでFactorioを自動化するビデオをチェックしてください。私の名前はウェスト・ロスです。視聴ありがとうございました。
皆さん、「Factorioをすべて自動化したい」というツイートを投稿してから3週間が経ちました。その間に起こったすべてについて、進捗ビデオを作るのが良いと思いました。
最初の1週間は基本的にLuaを学び、Factorioのモディングライブラリなどを学ぶのに費やしました。そして次の2週間は、このライブラリの作成に取り組みました。ツイートのGitHubリンクに行けば、このページに飛ぶはずです。ここでは、私が作成したモッドが提供する多くのリモートインターフェースを見つけることができます。
エンティティを歩いたり、エンティティを採掘したり、箱の中にものを入れたり、炉の中にものを入れたりできます。多くの機能がありますが、まだもっと必要です。現在は作業中です。誰かが私のパス探索ライブラリ、パス探索コードを修正するためにプルリクエストを出してくれました。はい、時間とともに改善されていくと思います。
このコードのインストール方法を示しましょう。基本的に、このファイル1つだけが必要です。700行ほどのFactorio用のLuaモッドです。リポジトリをクローンして、ゲームフォルダに行きます。これが私のゲームが保存されている場所です。そしてその中のmodsフォルダに行き、私が示したリポジトリをクローンするだけです。これさえあれば、通常通りFactorioを開くことができ、モッドがインストールされているはずです。
お見せしましょう。はい、新しいゲームを開始します。通常の手順で、イントロをスキップします。そして、ここのアイテムに行けば、石炭のエンティティに向かって歩くことができます。今、それをやってみます。ここで、石炭のエンティティを見つけているのがわかります。同じことを採掘にも行うことができます。
はい、これは本当にクールです。なぜなら、あなたのエージェントは実際に画面を見て、石炭がどこにあるかを探す必要がありません。ゲームをプレイする方法、ゲームに勝つ方法を考えることに集中できます。これにより、人々がこれについてエージェントを作るのがずっと簡単になるはずです。
はい、来週の計画は、多くのモデルを作成することです。これが私のゲームを攻略しようとする試みになります。ライブラリにはまだ十分なものがないことはわかっています。エージェントがプレイするためのインターフェースをさらに追加し続けるつもりです。
しかし、現在私がデータセットを作成しているのは、私が働いているスタートアップ、Glaiveです。glaive.aiです。ここで私は多くのモデルを作成しています。このモデルは、入力を取り、例えば「最も近い鉄鉱石に歩いて行きたい」というものを取り、そして必要なコマンドを出力します。
現在、私は多くのモデルを微調整しています。このモデルを今微調整できます。私は単にFを使用します。なぜなら、私の4090で簡単に実行できるからです。はい、これは現在トレーニング中です。
しかし、私には現在、微調整する必要のある多くのデータセットがあります。最終的には、これらのモデルをすべてオープンソース化して、誰もが使いやすくなるようにするつもりです。
現在これは公開されていませんが、私は多くのスクリプトに取り組んでいます。これはGroqの関数呼び出しツールを使用しています。GLも彼らと協力して作成しました。そして、基本的にFactorioに全画面表示し、コマンドボタンを押して、コマンドを入力するようなスクリプトがあります。
はい、基本的に、来週にはもっと良くなります。多くのモデルと、はい、多くのものをオープンソース化する予定です。まあ、私はただ話し続けるつもりなので、ここで終わりにします。また会いましょう。

この記事が気に入ったらサポートをしてみませんか?