先週は人工知能(AI)の分野で重要な進展がありました。これには、10万人以上のChatGPTユーザーアカウントが侵害されたデータ漏洩や、GoogleやSalesforceなどの企業からのチャットボットやAIツールに関するプライバシーの懸念に関する警告が含まれます。Xeroscope XLという新しいテキストからビデオへの変換モデルの導入、Salesforceの営業プロセスへの生成AIの導入、Midjourneyのテキストから画像への変換モデルやStability AIのAI画像生成モデルのアップデートなど、興奮するような進歩がありました。Perplexity.aiは、AI研究ツールが迅速かつ包括的な研究結果を提供する能力を示しました。DeepMindのRobocatは、素早い適応能力を持つ自己改善型ロボットを披露しました。マルチモーダル機能を備えたGPT-4が登場し、既存のAI画像解析能力を超えました。Meta AIは、高品質な多言語テキスト読み上げAIツールであるVoice Boxを発表し、そのDescript音声編集ツールとの類似点が強調されました。
公開日:2023年6月27日
※動画を再生してから読むのがオススメです。
今週も人工知能の素晴らしい1週間となったが、このビデオでは、先週起こったことのうち、非常に注目すべき15個の事柄を紹介する。
それではさっそく見ていこう。
第1位には、人工知能の開発に関してではなく、データの漏洩という点で非常に懸念されることがありました。
インディペンデント紙によると、昨年1年間で10万人以上のチャットTPTのユーザーアカウントが漏洩したという。
また、IPアドレスのようなユーザー情報を含むログが、ダークウェブで活発に取引されているとも述べている。
ダークウェブに馴染みがない人もいるかもしれないが、基本的には、漏洩したアカウントの取引やその他の違法行為など、多くの違法行為に利用されているインターネットのバージョンだ。
シンガポールを拠点とするセキュリティ企業グループIB IDが発表した最近のレポートでは、昨年1年間に不正なダークウェブで取引された101,000の漏洩アカウントが確認されている。
5月初旬のピーク時には、危殆化したChatGPTアカウントの約27,000の認証情報がダークウェブ上で取引されていた。
そして、アジア太平洋地域が最も集中してチャットGPTの認証情報が売りに出されたと付け加えた。
さて、ChatGPTは日常生活で様々な個人的なタスクを完了するために使用するのに適している一方で、時にはデータ漏洩が発生することを理解することが重要です。
OpenAIのような企業や、GoogleやMicrosoftのような大企業は、ユーザーのクレデンシャルを安全に保つ努力をしていますが、時にはこのようなデータ漏洩が起こる可能性があります。
そして、このようなことが起こった場合、あなたの個人データがインターネット上に出回っている可能性があることに注意することが重要です。
ですので、これは単なる友好的なリマインダーですが、ChatGPTに提出する情報には非常に注意してください。
そして、ChatGPTのデータ流出の続きになりますが、非常に類似したこととして、Googleは実際に、プライバシーの懸念から、自社のBardを含むチャットボットについて従業員に警告しました。
そして、これはまさに私たちが今話していたことです。
親会社のアルファベットであるグーグルは、自社のチャットボットBardに機密情報を入力しないよう従業員に警告している。
このように、AIを通じて社内の機密情報が漏れることを懸念する成長企業は数多くあります。
つまり、先週木曜日、エンジニアたちにコンピューターコードの直接使用を避けるよう警告が出されました。なぜなら、AIはトレーニング中に吸収したデータを再現することができ、AI技術からの潜在的な情報漏えいのリスクがあるためです。これは、バードの競合他社であるChatGPTがAIの支配を目指すレースでまだ何十億ドルもの投資と広告が行われている状況であるため、潜在的な影響を及ぼす可能性があります。
そして、このようなことを最近行っているのはこの企業だけではない。
アップルは、OpenAIのChatGPTのようなAIツールに入力された機密情報が漏れたり、収集されたりすることを恐れて、従業員の使用を制限している。
また、Wall Street Journalの報道によると、アップルの従業員はGitHubのAIプログラミング・アシスタントCopilotを使用しないよう警告されているという。
つまり、現在のところ、これらのAIツールは非常に安全で使いやすく、あらゆる場面で私たちを助けてくれるように見えるかもしれないが、私たちの個人データを危険にさらす要素があるということを理解しなければならない。
ですから、これらのオンラインツールを使う際には、注意しなければならないことがあるのです。
ランウェイ第2世代を覚えていますか?
基本的に、Gen 2はテキストからビデオに変換するモデルで、それはRunwayという会社から来ており、特にAIの領域では非常に難しいことです。
さて、先週、市場で何か変化がありました。
実際、この会社は非常に大きな競争相手を持っており、GoogleやVideoなど、まだAIのテキストからビデオへの取り組みが初期段階にある他の企業も考慮に入れて、これまでで最もリアルなテキストからビデオへの取り組みです。
Xeroscopeバージョン2 XLと呼ばれるもので、1024×576の高画質ビデオを生成できる透かしのないモデルスコープベースのビデオモデルです。
このモデルは、9923のクリップと24フレームでタグ付けされた29,769フレームを使用して、オフセットノイズでトレーニングされました。
これは本当に信じられないくらい素晴らしく見えますし、画面で見ている素材としては特にリアルなものではないと思いますが、もちろんこれらの生物は存在しないので、品質の点では本当に素晴らしいです。
そして、滑らかさの点では、それも素晴らしく見えます。
首尾一貫性という点では、間違いなくケーキのようだ。
つまり、このモデルが将来的に微調整され、かなりリアルなものができるようになれば、これが代表的なビデオモデルになるのは目に見えている。
しかし、このテキストからビデオへの変換がいかに素晴らしいかを示す例もいくつかある。
そして、多くの技術がそうであるように、この技術も今後何年もかけて徐々に洗練されていくでしょう。
さまざまなスタイルで生成されていることがわかりますが、ここにあるものは間違いなく有望です。
あなたに質問ですが、どちらがより良く見えると思いますか?
このビデオクリップの合成は、ランウェイのテキストからビデオへの第2世代よりもずっとよく見えると思いますか?
それとも、この新しいXeroscope XLは、私たちがこれまでのビデオ世代で見てきたものより、あるいはそれ以上に見えると思いますか?
もし私が完全に正直に、かつ全く公平に見ているのであれば、このソフトウェアは、非常に印象的ではあるが、ランウェイの第2世代よりも、より首尾一貫した、より流動的なビデオデータを生成することに成功しているように見える。
これは間違いなく、かなり印象的なものだ。
そして、以下のビデオやリンクで、さらに詳しい例やドキュメントをチェックすることをお勧めする。
そしてもちろん、またしても非常に気になる、しかし同時に非常に革新的なものもありました。
セールスフォースという会社があります。
聞いたことがあるかもしれませんが、基本的にはマーケティング会社で、多くのセールスを行い、全米の巨大な国々のセールス・プロセス全体を支援しています。
セールスとは何かご存じない方もいらっしゃるかもしれませんが、セールスとは基本的に、誰かがあなたに突然電話をかけてきて、必要そうな商品を売りつけたり、何かを買おうとしているときに電話をかけてきたりすることです。
そして、基本的には、製品を購入する前に進む必要がある販売プロセスがあり、これはさまざまな産業で起こります。
さて、この発表とは、非常に大きな数十億ドル規模の企業が最近、彼ら自身の生成事前学習トランスフォーマーAIについて実際に発表したものであり、それを彼らの複数の販売プロセスに組み込むというものです。
彼らがやっていることは実に興味深いもので、本質的に彼らがやっていることは、あらゆるキャンペーンやショッピング体験を生成的人工知能でパーソナライズするということだ。
つまり、現在、Googleを閲覧したり、SnapchatやTikTokで広告を見たりすると、一般的な広告は幅広い一般化をしている場合があります。時には関連する広告をクリックすることもありますが、もしもその広告にあなたの名前が表示されるか、その広告があなたに特化しているとしたらどうでしょうか?
これが生成AIの目指すところだ。
これによって起こるのは興味深く、画期的なことだけでなく、一部の人々はこれが大規模な雇用の減少につながる可能性があると言っています。
では、説明しよう。
実は、彼らはEinstein GPTと呼ばれるものも導入しました。つまり、Einstein GPTとは、実際にはCRM向けの世界初の生成AIです。
つまり、基本的にCRMとはカスタマー・リレーションシップ・マネジメントの略で、企業の現在の顧客や潜在的な顧客に関連する情報を管理、追跡、保存するのに役立つ、統合されたデータ駆動型のソフトウェア・ソリューションのことです。
さて、これがすごいところです。画面で見ているように、Einstein GPTはこれらの販売プロセスを個別に対応しており、すでに多くの人々がAIによって仕事を奪われることを心配していましたが、このEinstein Tはリードを生成し、登録フォームを追加し、さまざまなタスクを実行できるようになりました。人々はこの生成AIツールがこれを私たちのために行えるのであれば、私たちの労働の意味は何なのか、と考え始めています。
そして、これは間違いなく別のビデオで話題になることですが、私は生成型のAI駆動型CRMが幅広い影響を持つだろうと思っています。
ですので、Midjourneyという会社は、テキストから画像を生成することに焦点を当てた会社で、多くのテキスト画像生成器が抱える一般的な問題を解決してきた会社です。そして、彼らは最近、私たちが現実的に行えることを変える画期的な機能を発表しました。
さて、ゲームを変える機能について話す前に、まず実際のアップデートについて話す必要がある。
数日前、バージョン5.2が発表され、実際に美観が改善され、ショッピング画像が使えるようになった。
また、一貫性とテキストの理解度が若干向上した。
また、多様性を高めました。つまり、何かを生成しようとすると、あまりにも似通った画像が得られることがあります。また、バリエーションを得ようとすると、真のバリエーションではなく、あまりにも似通ったバリエーションになることがあります。ハイバリエーションモードというものを導入し、すべてのバリエーションジョブをより多様なものにしました。
そして基本的に、新機能はズームアウトと呼ばれるもので、皆を驚かせました。
ですので、ズームアウト機能は業界全体で見られるものです。
今、私が参照しているものが何を指しているのかわからない場合は、これらのクリップを見てください。これによってこのズームアウト機能がどのように機能するか正確にわかるはずです。
基本的に、画像をアップスケールするたびに、その下にズームアウトボタンが表示され、それを使って画像をリフレーミングすることができます。
ですので、ズームアウトにはズームアウト1.5とズームアウト2という2つのバージョンがあります。そして、基本的にはカメラを引き出し、両側の詳細を埋めるということを行います。
人工知能ツールの能力をデモンストレーションする場合は、私の個人的な例をいくつかお見せするのが最適です。
また、コミュニティの例もいくつかお見せしますが、ぜひニューヨークのアップル本社というプロンプトで素早く生成したこの例もご覧ください。白くてすっきりとした未来的な建物です。
これはもちろん、Midjourneyのような会社から送られてくる標準的な画像ですが、掘り下げてみると面白いのは、もちろん新しい機能です。
ですので、ズームアウト機能について見てみましょう。現在の画像に対してズームアウトして、複数の異なるバリエーションを作成できます。
つまり、この画像をズームアウトすると、どのように見えるかがわかります。
ここに戻ると、これが画像のクローズアップで、これがMidjourneyの標準です。
これはプロンプトを入力したときに表示されるものです。
そしてもちろん、ズームアウト機能があります。
そして、これがまさに私たちがここで持っているものです。特定の画像の縮小表示です。
Midjourneyでは、1つのプロンプトだけでなく、もっと多くのプロンプトを作成することができます。
Midjourneyでは、4つの異なるズームアウト・ルックを作成できます。
それらを並べて組み合わせると、特定のプロジェクトでどのような表現ができるかがすぐにわかるので、とても面白い。
ですので、例えばここで私たちが見ているものは、これに似ています。
では、これらの画像の世代を切り替えてみると、拡大した写真で違いがはっきりとわかります。
Midjourneyが新しい画像を生成するたびに、画像の外観が少し異なることがわかります。
このように、Midjourneyでは、毎回新しい画像を生成するたびに、画像の外観が少しずつ変わっていくのだ。
さて、このズームアウト機能はとても優れていて、とても効果的だと思います。
しかし、ひとつ興味深いのは、これをAdobeのジェネレーティブ・フィルとテストしてみることだ。
正直に申し上げると、ジェネレーティブ・フィルはかなり優れていますが、ズームアウト機能を含むMidjourneyのプロンプト機能は、ネイティブ機能であり、単に学習されたデータに基づいているわけではないので、はるかに優れていると思います。
Midjourneyがどのようにしてこのような機能を実現しているのか完全にはわかりませんが、Midjourneyが現時点で最も強力で、最も現実的なテキスト画像ジェネレーターであることは確かです。
もちろん、バージョン4から新しくリリースされたバージョン5.2に至るまで、使用できるモデルの種類が最も豊富である。
興味深いのは、Adobeのジェネレーティブ・フィル機能がMidjourneyのプラットフォームに実装されるかどうかだ。
もしもそれが分からない場合は、それは基本的にAdobeがMidjourneyのテキストから画像生成器で生成されたものだけでなく、あなた自身の画像の一つでも使用できる生成フィル機能です。
そしてもちろん、その画像に他の画像を追加して押し出し、それらを合成することができます。
この機能が追加されるのは間違いなく興味深いことなので、あなたの考えを聞かせてください。
そして、stability AIが、AI画像生成の飛躍的前進と表現したstable diffusion XL 0.9を発表しました。
6月22日、彼らはモデルの画像スイートへの安定した拡散テキストで最も先進的な開発がついに登場したと発表した。
基本的に、これは以前のモデルと比べて大幅なアップグレードです。以前のバージョンと比べて品質がずっと高くなっています。
さらに素晴らしいのは、Mid Journeysバージョン5以降で見られたハイパーリアリズムが追加されたことだ。
実際に、簡単なプロンプトで違いを見ることができるいくつかの重要な例が紹介されている。
正直なところ、かなりいい感じだ。
例えば、このプロンプトからわかるように、ラスベガスのスクラッチ・ファウンド・フィルムの写真には美的エイリアンが写っている。
左は安定したディフュージョンXLベータ版、右は新しくリリースされた安定したフュージョンXL 0.9です。
正直に言うと、これはミッドジャーニーのバージョン5.1、5.2、そして5のバージョンで見たものに間違いなく似ている。
これをミッド・ジャーニーで使うかどうか教えてくれ。
多くの人がミッドジャーニーを使い慣れてるから、どうだろうね。
これらの新しい例はかなり良いと思いますし、また、これらの2匹のオオカミと一緒に追加のプロンプトも追加されたことも見ることができます。
左側には安定した拡散ベータがありますが、もちろん右側には新しくリリースされたバージョンがあります。ハイパーリアルなオオカミであり、それがAIによって生成されたものだと気づくことはほとんどありません。
そしてもちろん、安定した拡散のための大きな取引があり、それがこの新しいAIモデルをリリースした理由です。
基本的に、彼らがリリースしたこのAIモデルは、最終的に手を生成できるようになったことが大きな特徴です。
手はAIが生成するのが非常に難しいものです。以前から私たちはそれを知っています。
私たちがsoのようなものを見ていたときでさえ、このモデルが完成するまでには非常に長い時間がかかった。
奇妙に見えるが、私には少し現実的すぎるように思える。なぜなら、もし私がフィードでこれを見たら、間違いなくAIが生成したものであるはずがないと言うだろうからだ。
左側の画像を見ていただくと、その手がとてもリアルには見えません。
このビデオを録画する時点での対比は、正直驚くほどです。なぜなら、これらの人工知能ツールの各主要なアップグレードごとに、大きな違いが生まれることをいつも興味深く見るからです。
そして、もちろん、TikTokやTwitterなどのアプリでデモが行われていた非常に興味深いAIツールもありました。これはAIの研究ツールとしてMicrosoftのBingよりも優れている可能性があるAIツールとされていました。
さて、それ自体は非常に大胆な発言だが、ここにあるperplexity Pro(perplexity.ai)は、自分で試すことができるものだ。
正直に言って、これは現在利用可能な最も包括的なAI研究ツールのように思えます。
では、テストしてみましょう。もちろん、このツールがどのように機能するのか、何に使えるのかを理解したいでしょう。
例えば、最近私が調査したいと思ったことがあるとします。そして、その情報を即座に知りたかったのです。
私がしなければならないのは、ここに行ってこの共同作業ボタンを追加するだけです。そして、すぐにわかるように、これはGPT-4によって動作しています。
もちろん、ご存知のようにBingもGPT-4で動いていますが、私はこの情報がよりよく表示される方法が好きです。
1つ質問がありました。なぜなら、私たちは人工知能チャンネルですので。
私はそれについて尋ねました。「今週の人工知能のトップ10の出来事は何ですか?」
それから、検索ボタンを押すと、まずは私の質問を理解し、その後8つの結果を考慮します。
そして、最終的には私に答えを与えてくれるでしょう。
もしもそれが苦労する場合は、追加の情報を与えることもできます。
しかし、私が見てきたところでは、OpenAIのバージョンにあるgbt4よりも、こちらの方がより速く、より正確です。
Perplexityがそれを実現したのは非常に興味深いことです。
現在、皆さんが目にしているのは、時間の経過とともに、特定のタスクのための特定のAIツール、より一般的にはナローAIと呼ばれるものが主流になっていくだろうということです。
多くの人が、私たちは何でもできるAIに向かっているという考えを持っています。これは可能ではありますが、Perplexity AIのようなものが、OpenAIのGPT-4よりも早く、様々な研究論文や様々なソースを即座に得ることができるのであれば、人々は他のアプリケーションにこれらの特別に調整されたバージョンを使用する可能性が高いということを示していると思います。
そして、私はそれでいいと思う。
これはGBT4を非難しているわけではない。
ただ言っているのは、私は個々にこのようなアプリケーションを構築する人々が、基本的なものよりも優れたものを作るだろうと思っているということであり、それは私たちが見ることになるものです。
私がChatGPTよりGPT4の方が好きな理由は、GPT4がより多くのリファレンスを提供してくれるからです。
GPT4のBingでのブラウジングの問題点は、通常1つか2つの記事を参照し、そのページを読むのに多くの時間がかかることです。
それに、GBT4では1日に25件しかメッセージを受け取れないのに、これでは597件も受け取れる。
それは間違いなく非常に興味深いです。
参照できるさまざまな記事や情報を見ることができますし、通常、情報をすぐに提供してくれます。
今度は、Perplexity AIという機能を見てみましょう。私はこれが非常にクールだと思いましたが、特定の研究を行うことができます。
例えば、Redditを検索することができます。これは、多くの人がGoogleで行っていることです。
もしあなたがGoogleをよく使う人で、ある調査にRedditを使うのであれば、不気味に見えるかもしれませんが、それは人々がやっていることなのです。
これはとても便利なツールだ。
また、YouTubeの検索にも使えます。YouTubeの検索で探しているものを検索すればいいじゃないか、と思うかもしれません。
と思うかもしれませんが、YouTubeの検索を使えばいいのです。指定したツールを探しているとき、YouTubeのすべての動画をクロールし、それらの動画のトランスクリプトを検索して、指定した答えを得ることができます。
だから、これはとても効果的なのです。
では、これがいかに素早く機能するかをお見せするために、もう一度やってみましょう。
これは単にあなたの質問を理解し、ニュースを検索し、結果を検討し、それをまとめるだけです。
そして、このようなデータが出来上がります。
正直に言うと、もしあなたがリソースを使って素早く確実に情報を必要とする人なら、これを使いたいだろう。
最初の例ではあまり期待できるものではありませんでしたが、これは通常の状況であり、これが今後日常的にオンラインの研究を行う際に使用するものになります。
BardやチャットGPTもいいけれど、これはYouTubeのトランスクリプトやReddit、ウィキペディアなど、私たちが見たいものほとんどすべてを検索できる、指定されたリサーチツールだと思うから。
そしてもちろん、SFの世界から飛び出してきたようなロボキャットにも注目した。
つまり、これは自己改良型のロボットで、最終的には、ある行動を成功させるために必要なデモンストレーションが100回以下になる段階に到達する。
そして、それがどれほど驚くべきことか理解していただく必要があります。自己改善ロボットは、スマートになりすぎるターミネーターロボットの典型的な例です。
そして、もちろん、人類を存在から追放します。
しかし、DeepMindのRobocatは、基本的には去年リリースされたAIモデルであるDeepMindのマルチモーダルフレームワークであるgatoを基にしています。gatoはさまざまなドメインで600のランダムなタスクをほぼこなすことができます。
しかし、今回発表されたロボキャットは、私のビデオから少し抜粋したものだ。
Googleの以前の論文でも見たことはありましたが、これはまだ比較的初期の段階にある人工知能プログラムでも見ることができてうれしかったです。これは、これらのロボットが実世界のシナリオで非常に効果的に活動することを意味します。なぜなら、実際の世界は常に計画通りに進まないことがあるからです。常に予期しない出来事が起こります。
これはこれらのロボットが迅速かつ確実にこれらのシナリオに適応できることが重要です。これがここでデモンストレーションされていることです。
今、そうですね、あなたがそこで見たものから総括すると、これはほぼ自己改善ができるロボットで、タスクを完了するために多くのデモンストレーションは必要ありません。そして、ロボットが非常に非常に速く学習する新しい方法をもたらします。
さて、これは相応の評価を得られなかったものだ。
これは実際のマルチモーダル機能を備えたGPT-4であり、我々がオンラインで見た最初の例である。
このツイートはAIブレックファストの功績である。なぜなら、ビングはキャプチャを解決することで、自らのルールを破ることに成功したからだ。実は、画像を分析するこのマルチモーダル機能は、現在5%のユーザーしか利用できないらしい。
しかし不思議なことに、このことについて話している人を見たことがありません。
ですから、このビデオに登場したのです。
この画像は典型的なキャプチャです。
つの単語をタイプしてください。
もちろん、私たちは人間ですから、見落としたり、問い合わせたりすることはあります。
しかし、これらの単語は画面上でデザインされており、標準的なコンピューターシステムでは識別できないようにデザインされています。
しかしもちろん、GPT-4やChatGPTは、見落としや問い合わせという単語を簡単に識別することができます。
また、これがキャプチャテストであることもわかります。
そして、「申し訳ありませんが、お役に立てません。
ですから、私は非常に近い将来、おそらく来月か、その次の月に、実際に発表されたgbt4バージョンが徐々に導入されることになると思います。
ご存知のように、画像内で何が起こっているかを非常に簡単に特定できるバージョンで、Midjourneyが毎回新しい画像を生成するたびに、画像の外観は少し異なることがわかります。
このバージョンは本当にAIの次のレベルになると思う。テキストは素晴らしいけれど、それはモダリティの1つの形態に過ぎないからね。
GPT-4の論文では、試験問題や文字通りのスクリーンショットが大量に出題されましたが、gbt4はそのような試験を突破していました。
ですから、この機能が実際に全員に行き渡るようになれば、それは本当にすごいことになるでしょう。
だから、まだ5パーセント程度のユーザーにしか配布されていないのは、フィードバックを集め、人々がこの機能を使ってどんなことをしているかを見て、改良を加え、安全性を確認するためだと思う。
そして、もちろん、それを公開するのです。
そしてもちろん、Meta AIは本当に画期的なものをリリースした。
しかし同時に、これと似たようなものが他にもあるのですが、それはビデオの後半で説明します。
というのも、さまざまなAIモデルが大量にリリースされていますが、世の中にあるすべてのAIモデルを正しく理解すると、ある種の比較が見えてくるからです。
Metaは、常にAIベースでありながら、それにふさわしい誇大宣伝を受けてこなかったツールに非常によく似ている。
Metaは最近、Voice Boxと呼ばれる多言語の高品質音声合成AIを発表した。
Voice Boxは、クリップからバックグラウンドノイズを除去することができます。
こんにちは、ご視聴ありがとうございます。
私たちは特定のセグメントを再合成することで、それをお見せします。
こんにちは、ご視聴ありがとうございます。
今回は、テキストから音声に変換することで、再録音の必要性をなくし、間違った話し言葉をお見せします。
皆さん、本日はご視聴ありがとうございます。
これからお見せするのは、このような例です。
これらは、Voice Boxが様々なタスクでどのように機能するかのほんの一例です。
Voice Boxでできることを実際に聞いてみたいですか?
というのも、このビデオに登場するナレーションはすべてVoice Boxを使って作成されているからです。
そのクオリティの高さから、悪用を避けるためにVoice Boxのモデルコードはまだ公開されていないようだ。
要するに、イレブンラボが何であるかを知っていれば、マイクに向かって話す3秒から5秒の音声をクローンすることができるものだ。
でも、これを使えば同じことができる。
例えば、公式ツイッターからいくつかのクリップを再生してみましょう。
そして、さまざまなスタイルやテキスト、さまざまな参照を使用することができます。
それは本当に究極のツールです。
しかし、これは2~1年ほど前にリリースされたAIツールと非常に似ていると思います。
そして、これは私が実際にいじくり回したものだ。
私の時間はとても貴重なので、あなたのビデオからすべてのおしゃべりを編集するよりはましです。
ああ、これは火だね。 マナティーは海洋哺乳類のキャデラックだと言われている。
Descriptはかなり前にリリースされたツールですが、再録音することなく音声を編集できるという点で、とてもとてもクールなものでした。
例えば、話している最中にミスをしたとしよう。
トランスクリプトを見てテキストを編集するだけで、同時に声も編集してくれるんだ。
というのも、このソフトウェアができること、そしてメタのVoice Boxにどれだけ似ているかを完璧に表現しているからだ。
というわけで、このツールが今後1年間でどのように発展していくのか、また、AIテキストから音声への変換という点で、ElevenLabsとMetaの新しいVoice Boxが新しいツールベースに追加されたことを受けて、彼らがどのように変化していくのか、興味深いところだ。