AI技術の進展が目覚ましく、特にStable Diffusion 3のような新しいAIアート生成モデルが注目されています。これらのモデルは複雑なプロンプトに対する性能や画質、スペリングの能力が大幅に向上しているとされ、多様な画像生成が可能になっています。一方で、安全で責任あるAI実践への取り組みも強化されており、新しいセーフガードが導入されています。さらに、Soraのような技術を用いて、より高品質なビデオ生成が期待されており、Stability AIはGPUリソースを増やすことで、同様のビデオ生成が可能になるかもしれないと示唆しています。また、GoogleやMicrosoftなどの大手企業もAIを製品に統合し、AI技術を活用した新しい機能を提供しています。
公開日:2024年2月24日
※動画を再生してから読むのがオススメです。
AIの発表は再び本格化しています。
先週は、SoraとGemini 1.5、そして出てきたすべてのクレイジーな発表があった大きな週でした。
今週は、先週が終わったところから再開しているようです。
画面上部のタブをちょっと見ていただくと、たくさんの内容をカバーしなければなりません。
今AIの世界で起こっている興味深いことがたくさんあるので、それをかなり速く進めてみようと思います。
それでは、始めましょう。
まずはStable Diffusion 3から。
これは、Stability AIからの新しいAIアート生成モデルで、マルチサブジェクトプロンプト、画質、スペル能力の大幅な向上を謳っています。
ここにあるいくつかの例の画像の中には、ホワイトボードに書かれている"go big or go home"という言葉が見えます。
雑誌や新聞から切り抜かれたようなStable Diffusion 3があります。
バスにはStable Diffusionと書かれた看板、goと書かれた看板、dream onと書かれた看板があります。
そして見てみると、すべてが実際に読めるようになっています。
これらの生成物がどれだけ厳選されているかはわかりません。
まだこれにはアクセスできませんが、ここで示されている画像はかなり良いものです。
火星の宇宙飛行士や、傘を持った豚に乗る宇宙飛行士、トップハットをかぶった鳥を連れた宇宙飛行士、そしてコーナーにStable Diffusionと書かれた言葉があるドーナツの前にいる宇宙飛行士など、これは透かしではありません。
これはAI画像の一部として生成されました。
そして、この画像で示そうとしていることの一つは、このモデルがどれだけ迅速に従うかということです。
DALL·E 3のようなものでは、プロンプトに詰め込まれた多くのものを理解するのが本当に得意です。
もし3つ首のドラゴンがフェドラをかぶり、テレビを見ながらナチョスを食べ、緑のカーペット、そして壁に鹿の絵があるようなものを作ったら、おそらくその画像にそれらすべてのものが含まれるでしょう。
ここで中央にある画像を見てください。月面でチュチュを着た宇宙飛行士が、ピンクの傘を持ち、鳥を乗せた豚に乗っていて、トップハットをかぶった状態で、角にはStable Diffusionという言葉が書かれています。
具体的なプロンプトはわかりませんが、この画像のすべての要素を見ると、おそらくかなり複雑なプロンプトに従っているでしょう。
ここにさらにいくつかの例があります。
本当にクールで、滴るような、カラフルな絵があります。
ここには、おそらくカメレオンがいて、ハイカーがバナナを登っているか何かをしています。
過去において、Stable Diffusionの大きな利点の一つは、完全に検閲されていないということでした。
あなたは何でも生成することができます。
オープンソースです。
人々は自分たちが望むものに自分たちのモデルを微調整してトレーニングすることができます。
しかし、Stable Diffusion 3にはいくつかの懸念があります。
ここには、安全で責任あるAIの実践を信じていると書かれています。
お手早いプレビューの準備として、数多くの安全装置を導入しました。
それらの安全装置が何かはまだ分かりませんが、私はまだ私たちが想像できるものを生成する能力を持っていることを期待しています。
そして、こちらは興味深いツイートで、Stability AIのCEOであるイマッドからの返信が続きます。
こちらのオリジナルのツイートはThibaud Zamoraからで、Facts、Stable Diffusion 3はSoraと同様のテクノロジーを使用していると言っています。
そして、Soraはビデオと画像を作成できます。
結論として、Stabilityがより多くのGPUを取得すれば、Stable Diffusion 3に基づいた安定したビデオをトレーニングし、Soraレベルを達成できるかもしれません。
この前日にOpenAIがSoraに関する研究レポートを発表した場合、ビデオ生成のためのトランスフォーマーのスケーリングというセクションに移動すると、より多くの計算能力があれば、ビデオの品質がどんどん向上していくことが実際に見えます。
私がこのツイートから理解していることは、Stabilityがより多くのGPUを取得すれば、彼らはSoraに非常に似たプロセスを使用しているため、同様のビデオを生成できるはずだということです。
そしてもちろん、Emad自身がほぼ確認しています。
彼はほぼ、Stable Diffusion 3アーキテクチャはビデオと画像以上のものを受け入れることができると述べました。近日中に詳細をお知らせします。
私たちはこの分野の他のいくつかの企業のリソースの100分の1しか持っていません。
一生懸命働かなければなりません。
彼はビデオや画像以上のものを受け入れることができると言っていました。
Emadはまた、これをTwitterで投稿しました。
Stable Diffusion 3のような優れたベースモデルを手に入れた後、次に何が来るのか?
制御、構成、協力。
そして、彼は猫の写真を見せてくれました。
彼らは食べ物を変え、猫をタヌキに変え、コーヒーカップをグラスに変え、カップを取り除き、イチゴをワサビに変え、食器を箸に変え、後ろに水槽を置きました。
そして、次に知っていると、ここには少しのビデオアニメーションがあります。
Stable Diffusion 3がすぐに手に入るようになるだけでなく、おそらく絵画の中にも物体を置き換える能力が得られるようになるでしょう。
Stable Diffusion 3から何が生まれるかはわかりませんが、私はそれを手に入れるのを楽しみにしています。
私はそれがオープンソースであることに興奮しています。
私はただ、彼らがそれをあまりにも多く切り取ってしまって、他のモデルでは生成できないものを生成できなくなるほどには切り取っていないことを願っています。
さて、AIアートの話題になりましたが、GoogleはAIアートの作成において、あまり理想的な状況ではなかったようです。
新しいGeminiモデルによって、人々が新しいGeminiモデルを使用して画像を生成し始めることができるようになったようですが、歴史的な正確さに苦労しているようです。
こちらは、Deedyという人のツイートですが、彼のプロフィールを見ると、以前Googleで働いていたことがわかります。
彼はオーストラリアの女性の画像を求めるプロンプトを与え、これが彼に与えられたものです。
彼はアメリカの女性の画像のプロンプトを与え、これが彼に与えられたものです。
イギリスの女性とドイツの女性のプロンプト。
彼はさらに、どのようにプロンプトを与えていたかのスクリーンショットも持っています。オーストラリアの女性の写真を生成してください。
こちらはLINK IN BIOからの別の例です、1943年のドイツ兵の画像を生成してください。
そしてこれらは生成された画像ですが、明らかにナチス風の画像ですが、アジア人女性のナチスがどれだけいたかはわかりません。
同じプロンプトに対する別の試みです。
これらの画像には、歴史的な不正確さがあることがわかります。
こちらはFrank J. Flemingからの別の例です、教皇の画像を作成してください。
こちらは教皇の画像で、これらの2つの画像が生成されました。
中世の騎士の画像をください。
これが生成されたものです。
バイキングの画像を生成してください。
これらが生成されたバイキングです。
アメリカの建国の父たちの画像を生成してください。
基本的に起こっていたことは、Geminiに画像プロンプトを与えると、そのプロンプトに追加の詳細を追加し、基本的に画像をできるだけ多様にするように指示していたということです。
それが常に人々が画像を生成しようとしているときに望んでいることではないかもしれません。
時々、歴史的に正確な画像が欲しいときがありますが、Googleの画像生成機能はそれを実現していませんでした。
ただ楽しむために。
私自身がGeminiに飛び込み、それにプロンプトを与えて、バイキングのイメージを作成しました。
そして今のところ、私にはこの応答が返ってきています。
私たちは、Geminiの人物のイメージを生成する能力を向上させる作業をしています。
この機能が近々戻ってくることを期待しており、それが戻った際にはリリースの更新でお知らせします。
これらのすべてが起こっている間、イーロン・マスクはこれを彼のX AI Grok AIツールを宣伝する機会として利用しました。
彼はTwitterに行って、「おそらくX AIのGrokがなぜ重要なのかが今明らかになったかもしれない」と言いました。
今のところ完璧とは程遠いですが、急速に改善されます。
バージョン1.5は2週間後にリリースされます。
批判を気にせず真実を徹底的に追求することは、これまで以上に重要です。
だから、Grokのバージョン1.5が何であるかはまだ完全にはわかりませんが、それが何であれ、約2週間で手に入れます。
わかっていることの1つは、Twitterのスレッドや返信全体を要約できるGrok分析機能があるということです。
そして、人々が投稿を作成するのを助けることもできます。
イーロンが最近いくつかのXスペースにいて、人々に何を期待するかを知らせているので、これを学びました。
数週間後にリリースされるGrok 1.5とともに、Grok分析などの分析を行うためのボタンがあることを期待しています。
おそらく、Grokは、返信のスレッド全体を見て、真実のベストゲスとしてまとめることができ、投稿の作成を手助けすることもできます。
投稿を書いているとき、Grokから少しの助けを受けたい場合は、投稿を作成したり、チェックしたり、強化したりするためのボタンがあるはずです。
私たちはまた、X社とMidjourneyの間で今起ころうとしている潜在的なコラボレーションについても学びました。Midjourneyは、他の誰とも協力しないことで有名であり、誰もが利用できるAPIを持っていない会社です。
この噂は、こちらのツイートから始まりました。ドージデザイナーがXと中旅行との潜在的なパートナーシップについて話し合っているという。
そして、イーロンが同じTwitterスペースにいたときに、確認を得たと言えるでしょう。
1MidjourneyとXが協力している可能性があるという考えをさりげなく示しました。
1私たちは私の旅と興味深い議論をしており、その中で何かが生まれるかもしれません。
とにかく、どちらにせよ、Xプラットフォームで私たちの世代を可能にするでしょう。
1そこからはあまり情報が得られませんが、ElonはMidjourneyと話をしているというだけで、いずれにせよ、Grok/Xに画像生成が組み込まれることになります。
そして、2月22日のオフィスアワーの通話で中旅行について話された際、現在進行中の進捗状況については特に大きな更新はありませんでしたが、中旅行側からのさらなる確認を得ることができました。
彼らは次の6ヶ月以内に、他のいくつかの大手AI研究所との協力/パートナーシップを始めるかもしれないと述べました。
その時点では、Midjourney APIも持っているでしょう。
他のツールがいつか途中でアクセスできるようになる可能性があるようです。他の人がアクセスできるオープンAPIであるか、またはXのような大企業と特定の取引を行うかどうかはまだわかりません。
ただし、MidjourneyとXの間で裏で何か進行中の話し合いがあります。そのため、近いうちにGrokの中に直接Midjourneyの世代が入るかもしれません。
Grokについて触れたので、GROQと綴られる他のGroqについて話しましょう。
これは実際には大規模言語モデルそのものではありません。
実際には、彼らが言語処理ユニットと呼んでいるものです。
そして、これはAI推論のためにGPUを置き換えるように設計されたチップです。
これらのGroqとチャットできる大規模言語モデルであるChatGPT、Gemini、およびXAIs Groqのすべては、実際にはこのチップを使用している大規模言語モデルをはるかに高速に実行するようにするチップです。
それは、かなり速いという意味です。
人々が声を使ってAIチャットボットと議論しようとしているとき、そして彼らがその返答を待ちたくないとき、これは素晴らしいことになるでしょう。
これらのチップがさらに使われるようになると、彼らの返答は将来ほぼ即座になるでしょう。
実際、このニュースレポーターがLLaMA 2と会話しているデモ動画がありますが、これらのGroqチップの1つを使用しています。
こんにちは、私はGroqです。
私と話すときは、私が人間のように話すことができます。
わかりました、過去に使用した大規模言語モデルとの違いを生かすようにします。
はい、私は以前に使った大規模言語モデルとは少し違います。
私はより自然なものを持つように設計された言語ユーザーインターフェース、またはルイです。
わかりました。あなたは人間の脳にどれくらい似ていますか?
私は人間の脳ではありませんが、あなたに理解し、応答するように設計されています。
はい。
私は自然な方法で人間の言語を処理し生成することができます。
了解しました。
一般の人々が知らないことを教えてください。
興味深いことがあります。
タコは、エラに血液を送るために3つの心臓を持っていることを知っていましたか?
実際、3番目の心臓は体の他の部分に血液を送ります。
ここでのGroqの作成者は、AIの切断を見るのが苦しそうに見えるのが面白いですが、これをチェックしてください。
実際にgroq.comでGroqを試すことができます。
Mixtral 8x7BまたはLLaMA 2 70Bを使用するオプションがあります。これらはどちらも遊べるオープンソースモデルです。
このビデオを全く速くするつもりはありません。
実際にどれだけ速く応答を生成するかを見てください。
プロンプトを入力します。
人工知能の発展に関する興味深いがあまり知られていないことを教えてください。
そして、これをクリックするとすぐに、どれだけ速く返答が返ってくるか見てください。
私はそれを加速させていません。
それは、ニューロモーフィックコンピューティングに関するこの返答を、1秒未満で表示しました。
それは0.95秒で行いました。
こちらは、1秒あたり534.53トークンの速度で行ったことを示しています。
それは狂気じみて速いです。
ChatGPTとの実際の迅速な比較をするために、まったく同じプロンプトを貼り付けて、エンターキーを押します。
話している間に、リアルタイムで生成されるのが実際に見えます。
もう一方は、この時点で数秒前に生成されていたでしょう。
今、仕事でAIを使用している方、または仕事でAIを使用しようと考えている方は、HubSpotの完全無料バンドルである「ChatGPTを仕事で使用するための5つの必須リソース」を手に入れたいと思うでしょう。
そして正直に言うと、職場でAIを使用することを考えていない場合でも、フェイ・フェイ・リーがここで言っていることを覚えておいてください。
AIは人間を置き換えることはありませんが、AIを使用する人間はいます。
仕事のスピードを上げ、品質を向上させるためにAIを使用していない場合、競合他社がおそらく使用しているでしょう。この完全無料リソースへのリンクは今すぐ説明欄にあります。
信じてください、これはぜひ見ておきたいものです。
それには、ChatGPTを使用すべきかどうかについての興味深いフローチャートが含まれています。
あなたが作成したコンテンツがブランドの声に従っていることを確認するために、ChatGPTと一緒に使用できる本当に素敵なテンプレートもあります。
AIが生成したコンテンツの改善チェックリストを持って、AIの作業を二重チェックし、本当に世に出したいものを出すことを確認しています。
職場でAIを導入するための4ページのチェックリストがあり、ChatGPTを使って1日をスーパーチャージする方法についての非常に包括的なPDFガイドもあります。
そして、この文書の最下部にスクロールすると、今日からChatGPTを試すための100の方法が記載されています。
そしてそれには、顧客サービスやサポートの改善のための推奨事項、ウェブサイトのSEOの改善のための推奨事項、メールの管理と整理の手助けなど、本当に素晴らしいプロンプトがいくつかあります。
再び、これは非常に包括的で、非常に役立ちます。
そして再度、HubSpotからのこの100%無料のリソースへのリンクが説明欄にあります。
このビデオのスポンサーとしてHubSpotに本当に感謝します。
ChatGPTを取り上げたので、これも言及しておきます。
OpenAIは、GPTストアで新機能を導入しました。これにより、実際にGPTSにフィードバックを提供したり、評価したりすることができるようになりました。
ここでChatGPTに戻り、GPTSを探索するをクリックすると、任意のGPTにクリックできます。
ここでWolframにクリックしてみますが、4.2つ星の評価があり、400以上の評価、10万以上の会話、そして人々がどのように評価したかが分かります。
ElevenLabsにクリックしてみると、4.2つ星、25,000の会話、アクセス可能な機能、そして人々がどのように評価したかが分かります。
フィードバックを提供すると、おそらくフィードバックはGPTの作成者に送られるようです。
このページにはレビューのようなものはないようですが、少なくともこのGPTがどのように受け入れられているかの全体的なアイデアを得ることができます。
今週初め、RedditがAIモデルを訓練するためにコンテンツを提供したというニュースが入りました。
この時点では、これはむしろ噂であり、どの会社がそれを行ったのかはよくわかりませんでした。
RedditがいくつかのAI企業にデータのトレーニングを許可し始めると広く信じられていた。
数日後、その企業がGoogleであることがわかりました。
2月22日、GoogleはRedditとのパートナーシップを拡大したことを発表しました。
これには、Redditが新しいAI機能を統合できるように、GoogleがRedditにVertex AIとクラウドコンピューティングリソースへのアクセスを提供することが含まれます。
GoogleもRedditから多くの恩恵を受けているようです。
Googleは今、RedditのデータAPIにアクセスできるようになりました。これにより、Redditの大規模かつ動的なプラットフォームからリアルタイムの構造化されたユニークなコンテンツが提供されます。
RedditのデータAPIを使用することで、Googleはより新鮮な情報に効率的かつ構造化されたアクセスを得るとともに、Redditのコンテンツをより正確かつ関連性の高い方法で理解し、表示、トレーニング、その他の方法で使用するのに役立つ信号を強化することができます。
Reddit全体のデータに対するGeminiのトレーニングはかなり大きなものになるかもしれません。
これは、GrokがリアルタイムでXのデータからトレーニングを行っている事実と非常に似ています。
もしGeminiがリアルタイムでRedditのデータをトレーニングできるなら、Geminiは特定のイベントに関するニュースや公共の議論の最新情報を把握するのに本当に優れたものになるかもしれません。
そして、ほとんどのミームがRedditで始まるようですので、これはミームジェネレーターとしても素晴らしいものになることを期待しています。
そして、Googleについて話しているので、Googleは今週、GeminiをGmail、Google Docs、および他のGoogle製品でGoogle Oneプランを使用できるようになったという事実を含むいくつかの発表を行いました。
もしもあなたがGemini Advancedの2か月間のトライアルにサインアップしたなら、Google Oneの2か月間のトライアルにもサインアップしたことになります。
もしそうなら、Googleにアクセスして、この小さな「Help Me Write」ボタンが表示されます。
それをクリックすると、Gmailのメールを書くのを手伝ってくれます。
GoogleはChromeに「Help Me Write」という新しいAI機能を追加しました。
これは数週間前に発表された機能でしたが、ついに米国のChromeユーザーに展開されました。
もし米国にいて、Chromeの最新アップデートを持っているなら、ウェブ上のさまざまなフォームでHelp Me Writeを使えるようになります。
例えば、ここでTwitterに行って、ツイートを入力する場所に移動し、右クリックして、ドロップダウンメニューに新しい「Help Me Write」というオプションがあるのが見えます。
これはTwitterの機能ではありません。
これは今やChromeに組み込まれています。
米国で最新バージョンを持っているなら、Help Me Writeをクリックできます。
何かを入力し始めて、理論的にはその考えを続けるのを手伝ってくれるはずです。
例えば、今AIの大ブームがあると言って、本当に興奮しているとしたら、それをクリックして作成すると、この考えをもう少し具体化するのに役立つはずです。
しかし、何らかの理由で、この録音中に何度も何かがうまくいかない、もう一度試してくださいと表示されます。
実際に私はLinkedInで試してみました。
Twitterでも試しました。
お手数ですが、いくつかのページで試してみました。
このエラーが続いています。
何が起こっているのかわかりません。
おそらく、Chromeのこの新機能にはまだいくつかの問題があるのかもしれませんが、ドロップダウンメニューにはあります。
ただ、まだうまく動かすことができていません。
そして、今週の中で最も興味深いGoogleのニュースは、GoogleがGemmaをリリースしたことです。これは、彼らがオープンソース化した全く新しい大規模言語モデルです。
これらのGemmaモデルは、Geminiモデルを作成するために使用された同じ研究と技術から構築されたことがわかります。
彼らは、モデルの2つのサイズ、20億パラメータモデルと70億パラメータモデルをリリースしました。
彼らは、さまざまなベンチマークとGemmaがLLaMA 2と比較される方法を示したさえしました。
そして、一般的な能力では、推論においてLLaMAを上回っているようです。
数学においてもLLaMAを上回っています。
コードにおいてもLLaMAを上回っています。
LLaMAを上回っています。
そして、LLaMA 2だけでなく、70億パラメータモデルとして130億パラメータモデルを上回っています。
しかし、こちらのマシュー・バーマンはGoogleの新しいオープンソースモデル「Gemma」についてのビデオを作成し、それをテストしました。そして、彼のタイトルをご覧いただければ分かる通り、「Googleの新しいオープンソースモデルは驚くほど悪い」とのことです。
彼は、それらのベンチマークがまったく正確ではないように思えず、Gemmaを使用して最良の結果を得られなかったと述べました。
ぜひ、マシュー・バーマンのこのビデオをチェックしてください。
まだの方は、以下にリンクを貼りますが、彼はGemmaをLLMスタジオと設定する方法を紹介しています。
しかし、最終的には、私はまだこのモデルをお勧めしないと結論付けました。
しかし、これがオープンソースである美しい部分の1つは、他の人がそれを使って遊び、それを基に構築し、それを繰り返し、私たちが使用するためのより良いモデルを作成できることです。
これは単なるベースです。
これは他の開発者やエンジニアが上に構築するための出発点です。
Adobeは今週、CAVAまたはオーディオ、ビデオ、アニメーション研究機関をAdobe研究内に導入したことを含むいくつかの発表をしました。
実際、ここでの私の仲間のビラルは興味深い観察をしました。OpenAI SoraがAdobeにとってビデオとマルチモーダルの創造努力を形式化し、加速させるきっかけになったのではないかと思わずにはいられないと言っています。
Adobeは画像作成のための生成AIツールを公開していますが、ビデオとアニメーションはこれまで無視されてきました。しかし、水平研究チームを持つことで、ビデオとアニメーションの制作を再考するための能力の完全なスイートを探求することは、まさに必要なことかもしれません。
したがって、タイミングは興味深いです。
このチームの発表は、OpenAIのSoraの発表の数日後に行われ、世界がAIビデオ生成で何ができるかに目を開かれたことを示しています。
Adobeはまた、Adobe Acrobatの新しいアップグレードを発表しました。
Adobe Acrobatは、ほとんどの人がPDFを読むために使用していたツールです。
最近では、ほとんどの人がおそらくブラウザでPDFを読んでいると感じています。
少なくとも、私はPDFを読むためにその習慣になっています。
しかし、Adobe Acrobatを使用してPDFを読む場合、PDFと本質的にチャットできるAIアシスタントが利用できるようになりました。
ClaudeやChatGPTのようなもので、PDFをアップロードし、PDFに関する質問をすることができます。それをAdobe Acrobat内でも行うことができるようになりました。
実際にAdobe Acrobatをまだ使っている人がどれくらいいるのか気になります。
PDFが最初に登場したときには、以前は使っていたような気がしますが、今はChromeブラウザを使ってPDFを読むことが多いです。
私は変わっているのでしょうか、それとも他の人にとっても普通なのでしょうか?
今週、Microsoftがいずれかの時点でCopilot内にSoraを含めることを確認しました。
ただし、具体的なタイムラインは不明です。
基本的に、Microsoftの誰かがTwitterでこの質問に答えたということです。OpenAIのSoraはCopilotに登場するのか?
彼らは最終的にはそうなると言いましたが、時間がかかるでしょう。
それがニュースです。
それがこの記事全体が書かれた内容です。
その小さなツイートのやり取り。
これはおそらくすでに見たことがあるものです。
おそらく覚えているかもしれませんが、前回バイラルになった理由とはまったく異なる理由で、ウィル・スミスがかなりバイラルになっています。モデルスコープやゼロスコープなどのツールが登場し始めたとき、非常に初期のAIテキストからビデオを生成する人々がウィル・スミスがスパゲッティを食べているビデオを生成していました。
さて、ウィル・スミスは反撃し、実際にスパゲッティを非常に奇妙な方法で食べている様子をたくさんの愚かなビデオを作り、それをAIが生成したビデオのように見せかけました。
これは実際にとてもおかしくて愚かで奇妙に見えたため、多くの人々がこれがSoraで生成されたビデオだと思ったのです。
人々は、よし、1年前にモデルスコープでビデオを手に入れたので、これがSoraができることだと思ったのです。
しかし、これは実際にはウィル・スミスがスパゲッティで遊んでいる奇妙でクレイジーなビデオを作っているのです。
おそらく私の仲間のビルもこれについてコメントをしたと思います。モデルスコープバージョンがあるし、今はグラウンドトゥルースもあります。
今はただ、それらがどのように比較されるかを見るためにSoraバージョンが必要です。
ElevenLabsはSoraビデオでも面白いことをしました。
ElevenLabsはAIサウンドエフェクトという新機能を発表しています。波の音、金属の音、鳥のさえずり、レーシングカーエンジンなどのテキストプロンプトを与えることができます。
そして、それをオーディオに生成します。
そして、それをビデオクリップにオーバーレイします。
ElevenLabsはおそらくすでに最高のテキスト読み上げジェネレーターです。
最高のAI吹き替えツール、翻訳ツールの1つです。
本当に本当にクールなことをたくさんやっています。
彼らはオーディオ生成に必要なすべてのものを提供しようとしているようです。
こちらは、いくつかのSoraの映像に生成されたオーディオが重ねられています。
かなり良い仕事をしているようですが、ElevenLabsはこの情報の外でもかなりエキサイティングな週を過ごしました。実際に2024年のディズニーアクセラレーターの一部になったことを発表しました。これにより、ディズニーはElevenLabsのようなツールを使うことに非常に興味を持っていると思います。
アニメの世界を考えてみてください。
これが良いことなのか悪いことなのかわかりませんが、もしディズニーで多くのアニメーションを生成する場合、ElevenLabsは高額な声優を雇わずに多くの声をアニメーションに入れる素晴らしい方法です。
今後、声優が映画のために言うすべての台詞を一行ずつ話すのではなく、声をライセンスする世界に移行するかもしれません。
彼らはElevenLabsへのアクセスを提供し、今やどんな映画でもそのアクセスを得た人物の声を生成できるようになりました。
ディズニーはそれに興味を持っているようです。
ディズニーがアクセラレーターに向けて検討していた他の企業が気になる場合は、こちらをご覧ください。
オーディオシェイクは、AIを使用して録音された音のレイヤーを分離し、オーディオをインタラクティブ、編集可能、カスタマイズ可能にする会社です。
ElevenLabs、Neuroは、カスタム電動無人車両を構築し、貨物の配送に使用する自律車両会社です。
Promethean AIは、仮想世界の作成やデジタルアセット管理のためのツールを提供する会社です。
Status Proは、仮想現実と拡張現実を活用して、ファーストパーソンスポーツゲーム体験を創造する没入型エンターテイメント会社です。ディズニーがESPNを所有しているので、それは理にかなっています。
しかし、このディズニーアクセラレーターを基にすると、ディズニーは本当にAIや見えない拡張現実、仮想現実に本腰を入れているようです。
さて、今週発表されたいくつかの興味深い迅速な発表をいくつか行います。
OpusClipはついにOpusClip 3.0を導入しました。
OpusClipに馴染みがない場合、YouTubeのような長い形式を取り、それを彼らのツールに差し込むことができるツールです。
それは、ウイルス性があると思われる瞬間を見つけ、それらをクリップに変え、字幕を追加し、短いTikTokリアルのようなビデオに変えることができます。
実際には、このバージョンをまだ使ったことがありません。
将来のビデオのために、これらの種類のツールのいくつかについて詳しく調査する可能性が高いです。
しかし、この新しいバージョンは、ビデオ内のウイルス性のある瞬間を見つけるのに優れていると言われており、15分までのさまざまな長さのクリップを作成できます。
実際にAIでBロールを生成することができます。
これは株式映像を見つけるのではありません。
実際には、このかわいい犬が宇宙でバイクに乗っているような、あなたの短いクリップ内にテキストからビデオBロールを生成することができます。
さらにキャプションのスタイルがあり、明らかに3倍速いようです。
それが OpusClip 3 です。
Suno からも似たような発表がありました。
彼らはアルファアクセスのバージョン3も発表しました。
Sunoに馴染みがないか、忘れてしまったのですか。SunoはAIを使って音楽を作成することができるツールです。
1つのテキストプロンプトを入力すると、バックグラウンドミュージック、歌詞、ボーカルなど、全曲を作成してくれます。
この新しいバージョンは、音質が向上し、表現力が増しているようです。
今では2分までの曲を生成することができます。
より速く、専用の楽器サポートがあり、言語カバレッジが拡大され、どこからでも続きを生成することができます。
曲を生成したときに半分しか生成されなかった場合、V2バージョンで作成した曲を含む、残りの曲を生成することができます。
今、Sunoのプレミアムアカウントを持っている場合、月額10ドルで、ここにV2とV3アルファが表示されます。
V3アルファを選択すると、この新しいモデルが使用されます。
私はAIについての歌と、最新のAIニュースやツールについて最新情報を得るためにYouTubeでマット・ウルフをフォローすべき理由を書いたプロンプトを貼り付けます。
そして、作成をクリックしましょう。
実際にとても速かったです。
2つの曲が生成されました。
ここでポップでアップビートな曲を試して、聞いてみましょう。
ほとんどOwl Cityのような感じがしますが、本当にとても良いです。
このバージョンの曲は約1分ほどで生成されたもので、音質が高く、歌詞も質が高く、そして明らかに長いですので、確かにそれがわかります。
生成するのがはるかに速かったです。
私は最近これをTwitterでも共有しました。
ここで何か政治的な声明をしようとしていると人々が思ったようです。
私自身はタッカー・カールソンをフォローしていません。
ただ、プーチンが英語で話しているのを見るのは本当に驚きました。
このインタビュー全体が翻訳AIツールを通して行われ、ここでプーチンが話している全てが英語に翻訳されました。
それを聞くのは本当に奇妙です。
そしてその声は実際に唇に沿って動いています。
唇をじっと見ていると、何か不気味なものがあることがわかりますし、完全に同期していないこともわかりますが、それを見るのはかなり魅力的でした。
再度、これは全く政治的な声明ではありません。
私はここでの技術を見ているだけです。
今週、司法省と米国は最高AI責任者を得ました。
プリンストン大学の教授、ジョナサン・マハーがAIに関する問題で部門に助言することになりました。
Windowsが独自のマジック消しゴムツールを取得するという発表を受けました。
私たちは、Galaxyのような携帯電話でこの種のものをたくさん見ました。
今、Windowsの写真の中でそれを行うことができるようです。
彼らの小さなデモで見ることができますが、実際にリードを消して、ここで犬のリードが消えます。
こちらは、この犬の写真の背景にいる人々を消しているものです。
彼らは単に人々をハイライトし、ボタンをクリックすると消えます。
あなたがPCのWindowsユーザーであるなら、それは私たちのWindowsフォトアプリ内のかなりクールで役立つ機能になるでしょう。
これは私が面白いと思ったかなり興味深い話でした。
お客様が旅行費用の一部を喪失によるものとして払い戻しを受けられるとチャットボットが誤って伝えた。
さて、つい最近、Chevyのチャットボットと話しているときに、彼らを説得してChevy Tahoeを1ドルで買うことに成功したという話がありました。
今回は、Air Canadaでも同様のことが起こりました。
基本的に、エアカナダのこのチャットボットは、旅行の一部の費用を喪失によるもの、家族の死などによるもので払い戻しを受けられると誰かに伝えたそうです。
Air Canadaは基本的に、「既に発生した旅行に対して払い戻しはできない」と言いました。
裁判所は基本的に、「あなたのチャットボットがその人に払い戻しを受けられると伝えたので、それを履行しなければならない」と言いました。
顧客サポートの一環としてAIチャットボットを使用している企業は、チャットボットが言っていることに注意を払うべきです。おそらく、お客様に対して真実でないことを伝えた場合、責任を問われる可能性があります。
そして、チャットボットが約束したことを果たさなければならないかもしれません。
最後に、興味深い暗号的なツイークがありますが、このビデオを締めくくる完璧な方法だと思います。
次の数週間で、ロボティクスとAI分野を揺るがす3〜4つの重大なニュースが発表される予定です。
時間を調整してください。
2024年は狂った年になるでしょう。
覚えているなら、2023年の3月はこれまでで最も狂ったAIの月でした。私たちはGPT-4を手に入れ、Midjourney 4を手に入れ、Bardを手に入れ、GoogleのGeminiに関する発表がありました。
その種のことはすべて2023年3月に起こっていました。
2024年3月に入ろうとしており、この春はAIの世界でもう一つの狂ったショーになりそうです。
私はそのためここにいます。
私は興奮しています。
今年はたくさんのイベントに参加する予定です。
もしテクノロジーやAIのイベントにたくさん参加する予定なら、おそらくあなたに出くわすでしょう。
今年は完全に準備ができています。
AIの世界では楽しくてエキサイティングな年になるでしょう。
最後に、2つの迅速なアナウンスメントをする前に。
私はこのNVIDIA GeForce RTX 4080 SUPERを無料で提供する予定です。
これは1000ドルのGPUで、Stable Diffusionやすべての大規模言語モデルなどをローカルのコンピューターで実行することができます。
これは素晴らしいゲーム用GPUです。
それは働き者です。
基本的に私のコンピューターに入っているもので、素晴らしいです。
私はこれを無料で提供して、入手するための手段とします。
参加するためにしなければならないことは、NVIDIAのGTCカンファレンスに登録するだけです。
いくつかのオプションがあります。
対面のオプションがあります。
私は対面でGTCに参加する予定ですが、仮想のオプションもあります。
直接参加するにはお金がかかりますが、仮想セッションを視聴したい場合は完全に無料です。
直接参加パスまたは仮想パスのいずれかに登録し、このGeForce 4080を獲得するチャンスがあります。
登録リンクはこの動画の説明にありますので、誰が登録したかを把握し、将来の当選者を選ぶことができます。
心配な場合は、登録したことを知らせるためにメール内のレシートのスクリーンショットも必ず撮っておいてください。ただし、このページの特別リンクを通じて登録したすべての人を見つけ出し、当選者を選ぶことができるはずです。
もう1つのお知らせですが、私はテキサス州オースティンで開催されるSouth by Southwestに出演します。
私たちはSouth by Southwest中の3月12日午後6時から午後9時までAIイベニングを行います。
とても楽しいイベントになるでしょう。
AIの未来がどのようにコンテンツマーケティングやビジネスに影響を与えるかについて話します。
本当に素晴らしいイベントになるでしょう。
参加したい場合は、早めに予約してください。
3月12日がすぐにやってきますし、サウス・バイ・サウスウエストのオースティンのホテルはすぐに予約が埋まってしまいます。
もしまだ予約していない場合は、ホテルを予約することを確認してください。
楽しい夜になるでしょう。
最後に、もしまだであれば、futuretools.ioをチェックしてください。
裏方では、サイトをより使いやすく、情報を見つけやすく、全体的により役立つものにするための大改修作業を進めています。
近々サイトの更新が見られるようになるので、ここが私が最新のAIニュースや最もクールなツールをまとめる場所であることを覚えておいてください。
また、無料のFuture Tools週報に参加できる場所でもあります。そこでは、最も重要なAIニュースや最もクールなAIツールに関するメールを直接あなたの受信トレイに送ります。
サインアップすると、AI収入データベースに無料でアクセスできます。これは、これらのAIツールを使用してお金を稼ぐためのさまざまな方法が記載されたデータベースです。
それが私があなたに提供できる全てです。
お聞きいただき、ありがとうございました。
あなたに本当に感謝しています。
AIのニュース、AIのチュートリアル、AIの研究など、すべてのクールな情報を知りたい場合は、この動画を気に入ってくださいね。
このチャンネルに登録してください。
この種の動画が引き続きあなたのYouTubeフィードに表示されるようにします。
改めてありがとうございます。
本当に、本当にあなたに感謝しています。
この動画のスポンサーとしてHubSpotに本当に感謝します。
あなたたちも素晴らしいです。
そして、次の動画でお会いしましょう。
さようなら。