この動画では、OpenAIのChatGPTの一般利用開始とサーバーの遅延、GPT-5の開発、MicrosoftのAI関連アナウンス、YouTubeのAI機能に関する最新情報が紹介されています。ChatGPTは使用量増加により一時的な新規登録停止に追い込まれ、使用制限が以前よりも早く達成されています。MicrosoftはAzureクラウドにOpenAI技術を統合し、新機能を発表。YouTubeではAI音楽クローンに厳しく対応し、AI生成コンテンツの明示を求めています。さらに、Meta, Runway, Deorum, Kaa AI, Notion, GoogleのDeep MindなどがAI技術の新たな進歩と応用を示しており、医療診断の自動化やAI診察室の導入などが進んでいます。
公開日:2023年11月18日
※動画を再生してから読むのがオススメです。
さて、今週のAIニュースに入りましょう。
先週、ChatGPT Plusに加入していれば、ほとんどの人がChatGPTのGPTsにアクセスできるようになりました。
今週は、みんながGPTを試しているようで、ChatGPTは少し圧倒されたようです。
11月14日のサム・アルマンのツイートからわかるように、ChatGPT Plusの新規登録を少し停止しています。
Dev day後の利用の急増は私たちの容量を超えており、私たちはみなさんが素晴らしい体験をすることを確認したいと思っています。
そして、ChatGPT Plusの新規サインアップを一時停止しているだけでなく、ChatGPTは最近本当に遅くなっていて、以前よりもずっと簡単に使用量上限に達しているようです。
私が自分のGPTsを作成する方法についての最新のビデオを録画していたとき、私はいろいろなことを実演しようとしていましたが、実際にはわずか15回のプロンプトでレート制限を受けていました。
つまり、15回プロンプトを入力すると、もう一度プロンプトを入力できるまで2時間待てと言われるのだ。
だから、その25分のビデオは文字通り6時間ほどかかりました。そうすることで、私は前回終わったところから再開し、再びプロンプトを続けることができました。
だから、ChatGPTがこれをスケールする方法を見つけ出し、ChatGPTの使い方が元に戻ることを期待しています。
OpenAIとGPTといえば、どうやらOpenAIはGPT-5に取り組み始めているようだ。
サム・アルマンによれば、それは超インテリジェントになる可能性さえあるという。
サム・アルマンは最近Financial Timesのインタビューに応じ、その中で、より主要なAIモデルを構築し続けるためには、マイクロソフトからのさらなる投資が必要だと語った。
現在、OpenAIチームはGPT-5のタイムラインを設定しておらず、GPT-5がどのような能力を持つかも明らかにしていない。
しかし、サム・アルマンによれば、彼らはGPT-5の開発に着手しているとのことだ。
しかし個人的には、すぐにとは思っていない。
このようなモデルのトレーニングには膨大な計算能力と時間がかかる。
推測するに、2024年にGPT-5が登場するとは思えない。
2025年かもしれない。
様子を見るしかない。
とはいえ、私は物事がどれくらい先に実現するかについて予測を立てたことがあるが、ほぼ毎回、私が主張するよりもずっと早く実現している。
だから、私はおそらく間違っている。
OpenAIの最大のパートナーであるマイクロソフト陣営からも、今週はたくさんのニュースが飛び込んできた。
今週はマイクロソフトのIgniteイベントで、主にクラウド・コンピューティング・プラットフォームのAzureとクラウド・コンピューティングの進歩に焦点が当てられていた。
しかし、この基調講演では、OpenAIのすべての技術がMicrosoft Azureクラウドに実際に導入されることを含め、いくつかのAIの発表があった。
OpenAIのイノベーションに伴い、我々はそのイノベーションのすべてをAzure AIの一部として提供します。
そして、GPT-4 Turboを含むGPT-4の最新技術をAzure OpenAIサービスに導入します。
さて、この基調講演の最もクールな瞬間の1つで、Satya Nadellaは実際にはChatGPTからまだ見たことのないものを披露しました。それは、プロンプトにビデオを追加することです。
それは、プロンプトに動画を追加できることです。これは、この基調講演全体のほんの2、3セグメントにすぎませんでしたが、私はこれを使い始めるのが待ちきれません。
近々、GPT-4 TurboとビジョンをAzure AI Visionに接続できるようになり、動画、画像、テキストでプロンプトを表示できるようになります。
実際、私たちの顧客であるWPPは、彼らの最大のクライアントのひとつで、今日すでにこれを使用しています。
また、Microsoft Azureのクラウドを利用して、Stable Diffusion Code、LLaMA、Mistral 7B、その他のモデルをMicrosoft Azureのクラウド上で直接微調整し、カスタムトレーニングすることができます。
また、NVIDIAはあらゆるものの一部であり、ジェンセン・フアンは基調講演のたびに登場する必要があるため、ジェンセンの簡単なカメオ出演があり、NVIDIAとMicrosoftがどのようにパートナーシップを深めているか、MicrosoftがNVIDIAが近々発表するH200チップをどのように使い始めるかについて語った。
また、Microsoft Teamsを全面的に見直し、自分のアバターを作成し、実際の顔の代わりにアバターを使ってチーム通話に参加できるようになりました。
さらに、Microsoft Teamsでミーティングを行う際、自分のミーティングスペースにプロンプトを表示させ、そのミーティングスペースを自分の好きなように見せることもできるようになる。
また、MicrosoftはCopilotのブランディングに全力を注いでいるようだ。
Bing Chatの代わりに、ほとんどのものがMicrosoft Copilotになる。
Bing ChatはCopilotになりました。
これは独立したデスティネーションで、Microsoft EdgeでもGoogle ChromeでもSafariでも、どこにいても機能する。
OpenAIとそのGPTsについて言えば、以前の基調講演で発表されたマイクロソフトの様々なプラグインと同様に、かなり近いうちにMicrosoft Copilotの中でGPTsを使用できるようになるでしょう。
GPTsは、職場や家庭での特定の作業により役立つ、カスタマイズされたバージョンのChatGPTを誰でも作成できる新しい方法です。
今後、CopilotでプラグインとGPTsの両方を使用して、あなたの体験をカスタマイズできるようになります。
そして今週、ポール・K氏から、一部のBingアカウントではすでにプラグインが展開され始めているとの情報を得た。
私のアカウントでは、まだプラグインは導入されていない。
Paulは、自分のアカウントにプラグインがあるかどうかを確認する方法を教えてくれた。
基本的には、bing.com/chatにアクセスし、最近のアクティビティの横に新しい小さなプラグインのタブが表示されていれば、アカウントに導入されていることになります。
しかし、これはどのように見えるかのちょっとしたプレビューです。
Instacart、Kayak、Clara、OpenTable、Shop、SearchがMicrosoft Copilotの初期プラグインとして利用できることがわかります。
そして、この基調講演の最後に、サティアがCopilot Studioについて語りました。
私たちはCopilot Studioを発表します。
Copilot Studioでは、カスタムGPTsの構築、新しいプラグインの作成、ワークフローのオーケストレーション、Copilotのパフォーマンスの監視、カスタマイズの管理など、さまざまなことができます。
ここで、Copilot Studioがどのようなものになるかを見てみましょう。
独自のデータをトレーニングしたり、カスタムGPTsを使用したり、プラグインを追加したり、Copilotに使用させたい要素をつなぎ合わせることができる、とてもクールなビジュアルビルダーがあるようです。
私には、GPTsから得られるものをさらに進化させたもののように見える。
こちらのCopilot Studioのウェブサイトを覗いてみると、自分のデータを使用したり、さまざまな他のツールと統合したり、自分のウェブサイトにポイントしたりすることができるようです。デモを試したり、今すぐ無料版を作ってみることもできるようです。
デモを試して、Future Toolsに接続して、チャットを始めてみましょう。
こんにちは、私はFuture Toolsのバーチャルアシスタントです。
どうされましたか?
長編動画を短編動画にカットするのに役立つツールは何ですか?
WisecutとSpikes Studioを使って長編動画を短編動画にカットできます。
さっそくこれらを開いて、これらが実際にできることなのか確認してみよう。
Wisecutはオンライン自動ビデオ編集ソフトです。
長い動画を自動的に短く、インパクトのあるコンテンツにカットしてくれる。
Spikes Studioでは、長編動画からバイラルクリップまでワンクリックで編集できる。
だから、彼らのデモでもかなり役に立っています。
Microsoft Copilot Studioは間違いなく、今後もっと深く掘り下げたビデオを作成し、実際に動かしてみて、何ができるかを確認しなければならないだろう。
GPTsと比べてどうなのか見てみよう。
でも、これもまた将来のビデオにとっておかなければならない。
また、基調講演にはなかったのですが、マイクロソフトのIgniteイベントで発表されたものに、TechCrunchがディープフェイクと呼んでいるものを作成する機能があります。
D-IDやH-AI-N、Synthesiaのようなツールに見られるようなもので、テキストプロンプトを与えると、唇が動いているように見えるしゃべるアバターを作ってくれる。
これは、他の多くのツールでも見られることだ。
マイクロソフトは独自のバージョンを作っているようだ。
しかし、ここに簡単なデモがある。
こんにちは、私はクリスティーナです。
4つのステップで魅力的なアバタービデオを作る方法をお見せしましょう。
まず、アバターのトーキングスクリプトから始めます。
実はこれ、まだ唇が声に合わせてうまく動いていないんです。
D-IDやH-AI-Nの方がまだかなりうまくできている気がする。
しかし、マイクロソフトがこれを展開しているのは興味深い。
マイクロソフトに期待していたわけではないが。
また、音声合成モデルのために自分の声を訓練できるL1ラボのようなものも展開しているようだ。
マイクロソフトに話を移すと、サティヤとジェンセン・フアンはH200チップを今後のクラウドコンピュータに使うつもりだと言っていたが、実はNVIDIAがこのH200チップを製造すると発表したのは今週になってからだった。
NVIDIA H200は、HBM3を提供する最初のGPUであり、本質的には、HPCワークロードの科学的コンピューティングを進めながら、生成AIと大規模言語モデルの加速を促進するために、より高速でより大きなメモリを搭載する予定である。
つまり基本的に、NVIDIAはAIのトレーニング用に設計された、より優れた高速チップを製造しており、マイクロソフトはそれをクラウドコンピュータに使用する予定です。
さて、Google Newsに話を移そう。
グーグルは実際に、10代の若者向けにバード体験を展開している。
基本的には、私たちがBardに期待しているものですが、よりガードレールがついています。
基本的には、若いユーザーにとって不適切な領域を認識するようBardを訓練し、違法な物質や年齢制限のある物質など、安全でないコンテンツが10代の若者への回答に表示されないよう、安全機能とガードレールを実装した。
また、もしティーンエイジャーが事実を求めた場合、それは強制的にクリックする必要がなく、自動的に二重チェックの応答機能を実行します。私の意見では、それはどちらにせよ行うべきだと思われます。
質問をして事実を知りたいのなら、常にダブルチェックを実行すればいいじゃないか。
しかし、どうやら彼らは10代の若者たちのためにそれをするつもりらしい。
どうやらYouTubeは、ミュージシャンのAIクローンを取り締まろうとしているようだ。
音楽レーベルやミュージシャンが、アーティストの独特の歌声やラップを使用した音楽の削除要求を送ることを許可し始めるようだ。
また、コンテンツがAIによって生成されたものであることを人々に知らせなければならないという要件も導入され、コンテンツに改変コンテンツや合成コンテンツという小さなラベルが貼られる予定です。
これは最近私に聞かれたことで、私はAIに携わり、YouTubeにも出演している。
個人的には、これは素晴らしい動きだと思う。
人々は、AIによって生成されたものを見ているかどうかを知るべきだと思います。
だから、AIコンテンツを生成している人たちに、AIが生成したコンテンツを見ていることを知らせるよう求めるのは、私にとっては良いことのように思える。
デメリットはあまり見当たらない。
これが好きではない唯一の人々は、他の人にAI生成のコンテンツではないと思わせようとしている人々です。
しかし、YouTubeやAI、音楽について話すと、今週、Google DeepMindは新しいLyriaモデルを披露しました。彼らはこのLyriaモデルを「Dream Track」という実験で試しています。
基本的に、限られたクリエイターがDream Trackを使用して、Alec Benjamin、Charlie Puth、Charlie XCX、Demi Lovato、John Legend、Sia、Troye Sivan、Papooseを含むアーティストのAI生成の声と音楽スタイルを持つユニークなサウンドトラックを制作することができます。
これらの名前のいくつかは以前聞いたことがありません。
これらはすべて、ユーチューブに許可を与え、ユーチューブとディープマインドと協力して、人々が新曲で独自の声を使えるようにしているアーティストたちだ。
彼らはまた、AIが生成した音声に透かしを入れる方法を開発した。理論上、普通の人は透かしを聞くことはできないが、波形を視覚化することで、波形を見る人が実際に透かしを見て検出できるようにするのだ。
この最後の投稿はDeepMindのブログでのものだが、YouTubeの公式ブログでもこのことが話題になっている。
このツールは、あなたがホーンの音をどのようにしたいかをほんの少しハミングするだけで、ホーンを作成することもできます。
したがって、AIで生成されたカスタムの音楽をビデオに生成することができますが、AIであるため、それにはロイヤリティやライセンスが付いていないはずです。
再び、かなりクールなもののようで、手に入れるのが待ちきれません。
そして最後に、YouTubeの他のニュースとして、彼らは人々がテストするためのAI機能の一部を展開し始めた。
YouTube Premiumユーザーであれば、今すぐモバイル版の新しいAI機能を試すことができる。
会話型AIを試すことができ、見ているビデオについて質問すると、トランスクリプトを使って、見ているビデオについての質問に答えてくれる。
また、AIによって要約されたコメントトピックもあり、すべてのコメントを読まなくても、その要約を得ることができる。
動画に関するコメントの大まかな内容を把握したい場合、このツールでコメントを要約することができる。
YouTubeのプレミアム会員であれば、youtube.com/newwにアクセスして、これらの機能を試すことができる。
だから、質問したいなら、今すぐ利用できる。
ただ、今はAndroidのYouTubeにしか対応していません。
また、AIがまとめたコメントトピックも試すことができ、こちらはAndroidとiOSの両方で利用できる。
注意点としては、一度に1つしか試せないということだ。
つまり、コメントトピックの要約と会話文の両方をオンにして、両方を同時に実行させることができる。
ただし、どちらか一方しかできない。
さて、今週はAIアートの世界で本当にクールなものをいくつか紹介しよう。
例えば、メタ社はエミュ・アート・ジェネレーター・モデルに関する2つの新しい研究を発表した。
エミュビデオとエミュエディットだ。
emu editは、AIが生成した画像の非常に特定の部分を編集できるインプ・ペインティング機能のようだ。
また、Runway Gen 2やpabs、Moon Valleyなど、現在利用可能なさまざまなAIビデオジェネレーターのようなもののようだ。
しかし、これらを覗いてみると、実によくできている。
他のビデオジェネレーターと比べて、彼らはより多くの動きを持っているようです。
例えば、カップルが仮面舞踏会の豪華なホールで優雅に踊るというプロンプトは、写真のようにリアルです。
私にはかなり良く見える。
この薪ストーブのプロンプトも素晴らしい。
薪で焼かれたピザ窯の中で回転するピザ、ドラマチックなビビッドカラー。
金色の角を持つ雄大な白いユニコーンが水中をスローモーションで歩く。
アテネのアクロポリスでテレビ画面を顔にしたロボット、4K高解像度。
ディスコのDJとしてバーチャルリアリティヘッドセットを装着したハムスター。
しかし、私がここで見ているものから推測するに、それらはすべて、他のツールで得られるような、まだ3秒や4秒といった、かなり短い世代になるのではないだろうか。
さて、いつになったら実際にアクセスできるようになるのかわからない。
今のところ、この研究は純粋に基礎的な研究だと書いてあるが、潜在的な使用例は明らかだ。
しかし、最終的に普通の人々が利用できるようになれば、楽しいビデオ作成とAI画像編集モデルで遊べるはずだ。
AIビデオというテーマで少し話を進めると、今週ランウェイから発表されたとてもクールなものがある。
まだ公開されていないと思う。
私のランウェイのアカウントにはないのですが、ビデオでインペインティングを行い、実際にビデオで見ているものを変えることができるのです。
このビデオで彼らがしたことは、このトラックを選択し、動いているのはトラックだけにした。
彼らはただ煙を選んで、煙だけをアニメーション化しました。
滝や他の部分はアニメーションしていません。
あなたはただ選んで、どの画像の要素をアニメーション化するかを伝えるだけで、それは本当に素晴らしく見えます。それによって、私たちはAIで生成したビデオに対してさらに制御を持つことができます。
これはゲームを変えるものになるでしょう。
Deorumのクリエイターの一人と一緒に、Deorumのライブストリームをやったことがあるんですが、Deorumは本当にクールなモーフィング・ビデオを作っていて、いろいろな映像の間をアニメーションで行き来するんです。
そして今、DeorumはDiscordボットを使って、このようなアニメーションを本当に簡単に作れるようにしている。
過去には、Automatic 11-11のようなものを使用する必要があり、アプリ内で望むビデオを得るために設定や構成、数値、さまざまなつまみがありました。
私が調べたところでは、SDXLモデルを使って、Discordの中で直接Deorumアニメーションを素早く簡単に生成できるようになるようだ。
それも楽しみにするものです。
app.deorum/as/signupに行けば、キャンセル待ちリストに載ることができます。
しかし、私はAIビデオで遊ぶのが大好きなので、アクセスできるようになったら、もっと深く掘り下げてみたいと思います。
Midjourneyについて簡単に説明しよう。
アリJWSは11月15日のオフィスアワーに登場した。
彼らは最近Niiスタイルのチューナーをリリースした。
彼らはバージョン6が12月のどこかでリリースされることを発表しました。
どうやら1~2週間以内にウェブサイト内から直接画像を生成できるようになるらしい。
ただし、10,000枚以上の画像を生成した人だけが利用できるようになるようだ。
また、バージョン6ではテキストの理解度が向上するようだ。
バージョン6では実際にテキストが書けるようになる可能性が非常に高くなりそうだ。
彼らは、すべてが順調に進めば、休日前に準備が整うと主張しています。
今週、Kaa AIというとてもクールなツールが出回っている。
KRE-E-Aで、実際にリアルタイムで画像を更新することができる。
実際、私の仲間の一人であるライリー・ブラウンがこのツールでできることを披露してくれている。
これを見てください。
クリップアートを追加するだけです。
この傘のクリップアートを追加して下にドラッグすると、彼が傘を持っています。
見てください、彼が傘を持っています。
そして、それを向上させます。
この画像を見てください。
このKaaツールはまだベータ版です。
ウェイティングリストに登録すれば、順次アクセスできるようになる。
私はそれにアクセスして自分で試してみました。
ビーチの砂浜に寝そべる男のようなプロンプトを出すことができた。
そして、この左側で絵を描き始めることができる。
では、背景を選んでみましょう。
ここでは、私たちが持っているビーチの砂のような色が見えます。
長方形を追加しましょう。
青にします。
それをここに配置します。
ここで楕円形を選びます。
それを作りましょう、わかりました、それを赤くしましょう。
ここに小さな頭を作ります。
ペイントブラシを持って、ここに横たわっているちょっと太い人物を描きます。
これはビーチでタオルをかけているところだ。
見てください、ビーチの砂浜に寝そべっているちっちゃな男ができました。
他にも、シネマティック、イラストレーション、プロダクトといったモードがある。
ここではシネマティックにしておきましょう。
このモードが本当にクールなのは、右の画像を掴んで左にドラッグすると、これをスタート画像として使ってくれることです。
この右の画像は強調され、この画像を基にさらに発展させることができます。
さあ、ここで赤い色を選んで、ここに何かを描いてみましょう。ここに何かを砂に置いてみましょう。ここにも何かを砂に置いてみましょう。
そうしているうちに、すべてが変化していくのがわかるだろう。
まだあまり時間をかけていませんが、とても楽しそうです。
ウェブカメラを起動して、カメラに映ったものを使ってAIが生成した画像を表示させることもできます。
実際、今日見たカレン・チャンの例では、ウェブカメラ・モードをオンにしていて、彼女が動き回っているときに、右側の画像が彼女の動きに合わせて実際に変化しているのがわかる。
かなりクレイジーだ。
kaakkea.aiにアクセスして、ウェイティングリストに参加してください。
かなりクールだ。
今週、NotionはQ&Aという新しいAIを発表しました。基本的にこれは、あなたが質問をすると、Notionのデータベース全体、つまりあなたがNotionに接続したすべての情報を調べてくれるものです。
その情報を照会することができる。
基本的には、あなたがこれまでNotionのアカウントに入力した内容や、質問に対するコンテキストをすべて使用します。
例えば、先週のウェブサイト再設計会議のアクションアイテムは何でしたか?
と尋ねると、Notion内のすべてのメモを検索して、その会議のアクションアイテムを表示します。
Notionをよく使う人なら、これは本当に、素早く何かを見つけるのに便利そうだ。
実際には、来週のビデオの1つでそれについてさらに話す予定ですので、お楽しみに。
GoogleのDeep Mindは、GraphCastと呼ばれるものを開発しました。それは、グローバルな天気予報においてより高速かつ正確なAIモデルです。
実際には、わずか1分で前例のない精度で10日間の天気予報を提供することができ、さらには極端な天候の早期警告も行うことができます。
グラフキャストは、6時間前の天気と現在の天気の2つのデータを入力するだけで、6時間後の天気を予測する。
そしてモデルは6時間後の天気を予測する。
このプロセスを6時間単位で進めることで、10日先まで最先端の予報を提供することができる。
まるで大規模な言語モデルの動作のようで、常に次の最適な単語を予測しようとしています。
これは、天気のグラフを見て、次に起こる天気の予測を試みるものです。
とても魅力的だ。
そして最後に、Go Forward Care Podの発表で締めくくろうと思います。
これはAI診察室です。
中に入ると小さな部屋のように見えます。
この箱の中に入ると、実際に体をスキャンし、あらゆる種類の病状を発見するのに役立ちます。
遺伝子分析、心臓の健康状態、皮膚がんの検出、さらには精神的な健康状態の分析に役立つ可能性さえある。
つまり、ごく近い将来、これが医療診断の仕組みになるかもしれない。
この箱の中に入ると、必要なスキャンがすべて行われる。
そして、その情報を実際の医師に伝え、次の行動や必要な治療などを考えるのに役立てます。
しかし、診断プロセスはAIによって非常に近い将来、完全に自動化されるかもしれません。私にとっては、それは非常に興奮することです。なぜなら、それによって多くの医師がさらに重要な仕事に取り組む時間が確保される可能性があるからです。
そして、これらの診断の正確さは、おそらくいずれにせよかなり確かなものになるだろうと想像している。
このようなことはすべて私を興奮させる。
私は大のオタクで、このようなものが大好きだ。
あなたにもこのようなものが好きになってほしい。
私はこのようなものが出てくるのを見るのが楽しみだ。
もしかしたら、私がこのAIの箱の中に入って、完全な健康分析を受けるVlogスタイルのビデオを作る日が来るかもしれない。
しかし、それがあります、今週のAIニュースの概要です。
繰り返しになるが、私はこのビデオを木曜日に録画しているので、このビデオで見逃したニュースがさらにあるかもしれない。
しかし、もしあれば、来週のビデオで確認するつもりだ。
また、最新のAI情報を常にチェックしたい方は、futur toolsをご覧ください。
私はAIニュースのページを毎日更新しています。
私が出会った最もクールなAIツールすべてをキュレーションし、毎週、私が出会った最もクールなツールを5つ紹介する無料のニュースレターも発行しています。
また、3つの興味深いニュース記事、YouTubeのビデオ、その他AIの世界で起きている本当にクールなことの数々をご紹介しています。
無料ニュースレターに参加するボタンをクリックするだけで、futur toolsでご覧いただけます。
だから、もう一度このビデオにチューニングしてくれて本当にありがとう、本当に感謝しています。
最新のAIニュースについて常に情報を得たい、AIのチュートリアルを受けたい、進行中の最もクールなAIの研究について学びたい場合は、このYouTubeチャンネルに登録し、このビデオにいいねをしてください。そうすることで、このようなビデオがもっとYouTubeのフィードに表示されることが保証されます。
このビデオにご視聴いただき、本当にありがとうございました。
また次のビデオでお会いしましょう。 バイバイ。