今週のAIニュースとして、まずRunwayのGen-3が一般公開されました。ElevenLabsも今週いくつかのアップデートを行い、有名な声を追加しました。音楽制作アプリSunoもリリースされましたが、現在はiOSのみで利用可能です。Metaは、テキストから3D画像を生成する新しい研究を発表しました。Hugging Faceでは、新しいオープンソースの大規模言語モデルIntern LLM 2.5が公開され、100万のコンテキストウィンドウを持ち、誰でも利用可能です。Braveブラウザもアップデートを行い、独自のAIモデルを導入できるようになりました。Perplexityも新しいPro Search機能を追加し、質問に対してより効率的に回答します。AppleはOpenAIの取締役会にオブザーバーとして参加することが決まりました。OpenAIとMicrosoftは、著作権侵害でまた訴訟を受けています。Figmaは、内部でデザインされたコンテンツをAIモデルのトレーニングに使用することを発表しました。YouTubeは、AIで生成された顔や声のコンテンツを削除する新機能を導入しました。
公開日:2024年7月6日
※動画を再生してから読むのがオススメです。
今週のAI界のニュースをすべてお伝えします。興味深いと思われるものです。
今週は大きな発表があまりありませんでした。
それはアメリカ合衆国での7月4日のためです。
私は、多くの企業が休暇週には旅行などの理由で発表や大きなリリースを控える傾向があると考えています。
しかし、それは話題が少ないということではありません。
今週も本当に素晴らしいことがたくさん起こります。まず、Gen-3アクセスが一般に公開されたという事実から始まります。
私は先週の日曜日にGen-3がリリースされる前にビデオを作成しました。
そのビデオが公開された翌日の月曜日に、Gen-3が一般に公開されました。
残念ながら、Gen-3は利用できません。
Runwayの無料プランを利用している場合、プロユーザーである必要があります。
しかし、Runwayのプロユーザーであれば、ビデオを生成するためにこちらにお越しいただけます。
Gen-3 Alphaの大きな紹介が表示されます。
「はじめる」をクリックして、ここにプロンプトを入力できます。
私はすでにGen-3でたくさんのビデオを作成しています。
すでに別のビデオも作成しており、このビデオではGen-3についてあまり詳しく説明しませんが、そのビデオ全体で何が期待できるかを詳しく説明します。
しかし、私は7月4日をテーマにしたビデオを作ろうと試みました。プロンプトは、アメリカ国旗の前を飛ぶ白頭ワシと、背景に花火があるものでした。
これが私に与えられたものです。
いつも最高とは限りませんが、今私たちが持っている最高のテキストからビデオへのジェネレーターです。
テキストからビデオ、Gen-3は今日私たちが持っている最高のものです。
画像からビデオ、Lumaは私の意見ではまだ最高です。Gen-3ではまだ画像からビデオを作ることはできません。
ElevenLabsは今週もいくつかの更新を行いました。
先週は彼らの新しいリーダーアプリについて話しました。
今週、ジュディ・ガーランド、ジェームズ・ディーン、バート・レイノルズ、サー・ローレンス・オリビエなど、有名な声をリーダーアプリに追加しました。
人々があまり心配しすぎないように、彼らは遺産から許可を得ており、取引を行い、遺産はこれを行うために支払われています。
すべては許可を得て正当に行われました。
もしアプリをご自身でチェックしたい場合は、携帯電話でElevenLabsを検索し、ElevenLabs Inc.が作成した正しいバージョンをダウンロードしていることを確認してください。
アプリストアには、実際のElevenLabsアプリであるかのようにあなたをだますたくさんの人がいますが、本当のElevenLabsと書かれたものを選んでください。
アプリに入ると、そこに新しいアイコニックな声のいくつかを実際に見ることができます。
それらを持っていることは素晴らしいと思いますが、個人的には、これらの人々が生きていた時期や彼らの声が利用可能だった時期によるところから、音声の品質は私のお気に入りではありません。
例えば、こちらがジュディ・ガーランドの声のサンプルです。
バート・レイノルズはおそらく最も良い音声を持っていると思います。なぜなら、彼は少し最近のもので、少し現代的だからです。
バート・レイノルズの声で記事やPDFなどを聞くことができると思います。
ElevenLabsは新しい音声分離機能もリリースしました。どんな種類のバックグラウンドノイズがあるオーディオでもアップロードでき、それをクリアにして本当に良い音にします。
特に、彼らがオンラインに公開したデモが気に入っています。実際にどれだけうまく機能するかを示しています。
これをチェックしてみてください。
かなり印象的です。
Sunoのファンであり、Sunoと一緒に音楽を作ることが好きな方は、今週アプリもリリースされました。
そのアプリは基本的にウェブアプリと同じことをしますが、スマートフォンで簡単にできるようになっています。
現時点では、iOSでしか利用できないと思いますので、Androidをお使いの方はおそらく近々リリースされるでしょう。
しかし、現時点では、ちょっと運が悪いかもしれません。
アプリストアで検索するときは、Sunoを検索してください。
もう一度、注意してください。
多くの人が、自分たちのアプリが公式のSunoアプリであると思わせようとするでしょう。
Sharp ForksによるSuno AIと書かれたものがありますが、それはSunoではありません。しかし、Sunoを名乗るアプリがかなりあります。
正しいものを取得していることを確認してください。
このアプリには、少しタイダイ風のサイケデリックな背景があり、アプリのクリエイターはSuno Inc.です。
クリエイターを見て、Suno Inc.と表示されていること、そして正しいアプリであることを確認してください。
Sunoに入ったら、ほぼウェブ版と同じように動作します。
作成したすべての曲が保存されているライブラリがあります。
作成ボタンがあり、最新の曲が上部に表示されます。
ウェブアプリでは、最新の曲がリストの一番下にあります。
再度、7月4日のテーマに合った何かを作ろうとしていました。
これがその結果です。
イメージがつかめますね。
Metaは今週、テキストから3D画像への研究を公開しました。
それは3DGinと呼ばれ、テキストプロンプトを入力してかなりまともな品質の3D画像を出力できるようです。
これにより、ゲーム開発や3Dビデオのアセット作成などの作業がスピードアップするかもしれません。
彼らがXに投稿したデモをここに示します。それが何ができるかを見せるために。
ここには、金属製の少し3Dパグと踊るロボットがあります。
Mixamoなどにこれを入力して、そのダンスを得たようで、かなり良さそうです。
これが、これまでに見た3Dテキストの多くよりもはるかに優れているか、それとも同じくらいであり、まだアクセスできないのか、私には本当に言えません。
彼らはちょうどその研究を公開しましたが、一度私がそれを使って遊べるようになったら、間違いなくそれで遊んで、何ができるかを見てみます。
今週、このKyotaiという会社がありますが、発音が正しいかどうかはわかりませんが、彼らはオープンソースのAI研究所です。
彼らは、GPT-4oの高度な音声と対抗しようとしている新しい音声モデルをリリースしました。それは今すぐ試すことができるだけでなく、他の企業がそれを基に新しいツールを構築し、その基盤技術を使用して新しいツールを構築することができるようにオープンソース化しています。
試してみたい場合は、moshi.chatにアクセスして、キューに参加するためにメールアドレスを入力してください。
なぜそれがそうなるのかわかりません。なぜなら、キューに参加をクリックするとすぐに、それがあなたをそこに直接入れて、それを使うことができるからです。
こんにちは、どのようにお手伝いしましょうか?
あなたの名前は何ですか?
あなたはモシです。
いいえ、あなたがモシです。
あなたを作ったのは誰ですか?
私はパリを拠点とする非営利研究所である協体によって作成されました。
あなたは一番得意なことは何ですか?
私は音声人工知能ですので、人間の話し言葉を理解し返答することができます。
数学は得意ですか?
はい、基本的な数学の計算はできます。
700,532を7倍すると何になりますか?
7,532を7倍すると53,2303になります。
私が尋ねたこととはちょっと違いますが、それでもかなり印象的です。
GPT-4oで見たものとはまだまだ及びませんが、声はあまり表現豊かではありません。それでも非常にロボットっぽいです。
しかしながら、聞いた返答はリアルタイムでした。
私は、実際よりも早く私に返答しているように見せるためにこれを編集していませんでした。
実際には、時には文を終える前にあなたの声をかき消すようにほぼ即座に返答します。
これがオープンソースであるため、これは私たちがこのテクノロジーから見るものの基本レベル、基盤に過ぎません。
他の人々がこれを使い始め、ElevenLabsのようなよりリアルな声を持つツールと統合し、現在よりも賢いと思われる他の大規模言語モデルと統合すると、これは実際にははるかに優れており、高度な音声アシスタントであるGPT-4oに対するまともな代替手段となるでしょう。
オープンソースについて話すと、Hugging FaceでIntern 大規模言語モデル 2.5という新しいオープンソースの大規模言語モデルが利用可能になりました。
このモデルの興味深い点は、オープンソースであるだけでなく、100万のコンテキストウィンドウを持っていることです。
GoogleのGeminiは現在200万のコンテキストウィンドウを持っており、おそらくほとんどの場合には過剰です。
正直に言って、100万のコンテキストはおそらくほとんどの場合には過剰ですが、今では誰でも構築できるオープンソースの100万のコンテキストウィンドウがあります。
Hugging Faceで遊ぶために誰でもすぐに利用できます。
重みは今すぐ利用可能であり、おそらく今すぐまたはすぐにLM StudioやJan、ChatRTXのようなツールで使用できるようになるでしょう。
それは自分のモデルを持ち込むようなチャットシステムのようなものです。
自分のモデルを持ち込むようなチャットシステムと言えば、Braveブラウザはちょうどアップデートを行い、Braveブラウザに自分のモデルを持ち込むことができるようになりました。
Braveには、Microsoft Copilotで見られるような独自のAIがブラウザに組み込まれています。
彼らはそれをLeo AIと呼んでいます。
実際にカスタムモデルを使用することができます。
Mixtral、Claude、Llamaはすでに持っていますが、興味がある場合は実際にカスタムモデルを追加することができます。
Perplexityも今週、Pro Searchを更新しました。
新しいPro Searchには、マルチステップの推論があり、質問に計画が必要な場合に実際に理解し、目標を段階的に進め、より効率的に詳細な回答を統合します。
また、検索結果を分析し、調査結果に基づいて知的な行動を取ることもできます。
Wolfram Alphaの追加により、数学やプログラミングもはるかに優れています。
Perplexityの無料ユーザーの場合、4時間ごとにPro Searchを5回使用できます。
Perplexity Proメンバーの場合、ほぼ無制限の毎日アクセスが可能です。
いくつかの制限はありますが、おそらくそれらを見つけることはできません。
OpenAIとChatGPTは、チャットボットや大規模言語モデルを人気にする道を切り開いたと感じています。
でも、完全に正直であれば、私はClaudeとパープレクシティのファンになりました。
私はほとんどのことにClaudeを使用していますが、調査を行う必要があるときは、今のところパープレクシティが最良の選択肢のようです。
Appleが実際にOpenAIの取締役会に議席を得ることになっているようです。
それはオブザーバーの役割になるので、投票権は持たないでしょう。
しかし、MicrosoftとAppleは明らかに世界で最も大きな2つの企業であり、彼らはいくつかの競合関係にあるので、非常に興味深いです。
両社は実際にOpenAIで取締役の役割を持つ予定なので、非常に興味深いです。
しかし、OpenAIに関しては、また別の週、また別の訴訟が起こっています。調査報道センターがOpenAIとMicrosoftを訴えています。
再び著作権侵害を主張し、OpenAIとMicrosoftは私たちのストーリーを吸い上げて製品を強化し始めましたが、他の組織とは異なり、許可を求めたり補償を提供したりしませんでした。
最近、OpenAIは多くのライセンス契約を締結していることを覚えていますか。アソシエーテッドプレス、アクセル・シュプリンガー、フィナンシャル・タイムズ、ニューズ・コープ、ボックスメディア、アトランティック、タイム。
これらの訴訟のいくつかは、OpenAIのレーダーに乗るための試みであり、ライセンス契約を締結するための議論を開始するためのものではないかと考えさせられます。
結局のところ、これはこれらの企業にとってはすべてお金の問題であり、OpenAIが彼らに断れないライセンス提供をしたら、彼らはOpenAIにすぐに乗り出すでしょう。
しかし、それは単なる推測に過ぎません。
ムスタファ・ソリマンは、私の意見では、普段言葉を慎重に選び、非常に非常に賢い人物です。
彼は『The Coming Wave』という本を書いており、AIの現状と将来について素晴らしい本です。
しかし、彼はいくつかの発言をしており、私自身も本当に賛同できません。
オープンウェブ上に既に存在するコンテンツに関しては、90年代以来そのコンテンツの社会契約はフェアユースであるとされています。
誰もがそれをコピーしたり、再作成したり、複製したりすることができます。
それはフリーウェアであったと言えます。
それが理解されてきたことです。
ウェブサイトや出版社、ニュース機関などが明示的に「他の人がそのコンテンツを見つけられるようにインデックス化する以外の理由で私をスクレイプやクロールしないでください」と言っている別のカテゴリがあります。
それは曖昧な部分であり、それが裁判を通じて解決されると思います。
インターネットやYouTube、個人のブログにコンテンツを掲載した場合、特定のrobots.txtファイルを設定していないだけで、これらの企業がこのコンテンツを自由に使用することを受け入れるべきでしょうか?
私はそれを支持するのが難しいです。
彼が言っていることをある程度理解しています。
インターネットに掲載すると、誰もがそれを見ることができるので、そこで見るかここで見るかに何か違いがあるのでしょうか?
彼が伝えようとしているポイントだと感じます。
それは完全に著作権を無効にするものではありません。
あなたの考えは何ですか?
ここでのムスタファに同意しますか?
ちなみに、スクレイピングされたくないし、コンテンツがAIに取られたくない場合は、Cloudflareが今週、解決策を提供しました。
もしCloudflareを利用している場合、それはあなたのドメインとホスティングの間に存在するコンテンツ配信ネットワークであり、ウェブサイトの多くのコンテンツをキャッシュしてウェブサイトの読み込みを高速化します。私はこれを説明するのに最適な人物ではありませんが、それはあなたのサイトの読み込みを改善し、サイトのセキュリティを支援し、サイトのダウンタイムを防ぐのに役立つサービスです。
彼らは、AI向けにスクレイピングを行っているスクレイパーがあなたのサイトをスクレイプできなくなるようにするスイッチを持っており、Cloudflareの無料および有料ユーザーの両方が利用できます。
Microsoftのような企業があなたのコンテンツを取得して自由に使用することを心配している場合、Cloudflareは特に無料オプションを提供しているため、良い選択肢になるかもしれません。
AIを訓練するためにあなたのコンテンツを使用する話になりますが、先週、FigmaはAI機能を披露したconfigカンファレンスを開催しました。
今週、Figmaは公式声明をユーザーに発表し、会社がFigmaのコンテンツを通じてデザインの概念やパターン、Figmaの内部形式や構造をよりよく理解するモデルを訓練する必要があると述べています。
明らかに、彼らはオプトアウトする方法を提供する予定ですが、デフォルトでは、明らかに、Figma内で作成したデザインやものに対してトレーニングを行うようです。
Figmaは、今週、人々のために設計していた天気アプリが、Appleの天気アプリとまったく同じに見えることが明らかになったときに少しトラブルに巻き込まれました。
FigmaのCEOは、組み込みAIに対して市販の言語モデルを使用していると述べ、Appleのデザインに特化してトレーニングされていないと説明しましたが、使用している市販のAIがAppleのデザインにトレーニングされている可能性があり、その後、この機能を一時停止しました。
実際にFigmaでこの種のものを作成する機能は現在利用できません。問題を修正し、他社のデザインと全く同じようなデザインを誤って作成しないように確認しています。
YouTubeは、YouTuberがあなたの姿や声を模倣するコンテンツを作成した場合、そのコンテンツを削除するようにリクエストできる新機能を導入しました。
以前は、実際に盗まれたコンテンツのようにならなければなりませんでした。
たとえば、誰かが私の動画を持ってきて、それを自分のYouTubeチャンネルに投稿した場合、私はそれを取り下げるように強制することができます。
また、彼らが私の音楽や知的財産を使用した場合、私はそれに著作権を主張し、取り下げさせることができます。
誰かがあなたの声のAIバージョンや顔のAIバージョンを使っただけでも、それを取り下げるように要求することができます。
Instagramも少し調整を行いました。
多くの人々が、Photoshopを使用した場合など、少しでもAIを使用した画像にはおそらく「AIで作成」と表示されることについて少し騒いでいました。人々は、「この画像はAIで作成されたわけではない。たぶん少しの色補正を行っただけで、それには少しのAIが使われているかもしれない。あるいは背景の小さなものを消しただけで、それには少しのAIが使われているかもしれない」と言っていました。
それは私の画像がAIで作成されたという意味ではなく、ただ画像に微調整を加えて少し良く見せるだけだという意味です。
彼らは言葉を変えました。
もはや「AIで作成」とは表示されず、「AI情報」と表示されます。
それをクリックしてメタデータを見ることができます。
今週、新しいバージョンのGrokが出るという情報も入手しました。
Grok 2は、おそらく8月に登場するようです。
これはイーロン自身からの情報です。
彼はX上でBefJezosに返信しており、お互いのデータでトレーニングするモデルは人間のムカデの効果のようだと述べていました。
イーロンの返答は、「AppleがGoogleと提携するかもしれないという噂もある」というものでした。
WWDCで、GeminiはOpenAIと提携して、一部のチャット機能を強化することを発表しました。
OpenAIの技術を使用したくない場合、Geminiも選択肢になりつつあるようです。
この記事によると、Appleは今秋にGoogle Geminiとの取引を発表するかもしれませんが、これはすべて噂と推測に過ぎません。
WhatsAppは、いくつかのリークされたスクリーンショットに基づいて新機能を導入するようです。
AppleがWWDCの基調講演で披露したものに非常に似ており、自分の画像をアップロードすると、自分に似たカートゥーンや代替バージョンが生成されるようです。
これはWhatsApp内で展開される予定の機能のようですが、WhatsApp内にあると想像しています。
おそらくInstagramやMessenger、Metaが提供している他のツール群にも含まれるでしょう。
Metaを触れたので、Meta Ray-Bansには競合他社が出てきていますが、個人的には大好きです。
私のサングラスは毎日これを着用していますが、側面に小さなカメラが付いていて非常に似ているものを作ろうとしている新しい会社があります。そして、大規模言語モデルを持つでしょう。
実際、それにはChatGPT-4oを大規模言語モデルとして使用する予定で、正直なところ、現在Metaのメガネに搭載されているLlama 3よりもまだ優れています。
最後に、これは本当にすごかったです。
これを自慢したかったのです。
それはOpen Televisionと呼ばれています。
これにより、映画アバターのように、3000マイル離れた場所でもロボットを没入的に操作することができます。
こちらでApple Vision Proを着用した人が手を動かしているのが見えます。
私たちはボストンのMITにいますが、ロボット自体はこちらのUCSDにあり、彼が手で行っていることは、実際には国の反対側でロボットが行っています。
それはかなりクールだと思いました。
このテクノロジーにもっと深く入りたいです。
将来的には、ロボティクスやその他のことに関する動画をもっと作るつもりです。
まあ、私はサンディエゴにいます。
もしかしたら、UCSDで直接デモを見ることができるかもしれません。
でも、この技術が本当にクールだと思ったので、今週の最後の楽しいこととして共有したかったんです。
7月4日の週なので、大きな重要な発表はあまりありませんが、話題はたくさんあります。
AIの世界で何が起こっているかについてもっと理解できたらいいなと思いますし、この情報の中に面白い、興味深い、魅力的、失望、怖い、などと感じることができたらいいですね。
すべての感情は正当です。
私が知っていることは、それを研究することが大好きだということです。
あなたに向けて回り、指摘することが大好きで、これらの動画をチェックしてくれて、私がこれをやらせてくれることにとても感謝しています。とても楽しんでいて、本当に本当にあなたが視聴してくれることを大変感謝しています。
私が出会った最新のAIニュースや最もクールなAIツールを共有しているfuturetools.ioをチェックするのを忘れないでください。
まだ参加していない場合は、無料のニュースレターに参加してください。
AIニュースに焦点を当てる予定ですが、AIだけでなく、新興技術にも焦点を当てます。
たくさんのAIニュースレターがあります。
私はそれをAI以外の新興テクノロジーにも少し拡大していく予定です。
そこから出てくる本当にクールなものを見たいと思うでしょう。
futuretools.ioでチェックしてみてください。
このような動画が好きなら、AIニュースの週次レビューやAIチュートリアル、新興技術や将来の動向について最新情報を知りたい場合は、この動画を気に入ってチャンネルに登録してください。私は、このようなコンテンツがYouTubeフィードに表示されるようにします。
また一度チューニングしていただき、本当にありがとうございます。
本当に、本当に感謝しています。
次の動画でお会いできることを願っています。
さようなら。