AI最新情報: OpenAIがついに新モデルをリリース！

2024年9月15日 06:09

13,514 文字

ディズニーランドで先週を過ごしてきたんやけど、もちろんワイがおらん間に大きな発表がいっぱいあってめっちゃ大変な週やったみたいやな。いつもより1日遅れてAIニュースの動画を出すことになってもうたから、時間を無駄にせんようにすぐに本題に入らせてもらうで。
今週は本当に大きなことが2つあって、あとは小さなことがいっぱいあったんや。大きな2つっちゅうんが、OpenAIの新しいリリースとAppleのiPhoneイベントやな。まずはOpenAIの新しいo1プレビューモデルの話から始めよか。
ここ数ヶ月、OpenAIからいろんな予告が出とったんやけど、最初はQARって呼ばれとって、次にStrawberryになって、今はOpenAI o1って呼ばれとるんや。今後のモデルもこの命名法に従うんちゃうかなって感じがするわ。GPT-5とかGPT-6とかGPT-7とかじゃなくて、これが01で、彼らのブログにも「カウンターを1に戻して、このシリーズをOpenAI o1って名付けた」って書いてあるんや。
次に見せるモデルはOpenAI o2やOpenAI o3になって、もしかしたら小数点も入るかもしれんな。
これらの新しいモデルを使うには、ProプランかEnterpriseプランに加入せなあかんのや。つまり、ChatGPTに課金せなあかんってことやけど、アカウントにログインしたら、課金メンバーなら誰でも新しいオプションが見えるはずや。
デフォルトではまだChatGPT-4.0やけど、このドロップダウンをクリックすると、o1プレビューとo1ミニが見えるはずや。古いモデルは「その他のモデル」っていう追加のドロップダウンの下に入っとるで。
基本的には、OpenAIはほとんどのことにGPT-4.0を使うことをおすすめしとるんやけど、o1モデルは高度な推論や数学、論理、よく考える必要のある複雑なタスクに使うのがええみたいやな。
このモデルが以前のモデルと何が違うんか、何がええんかって言うと、基本的に応答する前に考えるんや。質問すると、応答がちょっと遅くなるけど、本当によく考えて応答するんや。これを「思考連鎖プロンプト」って呼んどるんや。
ここでo1プレビューを選んでみると、いくつかの提案されたプロンプトが見えるで。その中の一つに「StrawberryのRは何個？」っていうのがあるんやけど、以前のGPT-4モデルはずっとStrawberryにはRが2つあるって言うとったんや。
じゃあ、デモプロンプトの一つを使ってみよか。「パズルを作ってくれ」って言うてみるわ。ここに「6x6のノノグラムパズルを作ってくれ。解いたグリッドがQの字に見えるようにして」って書いてあるな。
見てみ、実際に考えとるで。このドロップダウンを開くと、その思考プロセスが見えるんや。パズルを作る、6x6のグリッドをスケッチする、Oの形を作る、グリッドを埋める、セルのパターンを調べる、セルのパターンを評価する、パズルを作るって感じやな。ChatGPTがすべてのステップを考えとるのがわかるで。
で、最後に完成したら、ここに「6x6のノノグラムパズルができました」って書いてあるわ。このプロンプトの一番上を見ると、30秒間考えたって書いてあるな。つまり、30秒かけてその思考連鎖のロジックを使って、やるべきことをすべて考えたってことやな。
他の例のプロンプトに「高度な数学の問題を解け」っていうのがあるけど、ワイには読めへんような複雑な数学の問題を書いとるわ。基本的に、応答しようとして、その過程で自分をチェックしながら、最終的に最善の応答だと思うものを出力するんや。
ここでもまだ考えとるのが見えるな。数学の問題を解いとる最中やで。答えは721やって。それが正しいかどうかワイにはわからへんけど、33秒かけて考え抜いたんや。
OpenAIのブログにあるプレスリリースには、OpenAI o1をどう使ってきたかの例がいっぱい載っとるで。経済学、認知科学、量子物理学、遺伝学なんかやな。
o1プレビューとo1ミニがあるって言うたけど、o1ミニは最終的にChatGPTの無料ユーザーも使えるようになるみたいやけど、今のところ両方とも課金メンバーだけが使えるんや。
かなりテストもしとって、o1はプログラミングコンテストの問題で89パーセンタイル、アメリカの数学オリンピック予選で上位500人に入るレベル、物理学、生物学、化学の問題のベンチマークで人間の博士レベルの精度を超えとるらしいで。思考連鎖の推論を使うことで、技術的な問題を解くのがずっと上手になったみたいやな。
ウェブサイトに載っとるいろんなベンチマークを見ると、まだアクセスできへんo1モデルがあるみたいやな。これらのグラフを見ると、o1モデルとo1プレビューモデルがあるんや。o1プレビューモデルが今ChatGPTで見えとるやつやな。
コンテスト数学では83.3%の精度やけど、今使えとるバージョンは56.7%の精度やな。コンテストコードでは、メインのo1モデルが89パーセンタイルやけど、今使えとるのは62パーセンタイルや。博士レベルの科学の質問では、o1が78点、実際に使えとるo1プレビューが少し良くて78.3点やな。専門家の人間が69.7%の精度やから、それと比べてみてな。
他のベンチマークもあって、GPT-4.0がピンク色で、o1の改善が青色で示されとるわ。青色が前のGPT-4.0モデルをどれだけ超えとるかを表しとるんや。例えば、数学ではGPT-4.0が60.3で、o1が94.8やから、約34%の改善やな。
ウェブサイトには使用例がいっぱい載っとるし、YouTubeにもデモやウォークスルーの動画がいっぱいアップされとるけど、基本的にo1プレビューモデルは暗号化コード、数学、クロスワード、英語、科学、安全性、健康科学のすべてでGPT-4.0を上回る性能を示しとるんや。
ここの上の方に最初のプロンプトと応答が載っとるけど、ほとんどすべてのケースでo1がGPT-4.0を上回っとるんや。
あと、OpenAI o1ミニもリリースされたんやけど、これはOpenAI o1プレビューより80%安くて、STEM（科学・技術・工学・数学）の推論に最適化されとるんや。
この新しいOpenAI o1モデルについて、人々が大きく不満に思っとるのが価格やな。ソフトウェア製品のAPIを通じて使おうとすると、既存のものよりかなり高くなるんや。また、さっき見たように思考プロセスを経るからかなり遅いんや。
このOpenAI o1ミニモデルは、そういった問題を少し解消するためのもので、コストを下げて、プレビューモデルよりもかなり速くなっとるんや。ここを見ると、o1ミニモデルは9秒かかったけど、o1プレビューモデルは今ワイが話しとる時点で既に30秒経っとるな。
ジム・ファンのこのツイートがめっちゃええと思うわ。何が起こっとるかをもっとはっきり説明してくれとるんや。特にこのグラフがええな。
ほとんどの大規模言語モデルは、事前学習に時間とお金の大半を使うんや。ウェブ上のあらゆるデータをかき集めて、それをモデルに学習させるんや。それから「後学習」ってのをするんやけど、これはファインチューニングとか、ガードレールを設定したり、モデルにどう応答すべきかを教えたりするんや。そして「推論」ってのは、これらのAIモデルを使う時にほんのちょっとだけ起こることやな。推論っていうのは、プロンプトを与えて応答をもらう時のことや。
GPT-4.0は推論がめっちゃ速くて、質問すると3秒以内に応答するんやけど、今回は事前学習にあまり時間をかけへんようにしとるみたいや。あらゆるものをかき集めるんじゃなくて、後学習には同じくらいの時間をかけとるけど、実際にプロンプトを与えて応答をもらう推論の部分により多くの時間をかけとるんや。
理論的には、事前学習に時間をかけへんようにして、推論の段階により多くの時間をシフトしとるから、新しくて改良されたモデルをもっと早くリリースできるはずやな。
OpenAIみたいな会社は、一番高くつく事前学習の部分を最小限に抑えるために、わざと推論の段階を遅くしとるんや。
これはめっちゃ単純化した説明やけど、ワイが言及した記事やポスト、ツイートへのリンクは全部この動画の下に載せとくから、もっと深く掘り下げたい人はそっちを見てな。
一つ言及しておきたいのは、ワイの友達のデイビッド・シャピロが言うとることや。彼は「クロード・ソネット3.5は適切なプロンプトを使えばストロベリーができる。秘密のソースなんてないで。どのモデルでもデータを合成できるんや」って言うとるんや。
基本的に彼が言いたいのは、思考連鎖プロンプトはずっと前からあって、どの大規模言語モデルでも使えるってことや。思考連鎖プロンプトを使えば、ステップバイステップで考えるように指示して、正しい結論に至るための追加のプロンプトを与えられるんや。
OpenAIがやっとるのは、そういったものをすべてシステムプロンプトみたいなところに入れて、ステップバイステップで考えて、自分の応答を見て、評価して、その評価に基づいて応答を更新し続けるように指示しとるだけやな。今までは追加のプロンプトでそれをやっとったけど、今はOpenAIがプロンプトの直後にそれをやってくれるってことや。
でも、これが今週の一番大きなニュースで、AIの世界で一番話題になっとるんや。
今週起こったもう一つのことは、AppleがGlow Upイベントを開催したことやな。このイベントは基本的に、最新のiPhone、最新のApple Watch、それからAirPodの最新イノベーションなんかの情報をアップデートするためのもんやった。
Appleのキーノートで話された人工知能の機能のほとんどは、実はWWDCで既に発表されとったんや。iPhone 16に搭載される新しいAI機能についてはあんまり新しい情報がなかったんや。
Apple自身も、新しいデバイスに搭載されるApple Intelligenceに焦点を当てたブログ記事を出しとるで。メールや文書の書き直しや校正、要約ができる機能、写真の背景にあるものを消せる機能、通知の優先順位付け、Siriを使う時の新しい発光ボックス、AI artを生成できる新しい画像プレイグラウンド、ノートの中で直接生成できる機能なんかが含まれとるな。
でも、これはほとんどWWDCでプレビューしたもんで、今回のAppleイベントで新しく発表されたわけやないんや。
ただ、Appleイベントからいくつか興味深いことがあったから、そのキーノートの部分だけ取り上げるで。
例えば、Apple Watchに人工知能による翻訳機能が組み込まれるってことやな。音声認識と高速翻訳に機械学習を使うTranslateアプリがApple Watchにやってくるんや。
新しいAirPodsで面白かったのは、Siriとやりとりする時に頷いたり首を振ったりして応答できるようになるってことやな。Siriのアナウンスに対して、単に頷いて「はい」、首を振って「いいえ」って答えられるようになるんや。
プライベートクラウドコンピューティングについても話があったな。これは基本的にクラウドコンピューティングを使えるけど、プライベートやから、Appleはあんたのデータを保存したり、保持したり、学習に使ったりせえへんのや。また、モバイルフォンでは動かへんような大きなモデルを使うために、クラウドGPUに処理を送ることもできるようになるんや。
メールの書き直しとか、テキストから画像や絵文字を生成したり、通知をまとめたり、重要やと思われる通知を優先したりする機能も再び紹介されたな。
それから、新しいビジュアルインテリジェンスっていうのもあるんやけど、これはすぐには使えへんみたいやな。来年の2025年3月くらいに来るらしいわ。これは、何かの写真を撮ると、その写真に関する情報を提供してくれる機能や。例えば、レストランの写真を撮ると、閉店時間とか、価格帯とか、レビューとかの情報を教えてくれるんや。
写真編集にも新しいアップデートがあるんやけど、これは前に見たやつやな。
基本的に、発表されたことのほとんどはWWDCで発表されたことやったんや。ただ、新しいiPhone 16の文脈で紹介されたってことやな。
The Vergeがこの後に「iPhone 16は開発途中の状態で出荷される」っていう記事を出したんや。基本的に、9月か10月初めにiPhone 16を買っても、Apple Intelligenceの機能は一つも使えへんってことやな。
これらのAI機能は10月頃のiOS 18.1から徐々にリリースされていくらしくて、さっき言うたビジュアルインテリジェンス機能は来年の3月くらいまで来へんのや。だから、AI機能を一番乗りで使いたくて急いで買ったとしても、初日には使えへんってことやな。残念やけどな。
Adobeも今週、面白い情報を共有してくれたで。Fireflyの新しいテキストから動画生成バージョンやな。
プレビューを見る限り、これはSoraと競争できるかもしれへんな。しかも、すべて倫理的に調達された動画やって主張しとるで。オープンにライセンスされた公開ドメインのコンテンツとAdobeストックのコンテンツだけで学習させたんやって。商業的に安全やって言うとるで。
ピエールのスレッドを見ると、この新しいAdobe Firefly動画モデルから出てきた動画の例がいくつか載っとるで。5秒くらいの動画を生成しとるみたいやな。
ここに銀河がズームアウトして目玉が見えるやつがあるな。トナカイの細かい肖像画、スローモーションの火山の風景、羊毛とフェルトでできた小さくてかわいいモンスター、ドローンに乗ったカメラが砂漠の上を飛んでいって、下の砂に波ができとる様子、大きな赤い虫眼鏡を通して見た白いタンポポのめっちゃ接写したやつ、日没のゴールデンアワーに雪の森の木々の間を飛んでいくドローンの映像、フライパンで卵を調理するフェルト製の2Dストップモーションアニメーション。
これはめっちゃクールやと思うわ。こういうアニメーションのスタイルは、ショートフィルムや説明動画に使えそうやな。
宇宙を見上げてる子供の表情を単純な線画で手描きしたやつ、月の上で笑ってるかわいいチーズボールの3Dレンダリング、水がはねて凍って「ice」って単語を作るマクロ撮影。
これにはまだアクセスできへんけど、かなり期待できそうやな。もちろん、これらの動画は厳選されたものやろうな。おそらく何度もプロンプトを試して、一番ええのを選んで共有しとると思うけど、これがAdobe Fireflyの動画モデルができることやって言うとるんや。
他にも小さいけど面白いことがいっぱい起こったから、急いで紹介していくで。まだタブをいっぱい開いとるから、できるだけ手短に要点だけ伝えていくわ。
まず、Mistralが Pixol 12bをリリースしたんや。Mistralはオープンソースとクローズドソースの大規模言語モデルを両方提供しとるんやけど、この新しいPixolモデルは画像を入力として受け取れる彼らの最初のモデルなんや。
今までほとんどのモデルでできとったことが、今はMistralの12bモデルでもできるようになったってことやな。一番ええのは、これがオープンソースモデルやってことや。開発者はこれを使って、改良したり、ファインチューニングしたり、好きなようにいじって、もっとええモデルにできるんや。これはめっちゃクールやで。
GoogleはNotebook LMっていうツールを持っとってな、これがめっちゃ便利なんや。たくさんの文書をアップロードして、それらの文書について会話できるんや。
例えば、ここに電球の発明についてのノートブックがあるやろ。電球の発明に関するいろんな記事がアップロードされとるのが見えるな。で、これらのソースについて実際に会話できるんや。質問するたびに、これらのソースすべてを見て、利用可能なソース内の情報に基づいて応答してくれるんや。
それ自体めっちゃクールで便利やけど、Claude projectsでもできることに似とるな。そっちでも一堆のソースをアップロードして、それについて会話できるんや。
でも、彼らは新しい機能をリリースしたんや。基本的に、あんたのノートについてのポッドキャストを生成してくれるんや。ここに下がって「Notebook guide」ってとこをクリックすると、この新しい「audio overview」ボタンが見えるやろ。
これをクリックして「load」を押すと、「数分かかるかもしれません」って言うて、2人の人が電球の発明について議論しとるポッドキャストを作ってくれるんや。こんな感じやで。
（音声再生）
「電球って今じゃ当たり前すぎて、暗くなったら見えるようにするためにあるのが当然みたいに思とるよな。考えてみるとおもろいわ。スイッチをパチッと押したら、バーンって瞬時に太陽の光みたいなもんが出てくるんやからな。時間に関係なく。」
これはGoogleが用意したサンプルの一つやけど、ワイは複雑な研究論文を入れたらどうなるんかなって気になってな。実際にArchive.orgから、伝統的な拡散モデルの計算限界に対処するために線形注意メカニズムを使用する、テキストから画像生成のための新しいアーキテクチャであるLin Fusionについての文書を取ってきたんや。
この複雑なPDFを全部の技術用語込みでNotebook LMに放り込んで、音声概要を作ったら、その論文が何について語っとるのか実際に理解できるんかなって思ってな。
答えは、うん、実際にかなりええ仕事をしたんや。
（音声再生）
「クリエイティブな気分になったことあるやろ？めっちゃクレイジーで詳細なAIアートのアイデアがわいてきたけど、実際に画像をレンダリングするのにめっちゃ時間がかかって、パソコンが爆発しそうな音を立てとるのを思い出した時のあの感じ。ほんまにテンション下がるよな。」
全部は再生せえへんけど、文書の内容について二人が会話するポッドキャストスタイルになっとるんや。めっちゃクールな機能やで。みんなにも試してみてほしいわ。notebook.lm.google.comで利用できるで。
音声の話題といえば、Amazonがオーディブルのナレーターに自分の声をAIでクローンすることを許可するんや。Amazonは今週から、少数のオーディブルのナレーターに、AI生成の声のクローンを訓練することを招待し始めるんや。プラットフォームのオーディオブック制作を加速させるのが目的やな。
これは米国でのベータテストで、今年の後半には著作権保有者、つまり作家やエージェント、出版社にも拡大される予定やって。ナレーターはAmazonのプロダクションツールを使って、AIの声の複製の発音やペースを編集することもできるんや。
Amazonによると、ナレーターはタイトルごとのロイヤリティシェアモデルで報酬を得られるらしいけど、それ以上の詳細は明かされへんかったな。
Sonnoが今週、めっちゃクールな新機能をリリースしたで。「Covers」っていうんやけど、こんなXポストを出しとるわ。
「あんたの好きな音楽を新しい形で再現しよう。Coversは、シンプルな音声録音から完全にプロデュースされたトラックまで、何でも全く新しいスタイルに変換できるんや。でも、あんたにユニークなオリジナルのメロディーは保持したままやで。」
最初にこれを知ったのは、XでNick St. Pierre、別名Nick floatsから聞いたんやけど、ワイも自分で試してみたくなってな。で、こんなことをしてみたんや。
ワイの歌がへたくそなのは判断せんといてな。でも、こんな感じの音声クリップを録音したんや。
（音声再生）
「Subscribe to Matt Wolfe on YouTube and don't forget to check out Future Tools dot ai.」
これがワイの素晴らしい歌やで。基本的に、Sonnoに行って、「Create」をクリックして、「Upload Audio」をクリックして、音声ボタンを押したら、自分の声を録音できるんや。
声をを録音したら、他の生成した曲と一緒にここにその小さな音声クリップが表示されるんや。右側にある3つのドットをクリックして、「Create」まで下がると、「Cover Song Beta」っていうオプションが見えるはずや。
これをクリックすると、今入れた音声を使っていくつかのカバーソングを作ってくれるんや。あんたの声は使わへんけど、同じ歌詞を使って、メロディーを合わせようとするんや。これが作ったもんや。
（音声再生）
「Subscribe to Matt Wolfe on YouTube, don't forget to check out Future Tools dot ai.」
なかなかクールやろ？正直、ワイが歌うよりずっとええ感じやな。
ただ、これは今のところSonnoの有料メンバーだけが使えるっていうのは注意しておきたいな。それに、作れるカバーの数には制限があるんや。ここを見ると、ワイにはまだ198回の無料カバーソングが残っとるって書いてあるやろ。月ごとに決まった数しか作れへんのや。それに、有料プランの一つでしか使えへんのや。
次は、FacebookとInstagramのニュースに移るで。FacebookとInstagramが、AI編集されたコンテンツに付けるAIラベルを目立たんようにしとるんや。
多くの人が怒っとったんは、FacebookやInstagramに画像を投稿すると、「AIで生成されました」みたいな小さなメモが付いとったからや。多くの人が「ワイの画像はAIで生成したんちゃうのに、なんでそんなのつけとんねん」って言うとったんや。
今はそれをもっと目立たんようにして、AIの情報を見るにはメニューをクリックせなあかんようになったんや。理想的には、AIコンテンツのタグ付けに不満を持つ人が減るはずやな。
Facebookはまた今週、ほぼ全員の写真や投稿をAIの学習のためにスクレイピングしとって、オプトアウトの選択肢はないって認めたんや。これは、オーストラリアでのFacebookの公聴会でのMetaのグローバルプライバシーディレクター、メリンダ・クラウの発言からわかったんや。
「事実としては、2007年以降、意識的に投稿をプライベートに設定してない限り、Metaはオーストラリア人が2007年以降にInstagramやFacebookで共有したすべての公開投稿から、すべての写真とすべてのテキストをスクレイピングすることに決めたんです。意識的にプライベートに設定しない限り、それが現実なんです。そうですよね？」
「はい、我々は...ありがとうございます。質問への回答として...」
FacebookとMetaはこれであんまり問題に巻き込まれへんと思うで。おそらく利用規約のどこかに、プラットフォームにデータをアップロードする時に、明示的にプライベートに設定せん限り、データを使用したり学習に使ったりする権利を彼らに与えとるって書いてあるはずやからな。
これらのプラットフォームに登録して使っとるなら、おそらく知らんうちにこういうことに同意しとるんやろうな。ただ、ワイ自身はポリシーを読んでへんから、推測でしかないけどな。
本当にクールなAI生成ゲーム関連のものもいくつか出てきとるで。例えば、Robloxが先週末に発表したんやけど、AIを使ってRoblox内で3D世界を作れるようになるらしいで。
Robloxは、プラットフォーム上の生成的な創造を可能にする3D基盤モデルに取り組んどるって発表したんや。このモデルはオープンソースでマルチモーダルになる予定で、テキストや動画、プロンプトを使って3Dコンテンツを生成できるようになるんや。
クリエイターは「スコットランドの高地にある城と嵐の日の背景にドラゴンがいる世界を作りたい。それをスチームパンクスタイルで」って言うたら、完全なシーンが作られるんや。
Robloxは創造的なプロセスを置き換えようとしとるんちゃうで。その代わり、より多くの人がゲームを開発したり作ったりできるようにすることに焦点を当てとるんや。
ここにスクリーンショットがあるけど、あんまり多くのことはわからへんな。ここに「Before」があって、緑の草と道があるのが見えるやろ。で、「After」を見ると、道にもうちょっと質感があって、もうちょっと風景が増えとるのがわかるな。今のところこれだけやけどな。
これはもっとクールに見えるで。「Cever」って呼ばれとるんやけど、彼らも3D世界作成プラットフォームを公開したんや。
これはまだアクセスできへんけど、こんな感じになるらしいで。テキストを通じてマップを生成できるんや。基本的なマップを作って、それを描画して調整できるんや。
ここで小さな川をマップに描いとるのが見えるやろ。地形を調整したり、世界のスタイルを調整したりできるんや。ここに「Water Village」とか「Industry Zone」とか「Grand Bazaar」みたいなテンプレートがあるのが見えるな。これを使って生成された町のレイアウトを作れるんや。
1分以内に3Dプレビューを作って、その世界がどんな感じになるかのアイデアを与えるために追加のアセットも作ってくれるんや。
これが出力として示されとるもんや。ワイにとっては、見てみないと信じられへんって感じやな。実際にあまりにもよく見えすぎて、本当にこんなふうに動くんかなって思うわ。でも、ここに作られた3D環境が見えるやろ。
自分のアセットのマーケットプレイスを読み込んでる。鹿がおって、海があって、背景に山があるな。ゲームにアセットを追加するためにお金を払うこともできるみたいやで。
ワイには良すぎて、実際に自分で触ってみるまでは、言うとるほどうまく動くとは思えへんな。
ゲームアセットの話題といえば、Daz 3Dっていう会社が新しいプラグインを披露したんや。これを使うと、テキストプロンプトからキャラクターのメッシュ形状を生成できるんや。
彼らの動画を見てみよう。「若い女性のアフリカ人戦士」ってプロンプトを入れたら、そのキャラクターを生成したで。「筋肉質の小人で、大きなひげと腹、大きな鼻」、「大きな頭」、などなど、次々とキャラクターを作っとるな。「妊婦」っていうプロンプトでそのキャラクターを作り、「背が高くて痩せた青白い吸血鬼」、「背が高くてひょろっとした宇宙人の男性」っていう具合やな。
好きなキャラクターの見た目を入力したら、ゲームで使えるいろんなモデルを作ってくれて、ええスタート地点を提供してくれるんがわかるな。
ただ、テクスチャリングまでやってくれるんかはハッキリせえへんな。この画像では、タトゥーや、ズボン、シャツ、銃なんかがあって、全部色付けされとるんやけど、この部分までやってくれるんかはよくわからへん。プレビューに出てくるから、多分やってくれるんやろうけど、まだはっきりせえへんのや。これはDaz 3Dっていう会社が、Yellow 3Dと協力して作ったもんやで。
ゲームアセットを作るのに役立つもう一つのツールは、Meshyっていうんやけど、彼らはちょうどMeshy バージョン4を発表したんや。これを使うと、どんなテキストプロンプトでも入力したら、そのテキストプロンプトから3Dオブジェクトを生成してくれるんや。
これは今すぐ無料で使えるで。meshy.aiに行けば、一定量のクレジットで無料で使えるんや。ここに「テキストから3D」、「画像から3D」、「AIテキスト文字列」、「テキストからボクセル」っていうオプションがあるな。
ちょっと試してみたんやけど、「画像から3D」で、ワイの顔の画像をアップロードして、四角形のトポロジーと三角形のトポロジーでやってみたんや。どっちがええか見てみようとな。
これが四角形のトポロジーの結果や。まあ、髭と髪の色は合ってるかな...って感じやな。これが三角形のトポロジーの結果や。また、まあ髭はあるってとこまでは合ってるな。今のところ、実際の顔の画像をアップロードしても、あんまりリアルにはなれへんみたいやな。
「テキストから3D」の方はもうちょっと遊んでみたで。今日、新しいMeshy 4で「月に向かって吠えている狼」っていうプロンプトで生成してみたんや。これが生成されたもんや。
実際、めっちゃ近づいてよく見ると、かなり印象的やな。狼に目がないのと、鼻が異常に長いのが気になるけど、目がないことと鼻が長いのを無視すれば、この角度や他の角度から見ると、実際にかなりしっかりしてるんや。
自動生成されたテキスト文字列にはめっちゃ感心したわ。顔の部分だけもうちょっと改善が必要やけどな。
他にも選べるオプションがあったんやけど、ワイが選んだのが一番ええやつやった。これを見てみ。これは狼っていうより何か変な獣みたいやな。これは狼か何かの頭に巨大な腫瘍がついてるみたいで、何が起こっとるんかわからへんな。これはまあまあ decent な感じに仕上がったな。テクスチャ機能を使ったら、こんな感じになったわ。ワイはこれがかなりええと思うで。
新しいPS5に関するちょっとしたAIニュースもあるで。新しいPS5 Proが出るんやけど、AIを使って動画の品質を上げて、もっとよく見えるようにするらしいんや。
個人的には、この新しいPS5 Proは完全にジョークやと思うで。これ、700ドルくらいで出すらしいけど、ディスクリーダーが付いてへんのや。つまり、PS5やPS4を持っとって、すでに持ってるPlayStationのディスクを使いたいと思っても、外付けのディスクドライブを買わんと使えへんのや。これはひどいわ。
でも、AIを使って品質を上げて、プレイしてるゲームの動画品質をもっとよくしようとしてるんや。
最後に、DeepMindのロボティクス研究所から新しい情報があるで。彼らのロボットが今、実際に靴紐を結べるようになったんや。
この動画を見てみ。ロボットが両方の紐を掴んで、正確に靴紐を結んどるのがわかるやろ。今までロボットはこれができへんかったんや。
これを見てみ。テーブルからシャツを拾って、実際にハンガーにかけて、掛けることができとるな。
これは別のロボットの部品を修理して取り付けとるみたいやな。
二本の手を持つロボットがこんな器用さを見せとるのは、かなりクールやな。日常的なタスクがどんどんうまくできるようになっていくんや。
結局のところ、我々はロボットにこういうことをしてほしいんやろ？皿洗いや洗濯をしてほしいし、靴紐を結んでもらう必要はないかもしれんけど、家の中の日常的なタスクをこなしてほしいんやな。そのためには、靴紐を結べるような追加の器用さが必要なんや。そうすることで、そういった作業を正確にできるようになるんやで。
以上や。ワイが今週キャッチしたAIニュースの内訳やな。また言うけど、ワイはほぼ一週間ずっとディズニーランドにおったんや。帰ってきてから、自分を追いつかせるために超集中セッションをやったんや。
そのせいで、この動画が普段より1日遅れて出ることになってもうた。普段は金曜日に出しとるのに、今回は土曜日になってしもうた。でも、ニュースに追いつくのに追加の時間が必要やったんや。
全部のニュースをキャッチアップして、メモを取って、何を紹介する価値があるか考えて、この動画を作るのにな。動画の公開が1日遅れてしもうて申し訳ないけど、理解してほしいわ。
でも、ほぼ毎日ニュースをチェックしたいなら、futur.tools をチェックしてな。そこにAIニュースのセクションがあって、定期的に更新しとるんや。この動画に載らへんかったニュースはそのページにあるし、ワイが見つけたクールなAIツールはFuture toolsのホームページで共有しとるで。
無料のニュースレターもあるから、チェックしてみてな。futur.tools や。気に入ると思うで、めっちゃクールやで。ワイは全然偏ってへんで、ただ単にインターネット上で最高のウェブサイトなだけや。
こういう動画が好きで、最新のAIニュース、最新のAIツール、最新のAI研究のループに入り続けたいなら、そしてこれらを日常生活で意味のある役立つ方法で実際に使う方法のチュートリアルが欲しいなら、この動画にいいねを押して、このチャンネルを登録してな。
そうしたら、こういう動画をもっとあんたのYouTubeフィードに表示するようにするで。
今日はワイと一緒にオタク談義してくれてありがとうな。本当に感謝しとるで。次の動画で会おな。バイバイ。

この記事が気に入ったらサポートをしてみませんか？