見出し画像

AIニュース: 高度な音声モードが配備される | Googleが2つの新モデルを出荷

8,571 文字

AIの進歩のペースがどんどん加速してるんや。もう速くなれへんやろうって思うたびに、さらに速くなるんよ。ちなみに、これがあんたを追いかけてくるとこ想像してみ。めっちゃ怖いやろ?ほんまにナイトメア級やわ。
たぶんヴェロキラプトルをモデルにしてんねやろうな。あの炭素エポキシ複合材の脚を使ってるんやろ。義足の人が使うてるの見たことあるやろ?ちょっと紙クリップみたいな形してて、曲がるようになってる。そのおかげでめっちゃ速く走れるんや。
近々、こんなヴェロキラプトルみたいなロボットが追いかけてくる日が来るかもしれへんで。きっとすぐ近所に来るやろ。もちろん、これには何か軍事以外の用途があるんやろうし、まさにそれが会社がこれを開発してる理由なんやろうけど、戦場に配備されへん可能性はゼロやと思うわ。ほんまに悪夢みたいやな。
ええAIコンテンツをもっと見たい人は、チャンネル登録してな。
さて、Googleがここ数日で大々的に発表してた新しいAI関連のニュースがあるんや。2つの新しい大規模言語モデルを本番環境向けに公開したんよ。Gemini 1.5 ProとFlashや。船の絵も載せてて、「We ship」って書いてある。最新の実験的なリリースをベースにしてて、長文理解、視覚認識、数学の能力が大幅に向上してるらしいわ。ベンチマークもええし、コミュニティの反応も上々みたいやな。
数日前にGoogleの新しいAI機能について動画を作ったんやけど、これはNotebook LMに追加された真新しい機能のことや。notebook.lm.google.comっていうURLなんやけど、まだ試してへん人は絶対試してみるべきやで。めっちゃええし、無料やし、まだ実験段階やから。
Googleって、よくプロダクトをリリースして、みんながそれを気に入ったころに突然サービス終了させるっていう悪い癖があるから、今回もそうなるかもしれへんけど。みんな傷ついた経験あるやろ?でも今のところは素晴らしいわ。
PDFやドキュメントとチャットできるんや。リンクも追加できるし、いろんなもの追加できるんよ。
ちょっと例を挙げると、PDFとかGoogleドライブのドキュメントをいっぱい追加して、リンクも追加できるし、テキストをコピペしてぽんぽん入れられるんや。そうしたら、それについてチャットできるし、質問もできるんよ。
驚くほど上手に情報を引き出してくれるんや。数ヶ月前にテストしてみた動画もあるんやけど、他のPDFチャットソフトと比べてもめっちゃ優秀やったわ。
で、新しく「オーディオオーバービュー」っていう機能が追加されたんや。「生成」をクリックすると、アップロードしたものについて2人のホストが話し合うポッドキャストみたいなのを作ってくれるんよ。これがめっちゃ良くできてるんや。
「Google's new AI feature is unreal」っていうタイトルの動画があるから、見てみてな。リンクは下に貼っとくわ。動画アバターも追加して、もうちょっと面白くて生き生きしたものにしてみたんやけど、びっくりしたのが、生成されるコンテンツのクオリティがめっちゃ高いことやねん。
今までの大規模言語モデルは、そのままやとあんまりええコンテンツ作れへんかったと思うんや。プロンプトエンジニアリングとかいろいろ細工せんとアカンかったけど、これは最初からめっちゃええんよ。
この動画では全然編集してへんねん。言葉も音も、そのまま。「生成」をクリックしたら、普通は数分かかるんやけど、面白いのが音声ネイティブみたいなんや。
つまり、テキストを生成して、それを音声に変換してるんじゃなくて、抑揚とか感情とかが内容にぴったり合ってるんよ。何を話してるかによって変わってくるんや。
ウィッチャーの話とか、宇宙飛行士の話とか。おっ、ロボコップが出てきた。ファンタジーの森でゾンビと戦うロボコップ?そんなゲームあったら絶対やりたいわ。
ほんで、Googleは最近Geminiアプリも出したんや。例えば、Androidスマホの古い音声アシスタントの代わりになるみたいな感じやな。今はGoogle Geminiって呼ばれてて、音声モードがついてる。OpenAIの高度な音声モードとはちょっと違うけど、昔のOpenAIの音声に近いかな。
でも、徐々に昔のGoogleアシスタントの仕事を奪っていってる感じやな。つまり、Googleはどんどん新しいものを出してて、新しい発表をしてるってことや。「出荷」してるっていうか。
で、Googleが何か新しいもの出そうとしたり、「出荷」しようとしたりすると、それを個人的に取るような人がおるんや。そういうことが起こるのを見たくない人がな。
その人こそがSam Altmanや。「いや、いや、お前らが何か出すんやったら、俺らはもっとでかいもん出すで」みたいな感じで、高度な音声モードの配布が今日から始まって、1週間以内に完了するって発表したんや。
「待つ価値があったと思ってくれたらええな」って言うてる。ちょっと悲しそうな顔文字つけてな。だって、何ヶ月も前に発表して、目に見える進展がなかったから、めっちゃ批判されたからな。
発表した時は「数週間で準備できる」って言うてたのが、数ヶ月になって、それからごく一部のレッドチームにアルファ版が配布されて。やっとみんなが使えるようになったんや。
まぁ、「みんな」っていうのはChat GPTアプリのPlusユーザーとチームユーザー全員に1週間かけて配布されるってことやけどな。
だから、そのアプリ持ってる人は、通知をオンにしておくのがええと思うわ。使えるようになったらすぐわかるからな。アプリの通知で教えてくれるのか、アプリ開いた時に通知が出るのかはわからへんけど。とにかくアプリをチェックし続けるのがええと思うわ。
新機能をアピールしてて、「遅れてごめんね」を50以上の言語で言えるらしいわ。まぁ、それぐらいはできて当然やろうけどな。
「ねぇChat GPT、おばあちゃんに遅刻したことを謝りたいんやけど」
「それはええことやね。謝る気持ちを持ってるのは。こんな感じでどうや?『おばあちゃん、本当に遅くなってごめんね。待たせてしまって申し訳ない。何か埋め合わせさせてもらえへんかな?』」
「おばあちゃん、中国語しか話せへんねん」
「あぁ、そうか。じゃあこんな感じやな...」
マーケティングメッセージとか、オーディエンスへの語りかけ方とか、ちょっと遊び心があっておもろいわ。
企業によっては、あんまり自覚がなくて、corporate過ぎたり、何を考えてこんなこと言うてんねんって思うこともあるけど、OpenAIは何て言うか、リアルな人間が話してる感じがするんよ。リアルな会社が、あなたに話しかけようとしてる感じというか。
そう思わへん人もおるやろうけど、俺個人としては、楽しませてもらってるわ。ありがとう、Sam。
Ethan Mollickっていう人がおるんやけど、AI界隈では有名な人や。AIと経済学を研究してる教授で、「One Useful Thing」っていうブログを書いてる。フォローする価値のある人やで。
この人、高度な音声モードを1ヶ月か数ヶ月使えたみたいやねん。8月1日に投稿してたから。で、新しいOpenAIの音声をSiriと比べてみたんや。AIアシスタントに対する異なる哲学、異なる野心、異なるアプローチを持つ2つの会社の違いがわかるようにな。
Sam Altmanは、こういうAIエージェントの役割とか、どう見るべきかについて長々と話してたわ。コパイロットなんか、それともエージェントなんか、みたいな。
たしか、めっちゃ賢い従業員とかサービス提供者みたいな感じで見てほしいって言うてたと思うわ。つまり、あんたの従業員みたいなもんで、あんたがやりたいことをやってくれるけど、賢いから、あんたがおかしなことしようとしたら止めてくれるみたいな。
高給取りの弁護士みたいなもんやな。弁護士にサービス料払うて、「これやりたいねん」って言うたら、「いや、それアカンわ。そうじゃなくてこうしましょう」みたいな。
あんたの代わりにエージェントとして動いてくれるけど、言われたことを何でもかんでもやるわけやないし、ある程度自分の考えを持ってるみたいな。
ほな、OpenAIの高度な音声モードとSiriを比べてみよか。
(Siriとの会話の再現)
Ethanは続けて言うてるわ。Siriと話すのは、まだ昔のSiriと話してるみたいな感じやって。少なくとも今のところはな。驚くようなことはないし、当たったり外れたりで、イライラすることもあるって。
10億人以上が使うシステムやから、Appleとしては大規模言語モデルのリスクや変な挙動にみんなを晒したくなかったんやろうな。うまく機能して、めっちゃプライバシーを重視したものを作りたかったんやと思う。
俺にはそれも理解できるわ。昔、オープンソースのAIアシスタント、音声アシスタントの動画を作ったことがあってな。話しかけたら返事が返ってくるやつや。
で、毎回接続をリフレッシュするたびに、「こんにちは、何かお手伝いできることはありますか?」みたいな感じで会話を始めるようにプロンプトを設定してたんやけど、なぜか何回かは、プロンプトを待たずに勝手に話し始めるんよ。
そのプロンプトがめっちゃ変やったんや。一度なんか、人間を連れてきて、「血の神」にいけにえとして捧げろみたいなこと言い出したんや。これ、動画に残ってるんやで。
「血の神」が喜ばへんかったら、ヤバいことが起こるとか言うて、人身御供の方法を教えてくれようとしたんや。
そんな動画がSiriで出回ったらAppleの株価どうなると思う?100万回に1回のバグやエラーやったとしても、Ethanが言うてるように、10億人以上が使うプラットフォームやからな、絶対起こるんよ。
だからAppleもGoogleも、そんなことが起こる可能性をほぼゼロにせなアカンのや。
OpenAIはちょっと違うと思うわ。もうちょっと大胆になれるというか。上場企業やないし、そんなに大きくもないし、ある意味スタートアップみたいなもんやからな。開発の最前線におるから、もうちょっとリスクを取れるんやと思う。
でも、本当にすごいアシスタント、何でもしてくれるようなアシスタントが出てくるのは、オープンソースのモデルがめっちゃ良くなってからやと思うわ。そういうのにはブレーキがかかってへんからな。
Siriとアップルについてもう一つ大事なことは、iPhoneに直接入ってるってことや。つまり、エッジデバイス、スマホやラップトップ、iPadなんかで動くように作られてるんや。インターネット接続に頼ってへんねん。
OpenAIの場合はそうやないし、たぶんこれからもそうはならへんと思う。もしかしたら特別なモデルを作るかもしれへんけどな。
安全性重視で、スマホ向けに作られてるから、小さくて、そんなに賢くないんや。Ethanはそう言うてるわ。
例えば、「今夜、ディナーと映画に行きたいんやけど、6時までに着いて、10時までに帰れるようにしたいんや。辛いラテン料理と、アクション映画がええな」みたいなこと聞いたら、めちゃくちゃ失敗するやろうって。
でも、ちょっと大きなモデル、例えばLlama 8ビリオンパラメータのモデルやったら、もっとうまくできるんやって。
面白いことに、Chat GPTの高度な音声モードは、インターネット上の特定の情報についての質問にはめっちゃ早く答えるらしいわ。その場で検索してるのかもしれへんな。
Ethanが言うには、Chat GPTの高度な音声モードとやり取りするのは、ほんまに変な感じやって。人間みたいなペースやイントネーション、fake breathingまであって。
でも、音声効果を出したり、声を大きく変えたりするのは制限されてるみたいやな。悪用を避けるためやろうな。でも、そういう機能はあるんや。
アルファ版のユーザーの話を聞くと、めっちゃクレイジーな音声を作れるらしいわ。ストーリーを語るときに、めっちゃドラマチックになって、オーバーな感じになったり、雷や雨の音が背景で鳴ったり、椅子がきしむ音まで再現したりして、まるで本物のオーディオブックみたいやって。
今回のリリースでは、そういう機能の多くを制限してるみたいやな。だって、これがリリースされるのを待ってる人たちがおって、ジェイルブレイクして、いろんなヤバいことをさせようとしてるからな。
ほんで、この機能のできることを試してみよか。
(Chat GPTとの会話を再現)
ほかのニュースやけど、Video Arenaっていうのがあるんや。これ見たとき、なんで他の人が思いつかへんかったんやろって思ったわ。今から考えたら当たり前みたいやけどな。
たぶん、みんなチャットボットArenaは知ってると思うわ。世界中の誰でも参加できて、好きなプロンプトでモデルに問いかけられるんや。2つのモデルが並んでて、どっちがどのモデルかわからへん状態で、どっちのほうがプロンプトに対してええ答えを出すか選ぶんや。
そのあとで、どのモデルやったか見られるし、長い目で見ると、どのモデルがベストかわかってくるんや。
今のランキングはこんな感じや。O1プレビューがトップで、アリーナスコアが1355や。トップ3はOpenAIのモデルで、その次がGoogleのGemini 1.5 Pro、8月27日版やな。表記は月と日やと思うわ。
イーロンとxAIにも credit与えなあかんな。突然現れて、Googleと肩を並べてる。めっちゃ早い進歩やわ。
で、ある日誰かが目覚めて、「なんで同じことをAIの動画生成モデルでやらへんのや?」って思いついたんや。
Discoverっていうところが、同じプロンプトから生成された動画クリップを、トップのテキスト→動画モデルで比較できるようにしたんや。たぶんトップ7のモデルやと思うわ。
個人的な予想やけど、トップはLingで、次がRunwayやと思うわ。
こんな感じやな。おっと、ページ全体がスクロールしてもうた。
プロンプトが書いてあって、「この動画では、1本の横木がある背の高い白いはしご...」みたいな感じや。どっちがええか選ぶんや。
これは動いてへんみたいやし、こっちは変やけど、まぁマシかな。これに投票するわ。
で、結果を見ると...SVDとPika P labsやって。
このやつはプロンプトに基づいたらずっとええと思うわ。LingとPikaや。
どっちもええけど、これのほうが意味が通ってるな。なんで両側に海があるんやろ。まぁ、こういう地形もあり得るけど、こっちのほうがずっとええわ。
RunwayとOpenSora、オープンソースのSoraみたいなモデルやな。これのほうがずっとええと思うわ。
OpenSoraとSVD...
もし自分で試してみたいなら、リンク貼っとくわ。どっちがええか見てみてな。
ランキングについては...ちょっと外れたわ。Lingがトップなのは当たったけど、Runwayが2位やと思ってたんや。実際には、この2つが2位みたいやけど、Runwayは技術的には3位やな。
Luma 1.6が2位で、Runway 3.0が3位や。
めっちゃ面白いし、わくわくするな。テキスト→動画AIモデルを新しくテストできるようになったわけや。どんどんよくなってるし。
このウェブサイトが人気出たら、結構訪問者増えると思うわ。テキストの出力を評価するより、動画の出力を評価するほうがほとんどの人にとっては面白いやろうからな。
最後に、Microsoftがスリーマイル島の原子力発電所を再稼働させようとしてるの覚えてる?直接やないけど、Constellation Energyっていう会社がやろうとしてるんや。
スリーマイル島の原子力発電所を再稼働させて、そこで作る電力全部をMicrosoftに売るんや。20年契約を結んでて、Microsoftのデータセンターの需要を全部満たすらしいわ。
つまり、MicrosoftはAIのデータセンターに必要な電力が、しばらくの間は足りへんことはなさそうやな。
面白いことに、ペンシルベニア州のJosh Shapiro知事が、クレーンクリアエネルギーセンター(昔のスリーマイル島原発やな)の規制審査を飛ばして、すぐに送電網につないで稼働させてほしいって手紙を書いたんや。
この名前に問題があるのは、アメリカの土地で起こった最大の原子力事故やったからやな。福島の前も、チェルノブイリの前も、スリーマイル島やったんや。
2つの原子炉があって、1つが爆発して、そっちは使えへんようになったけど、もう1つは問題なく動いてたんや。たぶん2019年まで動いてたと思うけど、経済的な理由で停止されてしもた。
で、今それを再稼働させて、このお腹すいたAIのエネルギー需要を満たそうとしてるわけや。AIの訓練とか運用にはめっちゃエネルギーが要るからな。
でも、ペンシルベニア州知事は、このクレーンクリアエネルギーセンターを規制審査の順番待ちから外して、すぐに送電網につないで稼働させてほしいって言うてるんや。普通やったら何年も待たなあかんのに。
これ、ちょっと面白いニュースやと思うわ。AI業界では、エネルギー生産とか原子力発電とかに関して、商業的にも政治的にもめっちゃ前向きな雰囲気があるみたいやからな。
こういうことが続いて、政治的にも商業的にもどんどん進んでいくんやったら、他のプレイヤーにとっても「ほんまにこれ、やるんや」っていう信号になるかもしれへん。
需要もあるし、グリーンライトやで、みたいな。
今まで、ちょっとあいまいなメッセージもあったからな。カリフォルニア州なんか、AIに反対してるみたいな法案もあったし、他のこともはっきりしてへんかったからな。AIモデルの多くが著作権侵害で訴えられてて、訴訟は却下されたけど、まだAIに対する政府の立場がはっきりしてへんのや。
電力供給の問題とか、規制の問題とか、著作権をどう扱うかとか、まだグレーな部分が多いんよ。
例えば日本なんか、AIモデルの訓練に著作権のある素材を使うのは全然OKやって言うたんや。つまり、モデルに入力するデータに関しては、何使ってもええってことやな。
それで、OpenAIがアメリカ以外で最初に作った支社が日本やったんやろうな。たぶん日本が「AIビジネスウェルカムやで、AIに前向きやで」っていうシグナルを出したからやと思うわ。
今回のこともそれに似たようなもんかもしれへんな。「AIに賛成や、原子力発電所にも賛成や、こういうテクノロジーを加速させるのにも賛成や」っていうシグナルを出してる人たちがおるってことやからな。
OpenAIと日本の例と同じで、こういうのを見て「よっしゃ、思い切った行動を取ろう」って思うプレイヤーが出てくるかもしれへんな。「ウチらはこれでええんや、AIに賛成や」って言うてる人たちと一緒に仕事しようって。
今日はこれぐらいにしとこか。
これからは、GoogleがリリースしたGemini 1.5 ProとFlashについてもっと深く掘り下げていくつもりや。
スマホ見てみたけど、まだ音声モードが使えへんわ。数日待ってみるわ。2週間も待たされへんといいんやけどな。
Notebook LMのオーディオオーバービュー機能もチェックしてみてな。めっちゃ可能性を感じるわ。いろんな面白い使い方ができそうや。
新しく学びたいことがあって、ネット上にあんまり情報がない時とか、科学論文のPDFの概要が知りたい時とか、そういう時に使えると思うわ。
オーディオオーバービューを生成して、仕事に向かう車の中で聞いたり、トレーニング中にヘッドホンで聞いたり、散歩しながら聞いたりできるんやで。
正直、俺の期待を超えてたわ。コンテンツの質がええし、正確性も高い。ちょっと表面的な内容にはなるけど、会話形式の楽しいポッドキャストみたいな感じやな。
これをどんどん発展させていって、いずれはホストがどれぐらい深く内容に踏み込むかとか、もうちょっと初心者向けにするかとか、そういうのを調整できるようになったら、めっちゃ便利なツールになると思うわ。
どんな情報でも、どんなデータでも、その時に一番合ったフォーマットに変換できるってのは、ワクワクすることやと思わへん?ポッドキャストにしたいとか、動画にしたいとか、テキストがええとか。
やっとここで、それがめっちゃうまくできるようになってきたんや。
どんなモデルを使ってるんかとか、どうやってこんなええ面白いコンテンツを生成してるんか、めっちゃ気になるわ。
まぁ、今日はこれぐらいにしとこか。俺はWes rthや。ここまで見てくれてありがとう。めっちゃありがたいわ。
チャンネル登録してくれたら嬉しいし、サムズアップボタンも押してな。YouTuberはそれが大好きやからな。
また次回お会いしましょう。

この記事が気に入ったらサポートをしてみませんか?