今日のAI系ニュースで思ったこと【23/4/26】

企業で研究職をしてるぴんだ (@884deep) / Twitterです。
今日もAIに関するニュースを引用しながら思ったことを書きます。


Barkの革新性とその潜在的リスク

ニュース要約(以下リンクから引用)

  • Barkは、Sunoが開発したGPTスタイルのモデルをベースにしたText2Speechモデルで、自然な音声を生成できるだけでなく、音楽や雑音、基本的な効果音も作成可能

  • Barkは、GPTスタイルのモデルを使用して、細かいチューニングを最小限に抑えた音声生成が可能で、感情や表現の豊かさを実現

  • Barkの仕組みは、高レベルのセマンティックトークンを用いて、音声だけでなく音楽や効果音なども生成できる

  • 言語検出機能を持ち、複数の言語に対応しており、英語、中国語、フランス語、イタリア語、スペイン語などで高品質な音声生成が可能

  • ユーザーは、プロンプトで指定したキャラクターの声を生成することができるが、指示が曖昧だと結果も不確定になることがある

  • Barkは、CPUとGPUで実装が検証されており、現行のGPUを使用することでリアルタイムに近い音声生成が可能

思ったこと

BarkっていうText2Speechモデルで、音声のクローニング技術をさらに発展させ、より現実的な音声生成ができるようになったってことですね。
いろいろ使い道あると思うけど、例えば私みたいにインディーゲーム作ろうとしてる人はギャルゲーの音声を自動生成できたりしますよね。1年くらい前にフルボイスにするか悩んだりしたけど、いまならBark使ってやっちゃうだろうなぁ。
あと、これ悪用される可能性もありますよね。もうアメリカでオレオレ詐欺みたいなのがあったと思うけど、まじで笑えないくらい深刻だと思う。「合言葉を決めときましょう」とか言っても、実の子供の声で電話かかってきたら騙されるよ!う~ん、今のうちに両親に教えときますかね。。

Hugging Faceで試せますね

Speaker(ja)っていうのがあるので、日本語も対応してます。イイネ!


Low-Code LLMによる人とAIの協働の効率化

ニュース要約(以下リンクから引用)

  • 大規模言語モデル(LLM)は、その多様性から学術界やビジネスで注目されているが、複雑なタスクを遂行するにはまだ改善の余地がある

  • Low-Code LLMは、Microsoftの研究者が提案する新しい人間とLLMのインタラクションパターンで、低コードビジュアルプログラミングに関連している

  • Low-Code LLMでは、ユーザーは自動生成されたワークフローに対して簡単な操作を行い、複雑な実行手順を検証できる

  • Low-Code LLMは、以下の利点を持つ:

    1. Generating under Control:ユーザーは低コード操作を使って、LLMの実行を管理し、より望ましい結果を得ることができる

    2. Cordial Communication:ユーザーは、ワークフローの直感性に基づいてLLMの実行ロジックを理解し、グラフィカルユーザーインターフェースを通じてワークフローを簡単に調整できる

    3. Wide range of use:提案されたパラダイムは、さまざまな分野での複雑なタスクに適用でき、特に人間の判断や好みが重要な場合に有用

思ったこと

普段GPT-4使ってても思いますね。私は大体書きたいC++とかPythonのコードがあって、ライブラリとか文法とか調べるのめんどくさいからGPT様に聞くんだけど、まあ一発で動かないことも結構あるんですよね。エラー文を教えて修正してくれたりしてね。そういうループをもっと便利に、GUIとかでもLLMを操作できるようにしようっていう取り組みですよね。イイネ。
AutoGPTとかも課題意識は近いと思うけど、正直GPT3.5のDefaultくらいのスピードがでればループしててもストレスないんだよな。GPT-4だと何回もやりとりするのだるい。出力のスピードがリソースの力で解決できればそういう課題って薄れると思いますね。そのリソースが今の地球にねえんだよって話なんだと思いますけど。

論文はこちら

https://arxiv.org/pdf/2304.08103.pdf


AIトレーニングにおけるカーボンフットプリント削減のための最適化

ニュース要約(以下リンクから引用)

  • ミシガン大学の研究者が、Zeusというエネルギー消費問題に取り組むオープンソースの最適化フレームワークを開発

  • Zeusは、ハードウェアの変更や新しいインフラが不要な状態で、エネルギー消費とトレーニング速度の最適バランスを見つける

  • Zeusは、GPUのパワーリミットとバッチサイズパラメータをリアルタイムで調整することで、エネルギー使用量を最小限に抑える

  • Zeusは、さまざまな機械学習タスクやGPUで動作し、ハードウェアやインフラの変更が不要

  • 研究チームは、ChaseというZeusと相補的なソフトウェアを開発し、DNNトレーニングのカーボンフットプリントを削減する

  • ZeusとChaseの開発は、環境への影響を軽減し、AI分野で持続可能な実践を促進する

思ったこと

いやー、大事だよね。CO2出さないようにすること。
なんとなく、アメリカはバチボコ頭いい人たちがカーボンニュートラルに本気で取り組んでる感あるよね。技術でトップになると地球全体のこと心配する余裕がでてくるってことなのか。日本にその余裕がいまあるようにはみえないなぁ。口ではカーボンニュートラルって言いまくるけど、本心で思ってる人が何人いるのかなと思いますね。超感覚的な話ですみません。


AIが強化されたTinderの写真認証機能がアップデート

ニュース要約(以下リンクから引用)

  • Tinderは、認証機能をAIで強化し、写真の代わりにビデオによる自撮りを要求しはじめた。

  • 認証されたメンバーとのチャットのみを許可する機能も近いうちに追加予定。

  • これらの変更は、Tinderがアプリをメンバーにとってより安全にするための取り組みの一部。

思ったこと

マッチングアプリも、偽アカウントがAIで作りやすくなってるから大変なんでしょう。攻撃と防御のAI同士の対戦ですね。きっと人間はいつかついていけなくなるでしょう(笑)


AIスタートアップRunwayがビデオ生成アプリをリリース

ニュース要約(以下リンクから引用)

  • AIスタートアップRunwayが、ビデオ生成AIモデルGen-1を搭載した初のモバイルアプリをリリース。

  • ユーザーはスマホで録画したビデオをAIビデオに変換できる。

  • プリセットや画像、テキストプロンプトを使って既存のビデオを変換することも可能。

思ったこと

ここまで今、一般の方含めて生成系のAIが騒がれてるのって、こういう「わかりやすさ」にあると思いますね。私もGPT-4を初めて触った日には、これはシンギュラリティがまじで近いと思ったけど、触り続けてると限界もやっぱり見えてきたし、いまのLLMのパラメータいっぱい持たせとこう作戦はこれ以上大きくなると学習終わんないみたいだし、まだシンギュラリティまで猶予はあるのかなと思ってますね。もうちょっとだけ。ここは皆さんいろんな考えがありそうですね。

この記事が気に入ったらサポートをしてみませんか?