見出し画像

【生成AIニュース】『FLUX』『新しいGemma製品』『JoyCaption』他

まいどです。
それでは、本日の生成AIニュース。

■FLUX


Fluxという名前の新しい画像生成AIモデルが公開されました。
これは、Stable Diffusionの開発チームであるBlack Forest Labsによって開発されたもので、現在までに公開されているテキストから画像生成モデルとしては最大規模のものです。
120億個のパラメータを持つこのモデルは、Midjourneyのような高品質な画像を生成することができるとの事。
下記からデモを使用する事が出来ます。

https://github.com/black-forest-labs/flux

■新しいGemma製品


Googleから3つの新しいGemma製品がリリースされました。
Gemma 2 2B、ShieldGemma、Gemma Scopeになります。
「Gemma 2 2B」は、小型で最先端のオープンソース言語モデルのシリーズで、パフォーマンスと効率の強力なバランスを実現しています。
「ShieldGemma」は有害なコンテンツを検出・分類するためのAIモデルです。
「Gemma Scope」はモデルの内部動作に関する比類のない洞察を提供する新しいモデル解釈ツールになります。

https://huggingface.co/collections/google/gemma-scope-release-66a4271f6f0b4d4a9d5e04e2

■JoyCaption


画像からテキストを生成するビジュアル言語モデル(VLM)です。
画像の内容を正確かつ詳細に表現できる、自由で多様性のあるAIモデルです。
現在は先行プレアルファリリース中です。

■torchchat


PyTorchが新たにリリースしたtorchchatは、大規模言語モデル(LLM)をローカル環境でスムーズに実行できるツールです。
LLMをローカル環境で手軽に使えるツールで、様々なデバイスで利用可能です。

■InstantSplat


少ない画像から高速かつ高品質な3Dモデルを生成する、新しいワークフローです。
従来の方法よりも高速かつ安定して、大規模な3Dシーンを再現する事が出来ます。

■finegrain-object-eraser


こちらは画像編集AIになります。
オブジェクトを削除するモデルですが、そのオブジェクトだけで無く、それに関わる影や写り込みなども自動で消去してくれます。

■Bubble Prompter 2.0


Bubble Prompterがバージョンアップし、新たな機能が追加されました。
ダンボ風タグの追加、テキストファイルの入出力、インターフェースの改善など、使い勝手が向上しました。

https://github.com/captainzero93/sd-webui-bubble-prompter

■Udio v1.5「audio remix」


Udio v1.5 の画期的なオーディオ リミックス機能が公開されました。
曲をアップロードして、プロンプト制御でさまざまなジャンル、キー、楽器に変える事が出来るとの事。

■Azure AIでGPT-4o miniのAPIが利用可能に


Azure AIは、GPT-4o miniのAPIをリリースし、画像処理機能を追加しました。
また、グローバルおよび地域別の価格設定を提供することで、開発者が柔軟にモデルを利用できるようにしました。

■AI面接官


書類選考から一次面接を担当する「AI面接官」を開発するスタートアップ、株式会社VARIETASは、今年5月に発表した「AI面接官」のデモ環境をリニューアルしました。

■岸田首相 「新たな法規制含め 必要な制度の検討を」


岸田総理大臣は生成AIに対して、新たな法規制の導入も含め、必要な制度の検討を行うよう求めました。

■米国著作権局によるデジタルレプリカに関する報告書


米国著作権局は、デジタルレプリカによるプライバシー侵害や名誉毀損などの問題に対処するため、新しい法的枠組みを構築する必要があると結論付けました。



本日は以上となります。
それでは、また。


この記事が気に入ったらサポートをしてみませんか?