見出し画像

【生成AIニュース】お盆休み拡大バージョン『Grok2』『FLUX関連』他

まいどです。
というか、お久しぶりです。
では、今回は不在だった期間も含めて、まとめて生成AIニュース!
沢山あります。

■『Grok2』Xに画像生成AI


遂に来ました。
XのGrokがアップデートされ画像生成AIが搭載されました。
FLUXとも連携しているようで、かなりの精度の画像生成が可能になります。

■Grok-2の性能評価


Grok-2 と Grok-2 miniのベンチマークです。

■Grok2について


X上で簡単に使え、高画質画像を作れるようになったGrok2についての細かな情報です。
更に、XにもZoomのようなビデオ会話機能を搭載するとの噂も。

■Grok2の画像生成AIの制限


Grok2の画像生成は2時間で20回までの制限があるらしいです。

■Gemini 1.5 Flashアップデート


Gemini 1.5 Flashがアップデートされ値下げされました。

■STORM


オープンソースで無料で使用可能との事。
精度も高く、2万文字近く一気に目次付きで生成可能らしいです。
但し、日本語はまだ未対応との事。

■Dream Machine v 1.5


LumaのDream Machineでのtext 2 videoのモデルが改善されるとの事。
Dream Machineはtext 2 videoが他の動画生成AIよりも苦手だった為、期待大です。

■MagicEditorのアップデート


GoogleのMagicEditorがアップデートされ、被写体を簡単に選択してプロンプトで生成が部分的に可能になりました。

■Gemini Live


Gemini とより自然な会話ができる新しいフレームワークです。
Gemini Advanced 加入者向けに英語版を展開中です。

■Groqで高速Artifact


llama 3.1 70BをGroq上で動かすデモです。
物凄い高速ですね。

■Pixel Studio


Googleから「Pixel 9」シリーズに搭載する「Imagen 3」採用のAI描画アプリ「Pixel Studio」を発表しました。

■Gen-3 Alpha Turbo


Runwayの動画生成AIの新モデル。
10秒のAI動画を17秒で生成するとの事。
およそ7倍速いという生成スピードです。

https://app.runwayml.com/login

■UniPortrait


単一人物と複数人物の画像を統一的にカスタマイズするフレームワークです。
高精度の顔の再現、幅広い顔編集機能、自由なテキスト入力による制御、レイアウトの自動生成といった特徴があります。


■VideoDoodles


手書きのアニメーションと動画を組み合わせることが可能なフレームワークです。
これにより、手書きのアニメーションから3Dを追跡しつつ動画を生成出来るとの事。

■rendernet ai


キストと同期してナレーション付きの動画を生成可能な機能がリリースされました。

■flux-RealismLora


FLUXのLoraモデルのトレーニングスクリプトになります。

■flux-dev-lora-trainer


flux lora traineは、FLUX devを Replicate上でトレーニング可能です。

■LivePortrait-jupyter


Flux.1をTost Upscalerで生成した画像を、LivePortraitで動作させるデモになります。

■Digen.AI


Digen.AIがv1.5にアップデートされ、一般登録が正式に開始しました。
アップデートにより生成時間の高速化、より詳細な生成、多言語サポートなど多くの改善が行われています。

■BiRefNet


BiRefNetのオンラインデモが、huggingfaceで登場しました。
かなり強力に背景除去が可能です。


■OV-DINO


トレーニングデータ外のオブジェクトであっても、画像内のオブジェクトを検出して識別するフレームワークです。

■cog-sdxl-panoramic-inpaint


SDXLで360度画像が生成できるモデルがリリースされました。

■crab


マルチモーダル言語モデルエージェントをUbuntuとAndroid環境でベンチマーク可能なフレームワークです。

■supersplat


3Dガウス スプラットを操作するためのオープンソースエディターです。 Gaussian splat PLY ファイルを読み混んで編集することが可能だとの事。

■Qwen2-Audio


アリババがリリースした音声モデルです。
様々な感情を音声として認識する模様。

■MidjourneyのWEBエディタ


これまで機能別に別々だったアクションが、1つの統合インターフェイスへ移行しました。

https://www.midjourney.com/home

■Midjourneyエディタで10倍ズームアウト


上記アップデートにて10倍ズームアウトができるようになりました。
以前は最大2倍のズームアウトしかできませんでした。

■EasyForge


Flux Devをローカル環境で気軽に試せる生成AIです。
生成速度もかなり早いとの事。

https://x.com/Zuntan03/status/1822555275380871407

■FLUX『UnionControlnet』


Canny、Depth、Pose、Tile などの複数の Controlnet モデルを統合されたモデルです。

■FLUX Controlnetデモ


FLUX.1 Controlnetのデモが公開されました。
かなりの精度との事。

■flux-lora-collection


LUX.1-devモデルのトレーニング済みLoRAがまとめられたページがリリースされました。

■FLUX LoRA the Explorer


FLUXのLoRAを試したい方はこちら。
気軽に試せるプリセット付きオンラインデモです。

■FLUX.1のLoRAを訓練する方法


SimpleTunerを利用して、FLUX.1 devのLoRAを創るチュートリアルです。

■FLUX-LoRA


AI-Toolkitが、FLUX.1-schnellのLoRAのトレーニングに対応しました。

■FLUX x ControlNet


FAL.AIのFLUXにもControlNetが追加されました。

■FLUXのインペイント


大雑把な選択範囲でも、かなりの精度でインペイント画像を生成してくれるとの事。

■Text-guided-Flux-Inpainting


こちらもFLUXのインペイントですが、こちらはプロンプトにてセグメントを指定してインペイントをするデモになります。

■FLUX.1 コミックテスト


FLUX.1で、漫画の1Pをテスト生成したものだそうです。
もう、ほとんど違和感が無くなってきてますね。

■FLUXを使用した広告


AIで生成したコスメティック広告との事。

■PerplexityのFLUX


Perplexityにも画像生成機能にFLUX.1を搭載したとの事です。

https://www.perplexity.ai/

■Flux_Realistic_v1


XLabsからのFlux_Realistic_v1トレーニング済みチェックポイントが登場しました。

■Taskade


AI Teamsのベータ版をリリース予定だそうです。
マルチエージェントコラボレーションを実現するためにAIエージェントのチームを編成し、タスクの計画や実行、管理などを行えるとの事

■LongWriter


10,000文字以上のテキストを一度に生成可能なLLMです。

■Transformers.js V3


Transformers.js V3がJavaScriptのパッケージ管理システムNPMで利用可能になりました。

■ObjectCarver


単一の画像からのクリック入力のみで、シーン内の個々のオブジェクトを分離し、高品質な3Dモデルを再構築するフレームワークです。

■recraftai


モックアップのタイリングとミラーリングという 2つの新機能がリリースされました。

■WaterSplatting


水中環境における3Dシーンの高速かつ高品質な再構成手法です。

■AI Artifacts


AI ArtifactsはClaude Sonnet 3.5 のようなアーティファクトを構築できるオープンソースです。

■vfusion3d


3Dデータの不足部分はマルチビュー3Dデータセットを作成できる、ファインチューニングされたビデオ拡散モデルを利用したものです。

■KEEP


ビデオフレーム間で一貫して顔の精度を引き上げること可能にするフレームワークです。

■MLX-Auto-Subtitled-Video-Generator


MLX Whisper Web UIは、AppleのMLXフレームワークを使用して動画を書き起こすオープンソースアプリです。

■hedra_labs


Character-1から1.5へアップデートされました。
動画品質が向上し、瞬きなどの詳細と動きがより自然になるよう変化しています。
また、被写体の画像が若干引きでも許容されるようなりました。

■Meshcapade


Meshcapadeのマーカーレス モーションキャプチャです。
現在、プライベートベータ版です。

■商業漫画にAI利用


漫画の分野でもAI利用が活発になっているとの情報です。

■生成AIの活用状況調査


生成AI活用は17.3%にとどまるとの事。
但し、活用企業の9割近くは一定の効果を実感しているとも。
やはり、生成AIでもノウハウや技術取得は強みになるかもしれません。

■マクドナルドの生成AIを活用したCM


中々に好評な模様。



はい。
今回の特別バージョンは以上になります。
いやぁ、ほんの10日近く離れただけで、とんでもない情報量が溜まりますね。
今回は大きくは「XのGrok2」と「FLUXのcontrolnet及びLoRA関連」の情報が多くございます。
FLUXはある程度予測していましたが、Grok2で一気に情報量が増えてしまいました。
その他にも細々と気になる情報がありましたが、多すぎて今回載せなかった情報もございます。
日常に戻ったので、これからまた少しづつ整理しながら更新していきます。
では、本日は以上で。
それでは、また。

この記事が気に入ったらサポートをしてみませんか?