マガジン

  • AIアニメ

    AI画像生成+AI音声合成によるショートアニメの試作

  • ローカルLLM

    ローカルLLM関連は主にブログで更新しています。 https://sc-bakushu.hatenablog.com/

最近の記事

【Blender】AI生成した3Dモデルのリギングをためす

最近「Tripo AI」などでAI生成した3Dモデルにモーションをつけて遊んでいます。1枚絵の画像から、3D化したモデル(とテクスチャ)を自動生成できるやつです。 3DモデルのAI生成自体は簡単ですが、モーションを付けて動かすには、さらにリギング(骨格を入れる)の処理も必要です。 もちろんTripo上でも自動リギング出来ます(ポイントを消費)。あとは「Mixamo」だと、モデルのリギングとモーション追加が無料でできるので、初心者向けツールとしてよくお薦めされています。

    • 【ComfyUI】ローカル最高性能のi2v動画生成「CogVideoX-5B-I2V」をためす

      「CogVideo」シリーズは、ローカルで使える動画生成AIの中で現時点で最も高性能なモデルです。ただ従来のモデルはText-To-Video(テキスト指示からの動画生成)に用途が限られていました。 今回、新たにImage-To-Video(画像からの動画生成)に対応した「CogVideoX-5B-I2V」が公開されたので、ComfyUIで試してみました。 本記事は2024/9/21時点のComfyUI環境でテストしています。将来のアップデート等でワークフローが動かなくな

      • 【ComfyUI】FLUX.1 の生成画像を「EasyAnimate」で動かす

        FLUX.1の登場により、ローカルで高品質な画像生成が楽しめるようになりました。FLUX.1で生成した画像をそのままローカルで動画化できればもっと嬉しいです。 ということで、Alibabaグループが開発しているオープンウェイトの動画生成AI「EasyAnimate」をComfyUIで試してみました。 最大144フレームの動画が生成でき、Stable Video Diffusionなど他のImage-To-Videoモデルよりも長尺動画に使えるのが特徴です。 動画生成なの

        • 【AIアニメ】ComfyUIとSunoでシンプルなアニメMVをつくる

          最近、音楽生成AIサービスのレベルが大きく上がっているようです。半年ほど前に話題になった「Suno」と後発の「Udio」が機能を競い合っていて、生成の質も使い勝手も大幅に改善しています。 今回Sunoのv3.5で遊んだので、例によってComfyUIで生成した動画素材と楽曲を合わせてMV風のシンプルなアニメにしてみました。 この記事はその作業メモです。 Suno(v3.5)で楽曲を生成する 以前は1曲まるごとの生成はできず、楽曲の延長機能も使いこなすのがやや難しい?印象

        • 【Blender】AI生成した3Dモデルのリギングをためす

        • 【ComfyUI】ローカル最高性能のi2v動画生成「CogVideoX-5B-I2V」をためす

        • 【ComfyUI】FLUX.1 の生成画像を「EasyAnimate」で動かす

        • 【AIアニメ】ComfyUIとSunoでシンプルなアニメMVをつくる

        マガジン

        • AIアニメ
          30本
        • ローカルLLM
          28本

        記事

          【AI動画生成】ComfyUIでポカリスエットCM風の動画をつくる

          生成AI用の画像/映像作成ツール「ComfyUI」とその拡張機能の「ComfyUI-AnimateDiff-Evolved」を使って、CM風のショート動画を作ってみたので、その時の反省メモです。 実写系の動画生成もちゃんと試しておこうと思い、一昔前のポカリスエットのCMのイメージで30秒程度の動画を作ってみました。 カット1:砂浜にとめた自転車 冒頭のカットは、自転車の写ったフリー画像をお借りして、ControlNetで線画を抽出。線画からオーソドックスに画像生成しまし

          【AI動画生成】ComfyUIでポカリスエットCM風の動画をつくる

          饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

          最近LLMコミュニティから生まれた小型MoEモデル「LightChatAssistant-2x7B」の日本語チャット性能がとても良いため、モデル作者さんが用いた手法(Chat Vector+MoEマージ)を後追いで勝手に検証しています。 その過程で複数のモデルを試作したところ、7Bクラスとしてはベンチマークスコアがやたら高いモデルが出てきたので「Japanese-Starling-ChatV-7B」として公開してみました。 以下はこのモデルの簡単な説明です。 簡易評価

          饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

          【ローカルLLM】言語モデルの知識編集を試す(Knowledge Editing)

          言語モデルの研究領域の一つに「知識編集(Knowledge Editing)」というものがあるらしい。 近年は言語モデルの大規模化による開発コスト膨張が問題になっており、既存モデルをより長く利用するための低コストな知識更新手法に注目が集まってる(らしい)。 とはいえ既存の知識編集手法は不確実性が高いうえ、モデル性能が劣化する副作用も存在する(らしい。こちらやこちらのアブストラクトを参照)。 言語モデルの知識編集 そもそも知識編集ってなんなのか、と思って検索したところ、

          【ローカルLLM】言語モデルの知識編集を試す(Knowledge Editing)

          【llama.cpp】CPUとRAM、どっちが重要?

          llama.cppのCPUオンリーの推論について CPUでもテキスト生成自体は意外にスムーズ。なのに、最初にコンテキストを読み込むのがGPUと比べて遅いのが気になる。 ちょっと調べたところ、以下のポストが非常に詳しかった。 CPUにおけるLLama.cppの高速化(超抄訳) 「CPU推論のボトルネックはCPUじゃなくてメモリの性能」と聞くものの、最初のプロンプト処理の速さはCPU次第らしい。 GPUと差がつきやすいのはこっち。メモリに余裕があるなら読み込んだままにし

          【llama.cpp】CPUとRAM、どっちが重要?

          【ローカルLLM】Mixtral-8x7bをllama.cppで試す

          2023/12/12:llama.cppで「Mixtral-8x7b」のGGUF量子化モデルを試しました(現時点でまだmergeされていないのでbranchを利用)。 「Mixtral-8x7b」はMistralがリリースしたMoE(Mixture of Experts)構造のLLMです。 英語+欧州主要言語に対応しており、それらの言語でのベンチマークスコアはGPT-3.5&Llama-2-70Bに匹敵ないし上回ります。 Mistralと同様に日本語性能は微妙なようです

          【ローカルLLM】Mixtral-8x7bをllama.cppで試す

          【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

          2023/12/05:llama.cppが「Qwen」に対応したので試しました。 「Qwen」は中国Alibabaグループが手掛ける大規模言語モデルシリーズで、テキストモデルは1.8B/7B/14B/72Bがあります。 英/中メインの多言語モデルで、日本語性能も同サイズのLlama-2/Mistralに比べれば高いっぽいです。 QwenをGGMLで量子化・推論するための「qwen.cpp」が以前からあり、これが今回llama.cpp本家にマージされたとのこと。 今回は

          【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

          【AIアニメ】ComfyUIではじめるStable Video Diffusion

          11月21日にStabilityAIの動画生成モデル「Stable Video Diffusion (Stable Video)」が公開されています。 これによりGen-2やPikaなどクローズドな動画生成サービスが中心だったimage2video(画像からの動画生成)が手軽に試せるようになりました。 このnoteでは「ComfyUI」を利用したStable Videoの使い方を簡単にまとめまてみました。 1. Stable Videoについて今回StabilityAI

          【AIアニメ】ComfyUIではじめるStable Video Diffusion

          AnimateDiffでドット絵アニメをつくる / Pixel Art with AnimateDiff

          AnimateDiffでドット絵アニメを作ってみたらハマったので、ワークフローをまとめてみました。 ComfyUI AnimateDiffの基本的な使い方から知りたい方は、こちらをご参照ください。 1. カスタムノード特別なカスタムノードはありません。以下の2つだけ使います。 https://github.com/Kosinkadink/ComfyUI-AnimateDiff-Evolved https://github.com/Kosinkadink/ComfyUI-V

          AnimateDiffでドット絵アニメをつくる / Pixel Art with AnimateDiff

          ComfyUI AnimateDiff + LCM-LoRAによる高速な動画生成を試す

          StableDiffusionを高速化するLCM-LoRAを応用したAnimateDiffワークフローが話題になっていたので、さっそく試してみました。 LCM-Loraを使うと8以下のStep数で生成できるため、一般的なワークフローに比べて生成時間を大幅に短縮できるようです。 ワークフローComfyUI AnimateDiffの基本的な使い方から知りたい方は、こちらをご参照ください。 今回試したワークフローは以下になります。 【GoogleColab Pro/Pro+

          ComfyUI AnimateDiff + LCM-LoRAによる高速な動画生成を試す

          【AIアニメ】AnimateDiffでアニメが作れるか?(2)

          前回の記事のつづきで、AnimateDiffをつかった短い「アニメ」を試作しています。 一部の場面ではキャラにリップシンク(口パク)をさせたいので、動画と並行して声(セリフ)の生成にも手をつけます。 カット「もう11月だよ」 「ちょっと前まであんな暑かったのに…」と言う姉(りりこ)に対して、妹(みいこ)が返答する場面です。 カット2と同じくモデルは「Counterfeit-V3.0」で、オーソドックスに生成しています。構図はControlNetで緩く指定しました。

          【AIアニメ】AnimateDiffでアニメが作れるか?(2)

          GPT 3.5-turboが20Bパラメータという話の後日談

          TL;DR 論文著者によれば「論文に書いたパラメータ数の出所はForbesの記事であり、その記事にソースの記載はない」とのこと。 10月26日にarxivに掲載された論文で、GPT 3.5-turboのパラメータ数が200億(20B)という記載があり、数日前に話題になった。 論文著者が(OpenAIと提携している)Microsoftの研究者だったこともありバズったものらしい。 この件に関してRedditに検証ポストがあったので、簡単に内容をまとめてみる。 11月1日に

          GPT 3.5-turboが20Bパラメータという話の後日談

          【AIアニメ】AnimateDiffでアニメが作れるか?(1)

          AnimateDiffを使うと数秒のアニメーションなら手軽に作れます。これらを編集してセリフをつければ、ちょっとしたショートアニメ作品も作れるのでは?と思いました。 以前に試したもの アニメ用のAI音声合成(Koeiromap)などは、以前の記事で試したことがあります。当時の投稿はこちら。 ただ肝心のアニメーションについては、AI動画生成がまだ難しかったので、静止画を中心とした編集にせざるをえず。 9月に入りComfyUIでAnimateDiffを触りはじめ、少しづつ

          【AIアニメ】AnimateDiffでアニメが作れるか?(1)