しろ

プログラミングが好き https://lit.link/massao

しろ

プログラミングが好き https://lit.link/massao

マガジン

  • 画像生成系

記事一覧

音声ファイルを使ってVtubeStudioのキャラクターに口パクさせる方法

VtubeStudioで音声ファイルに合わせてリップシンク(口パク)をさせたい場合、PCの出力音声をマイクに取り込む必要があります。 それにはステレオミキサーが必要になってき…

しろ
1か月前
15

0xc0000225エラーを解消する際に確認すべきだったこと

PCがブルースクリーンになりネットの記事見て修復しようとしてもできず、修復する前段階に原因があったのでそれについてまとめてます。 状況スリープ状態からの復帰後、ロ…

しろ
1か月前

vocal-removerをGoogle Colabで試す

ボーカルとインストルメンタル(楽器のみ)をそれぞれ抽出するツール Google Colabで試す1. インストール セルの実行ボタンを押し、使うものをインストール 実行中に警…

しろ
2か月前
8

FastChatでGPTQの使い方

GPTQ 量子化モデルをFastChatで使う方法 FastChatのインストールGitHubからFastChatのクローンを作成します git clone https://github.com/lm-sys/FastChat.git 作成し…

しろ
2か月前
4

WhisperをGoogle Colabで試す

Whisperとは、OpenAIが開発した音声認識モデルです。 Whisperは、68万時間分の多言語音声データで訓練されたTransformerモデルです。英語や日本語をはじめとする98言語の…

しろ
2か月前
7

SDWebUIを使ってXサムネマジック作成

サムネマジックの作成方法1 - 画像の準備 8:9(600:675)サイズの画像を1枚生成します アスペクト比が8:9になるならサイズどんなのでもいいです 2 - AB画像の作成 t2i…

しろ
4か月前
1

AUTOMATIC1111(stable diffusion webui)APIでTensorRT変換モデルを使う

SDモデルをTensorRTを使って変換する方法はここでは説明していません。 以下のものを参考にモデルの変換を行ってください。 書いてることはほぼ同じなので自分のわかりやす…

しろ
5か月前
2

サクッと作った文字起こしWebアプリ

OpenAIのwhisperとstreamlitを使い、文字起こしWebアプリを作りました。 Streamlit Community Cloudの都合でwhisperのサイズの大きいモデルを使えないので、同じ制度で使…

しろ
6か月前
3

LLMを使ってデスクトップマスコットに命を吹き込む

Takaさんの「フィーちゃんをデスクトップマスコットにするのに本気を出した話」をベースに作っています。 同じものを使っても面白くないのでライブラリを変えたり、文章の…

しろ
7か月前
34

Google Colabを一段階進化させるための方法

Google Colab(以下Colab)で以下の画像のように、Formの入力ができる項目やドロップダウン(複数の選択肢からものを選ぶ)、スライドバー、チェックボックスの設定ができ…

しろ
8か月前
8

Animagine XLをGoogle Colabで試す

Animagine XLはSDXL 1.0からの派生モデルです。 モデルアニメスタイルの画像を厳選して学習されたモデル。 Google Colabで試すすぐに試す 「ランタイム」から「すべて…

しろ
9か月前
5

Stability AI「SDXL 1.0」をGoogle Colabで試す

SDXL 1.0は従来のStable Diffusionモデルを遥かに超える、高性能なモデルになっています。 Google Colabで試すbase 「ランタイム」から「すべてのセルの実行」で実行 ラ…

しろ
9か月前
9

Stability AI 高度な画像生成モデル「SDXL 1.0」を無料で試せるwebサイトを使う

アクセスするサイトアカウント登録なしだと画像生成に制限があります。 簡単に登録できるので、登録することをお勧めします、 生成画像プロンプトは英語で入力してます。

しろ
9か月前
1

AUTOMATIC1111(stable diffusion webui)APIからControlNetを使う

準備ControlNetのインストール webuiの拡張機能からControlNetをインストールします。 Extensions(拡張機能)をクリック install from URL(URLからインストール)を…

しろ
9か月前
4

AUTOMATIC1111(stable diffusion webui)API 入門

zennにコードの詳細を書いています。 webuiのAPI起動`webui-user.bat`の`set COMMANDLINE_ARGS`にコマンドライン引数を追加します。 例として以下のものになります。 se…

しろ
10か月前
6

ControlNet v1.1 各モデルの説明と出力結果を簡潔にまとめました

前置き「Stable Diffusion web UI」というツールを使って、画像を作っています。 Stable Diffusion web UIでControlNetを使うためには、「sd-webui-controlnet」という拡…

しろ
11か月前
1

音声ファイルを使ってVtubeStudioのキャラクターに口パクさせる方法

VtubeStudioで音声ファイルに合わせてリップシンク(口パク)をさせたい場合、PCの出力音声をマイクに取り込む必要があります。 それにはステレオミキサーが必要になってきます。 PCにステレオミキサーがない場合には、仮想オーディオデバイス「VB-CABLE」をインストールすることで、PCから出力される音声を入力に取り込むが可能になります。 仮想オーディオデバイスのダウンロードとインストールダウンロード VB-CABLEを使います。 OSにあったものをダウンロードし

0xc0000225エラーを解消する際に確認すべきだったこと

PCがブルースクリーンになりネットの記事見て修復しようとしてもできず、修復する前段階に原因があったのでそれについてまとめてます。 状況スリープ状態からの復帰後、ログインすると画面がブラックアウトし、 強制終了を実行。 その後の起動時に 0xc0000225 エラーが発生しました。 環境 Windows 10 ストレージ構成 SSD (OSドライブ) SSD (元のOSドライブ、OSデータなし) HDD x 1 SSD x 3 原因BIOSで確認すると、Win

vocal-removerをGoogle Colabで試す

ボーカルとインストルメンタル(楽器のみ)をそれぞれ抽出するツール Google Colabで試す1. インストール セルの実行ボタンを押し、使うものをインストール 実行中に警告が出ますキャンセルを押してください 2. ファイルアップロード サイドメニューのフォルダアイコンをクリックし開きます ここに抽出したいファイルをアップロードします サイドメニューの下に表示された アップロードしたファイルがアップロード完了するまで待つ 3. 抽出 アップロードしたファイル

FastChatでGPTQの使い方

GPTQ 量子化モデルをFastChatで使う方法 FastChatのインストールGitHubからFastChatのクローンを作成します git clone https://github.com/lm-sys/FastChat.git 作成したFastChatフォルダに移動します cd FastChat 移動したら仮想環境を作ります python -m venv .venv 仮想環境に入ります .venv\Scripts\activate FastChatの

WhisperをGoogle Colabで試す

Whisperとは、OpenAIが開発した音声認識モデルです。 Whisperは、68万時間分の多言語音声データで訓練されたTransformerモデルです。英語や日本語をはじめとする98言語の音声認識と文字起こし、そして英語以外の言語を英語に翻訳することができます。 利用するのはGitHubに公開されているWhisper-WebUIを使います。 Google Colabで試すWhisper-WebUIにアクセスしhereをクリックするとColabにアクセスできます。

SDWebUIを使ってXサムネマジック作成

サムネマジックの作成方法1 - 画像の準備 8:9(600:675)サイズの画像を1枚生成します アスペクト比が8:9になるならサイズどんなのでもいいです 2 - AB画像の作成 t2iからControlNet(以下 CN)のLineartを使い2種類の画像を生成します この時プロンプトは好きなように変更を加えてください 今回は天使と悪魔を作るのでそれぞれにプロンプトを追加しました できた画像が以下のものになります 初音ミク天使(以下 A) 初音ミク悪魔(以下 B

AUTOMATIC1111(stable diffusion webui)APIでTensorRT変換モデルを使う

SDモデルをTensorRTを使って変換する方法はここでは説明していません。 以下のものを参考にモデルの変換を行ってください。 書いてることはほぼ同じなので自分のわかりやすいものを見てください。 APIの入門記事を読むと理解しやすいです。 AUTOMATIC1111版sd web ui version: v1.6.0 事前確認web ui のトップにSD Unetがあることを確認してください。 もしくはweb ui起動batファイルがあるディレクトリ内にconfig.

サクッと作った文字起こしWebアプリ

OpenAIのwhisperとstreamlitを使い、文字起こしWebアプリを作りました。 Streamlit Community Cloudの都合でwhisperのサイズの大きいモデルを使えないので、同じ制度で使えるfaster-whisperのmediumを使っています。 faster-whisper-large-v2はStreamlit Community Cloudでダウンロードができなかったので使っていません。 faster-whisperを使う理由としては

LLMを使ってデスクトップマスコットに命を吹き込む

Takaさんの「フィーちゃんをデスクトップマスコットにするのに本気を出した話」をベースに作っています。 同じものを使っても面白くないのでライブラリを変えたり、文章の生成をChatGPTからLLMに、合成音声をCevio AIからVOICEVOXに変えてやってみました。 テキストの送信以外にマイクで会話できる機能を追加しました。 あと、Unityを使うのはこれが初めてなのでコードに何かあればコメントをください。 GPU使用率を見る感じ6GBでもギリギリ使えるようになってると

Google Colabを一段階進化させるための方法

Google Colab(以下Colab)で以下の画像のように、Formの入力ができる項目やドロップダウン(複数の選択肢からものを選ぶ)、スライドバー、チェックボックスの設定ができます。 このFormを使用することで例えば、プログラムを触ったことのないユーザーが簡単に試せるように、Formに値を入力し実行するだけで結果が得られるようにするなど。 では、ColabのFormの使い方について。 サンプルコードサンプルコード触りながら、実際に使ってみるのがいいと思います。

Animagine XLをGoogle Colabで試す

Animagine XLはSDXL 1.0からの派生モデルです。 モデルアニメスタイルの画像を厳選して学習されたモデル。 Google Colabで試すすぐに試す 「ランタイム」から「すべてのセルの実行」で実行 ランタイムはGPUに設定されています。 もし設定されていなければ「ランタイム」▶「ランタイム設定」▶「T4 GPU」▶「保存」 コード ライブラリのインストール▼ !pip install -q --upgrade diffusers invisib

Stability AI「SDXL 1.0」をGoogle Colabで試す

SDXL 1.0は従来のStable Diffusionモデルを遥かに超える、高性能なモデルになっています。 Google Colabで試すbase 「ランタイム」から「すべてのセルの実行」で実行 ランタイムはGPUに設定されています。 baseコード ライブラリのインストール▼ !pip install diffusers --upgrade!pip install invisible_watermark transformers accelerate safe

Stability AI 高度な画像生成モデル「SDXL 1.0」を無料で試せるwebサイトを使う

アクセスするサイトアカウント登録なしだと画像生成に制限があります。 簡単に登録できるので、登録することをお勧めします、 生成画像プロンプトは英語で入力してます。

AUTOMATIC1111(stable diffusion webui)APIからControlNetを使う

準備ControlNetのインストール webuiの拡張機能からControlNetをインストールします。 Extensions(拡張機能)をクリック install from URL(URLからインストール)をクリック URL for extension's git repository(拡張機能の git リポジトリの URL)に以下のURLをコピペ install(インストール)をクリック インストールが終わればinstallの下に「Installed i

AUTOMATIC1111(stable diffusion webui)API 入門

zennにコードの詳細を書いています。 webuiのAPI起動`webui-user.bat`の`set COMMANDLINE_ARGS`にコマンドライン引数を追加します。 例として以下のものになります。 set COMMANDLINE_ARGS=--api ほかにもUIなしのAPIモードにする`--nowebui`や、外部からリクエストを受け取ることができる`--listen`引数があります。 あとは必要な引数を設定してください。 コマンドライン引数一覧 起動

ControlNet v1.1 各モデルの説明と出力結果を簡潔にまとめました

前置き「Stable Diffusion web UI」というツールを使って、画像を作っています。 Stable Diffusion web UIでControlNetを使うためには、「sd-webui-controlnet」という拡張機能を追加する必要があります。 ControlNet-v1-1のプリプロセッサとモデル設定の画像を入れる Canny(輪郭) 画像の境界線を見つけて、画像を作ります。 Depth(深度) 画像の深度情報をもとに画像の生成 Norm