しろ

プログラミングが好き https://lit.link/massao

3 フォロー 15 フォロワー

音声ファイルを使ってVtubeStudioのキャラクターに口パクさせる方法

VtubeStudioで音声ファイルに合わせてリップシンク（口パク）をさせたい場合、PCの出力音声をマイクに取り込む必要があります。それにはステレオミキサーが必要になってき…

しろ

1か月前

0xc0000225エラーを解消する際に確認すべきだったこと

PCがブルースクリーンになりネットの記事見て修復しようとしてもできず、修復する前段階に原因があったのでそれについてまとめてます。状況スリープ状態からの復帰後、ロ…

しろ

1か月前

vocal-removerをGoogle Colabで試す

ボーカルとインストルメンタル（楽器のみ）をそれぞれ抽出するツール Google Colabで試す1. インストールセルの実行ボタンを押し、使うものをインストール実行中に警…

しろ

2か月前

FastChatでGPTQの使い方

GPTQ 量子化モデルをFastChatで使う方法 FastChatのインストールGitHubからFastChatのクローンを作成します git clone https://github.com/lm-sys/FastChat.git 作成し…

しろ

2か月前

WhisperをGoogle Colabで試す

Whisperとは、OpenAIが開発した音声認識モデルです。 Whisperは、68万時間分の多言語音声データで訓練されたTransformerモデルです。英語や日本語をはじめとする98言語の…

しろ

2か月前

SDWebUIを使ってXサムネマジック作成

サムネマジックの作成方法1 - 画像の準備 8:9（600:675）サイズの画像を1枚生成しますアスペクト比が8:9になるならサイズどんなのでもいいです 2 - AB画像の作成 t2i…

しろ

4か月前

AUTOMATIC1111（stable diffusion webui）APIでTensorRT変換モデルを使う

SDモデルをTensorRTを使って変換する方法はここでは説明していません。以下のものを参考にモデルの変換を行ってください。書いてることはほぼ同じなので自分のわかりやす…

しろ

5か月前

サクッと作った文字起こしWebアプリ

OpenAIのwhisperとstreamlitを使い、文字起こしWebアプリを作りました。 Streamlit Community Cloudの都合でwhisperのサイズの大きいモデルを使えないので、同じ制度で使…

しろ

6か月前

LLMを使ってデスクトップマスコットに命を吹き込む

Takaさんの「フィーちゃんをデスクトップマスコットにするのに本気を出した話」をベースに作っています。同じものを使っても面白くないのでライブラリを変えたり、文章の…

しろ

7か月前

Google Colabを一段階進化させるための方法

Google Colab（以下Colab）で以下の画像のように、Formの入力ができる項目やドロップダウン（複数の選択肢からものを選ぶ）、スライドバー、チェックボックスの設定ができ…

しろ

8か月前

Animagine XLをGoogle Colabで試す

Animagine XLはSDXL 1.0からの派生モデルです。モデルアニメスタイルの画像を厳選して学習されたモデル。 Google Colabで試すすぐに試す「ランタイム」から「すべて…

しろ

9か月前

Stability AI「SDXL 1.0」をGoogle Colabで試す

SDXL 1.0は従来のStable Diffusionモデルを遥かに超える、高性能なモデルになっています。 Google Colabで試すbase 「ランタイム」から「すべてのセルの実行」で実行ラ…

しろ

9か月前

Stability AI 高度な画像生成モデル「SDXL 1.0」を無料で試せるwebサイトを使う

アクセスするサイトアカウント登録なしだと画像生成に制限があります。簡単に登録できるので、登録することをお勧めします、生成画像プロンプトは英語で入力してます。

しろ

9か月前

AUTOMATIC1111（stable diffusion webui）APIからControlNetを使う

準備ControlNetのインストール webuiの拡張機能からControlNetをインストールします。 Extensions（拡張機能）をクリック install from URL（URLからインストール）を…

しろ

9か月前

AUTOMATIC1111（stable diffusion webui）API 入門

zennにコードの詳細を書いています。 webuiのAPI起動`webui-user.bat`の`set COMMANDLINE_ARGS`にコマンドライン引数を追加します。例として以下のものになります。 se…

しろ

10か月前

ControlNet v1.1 各モデルの説明と出力結果を簡潔にまとめました

前置き「Stable Diffusion web UI」というツールを使って、画像を作っています。 Stable Diffusion web UIでControlNetを使うためには、「sd-webui-controlnet」という拡…

しろ

11か月前

音声ファイルを使ってVtubeStudioのキャラクターに口パクさせる方法

VtubeStudioで音声ファイルに合わせてリップシンク（口パク）をさせたい場合、PCの出力音声をマイクに取り込む必要があります。それにはステレオミキサーが必要になってきます。 PCにステレオミキサーがない場合には、仮想オーディオデバイス「VB-CABLE」をインストールすることで、PCから出力される音声を入力に取り込むが可能になります。仮想オーディオデバイスのダウンロードとインストールダウンロード VB-CABLEを使います。 OSにあったものをダウンロードし

0xc0000225エラーを解消する際に確認すべきだったこと

PCがブルースクリーンになりネットの記事見て修復しようとしてもできず、修復する前段階に原因があったのでそれについてまとめてます。状況スリープ状態からの復帰後、ログインすると画面がブラックアウトし、強制終了を実行。その後の起動時に 0xc0000225 エラーが発生しました。環境 Windows 10 ストレージ構成 SSD (OSドライブ) SSD (元のOSドライブ、OSデータなし) HDD x 1 SSD x 3 原因BIOSで確認すると、Win

vocal-removerをGoogle Colabで試す

ボーカルとインストルメンタル（楽器のみ）をそれぞれ抽出するツール Google Colabで試す1. インストールセルの実行ボタンを押し、使うものをインストール実行中に警告が出ますキャンセルを押してください 2. ファイルアップロードサイドメニューのフォルダアイコンをクリックし開きますここに抽出したいファイルをアップロードしますサイドメニューの下に表示されたアップロードしたファイルがアップロード完了するまで待つ 3. 抽出アップロードしたファイル

FastChatでGPTQの使い方

GPTQ 量子化モデルをFastChatで使う方法 FastChatのインストールGitHubからFastChatのクローンを作成します git clone https://github.com/lm-sys/FastChat.git 作成したFastChatフォルダに移動します cd FastChat 移動したら仮想環境を作ります python -m venv .venv 仮想環境に入ります .venv\Scripts\activate FastChatの

WhisperをGoogle Colabで試す

Whisperとは、OpenAIが開発した音声認識モデルです。 Whisperは、68万時間分の多言語音声データで訓練されたTransformerモデルです。英語や日本語をはじめとする98言語の音声認識と文字起こし、そして英語以外の言語を英語に翻訳することができます。利用するのはGitHubに公開されているWhisper-WebUIを使います。 Google Colabで試すWhisper-WebUIにアクセスしhereをクリックするとColabにアクセスできます。

SDWebUIを使ってXサムネマジック作成

サムネマジックの作成方法1 - 画像の準備 8:9（600:675）サイズの画像を1枚生成しますアスペクト比が8:9になるならサイズどんなのでもいいです 2 - AB画像の作成 t2iからControlNet(以下 CN)のLineartを使い2種類の画像を生成しますこの時プロンプトは好きなように変更を加えてください今回は天使と悪魔を作るのでそれぞれにプロンプトを追加しましたできた画像が以下のものになります初音ミク天使(以下 A) 初音ミク悪魔(以下 B

AUTOMATIC1111（stable diffusion webui）APIでTensorRT変換モデルを使う

SDモデルをTensorRTを使って変換する方法はここでは説明していません。以下のものを参考にモデルの変換を行ってください。書いてることはほぼ同じなので自分のわかりやすいものを見てください。 APIの入門記事を読むと理解しやすいです。 AUTOMATIC1111版sd web ui version: v1.6.0 事前確認web ui のトップにSD Unetがあることを確認してください。もしくはweb ui起動batファイルがあるディレクトリ内にconfig.

サクッと作った文字起こしWebアプリ

OpenAIのwhisperとstreamlitを使い、文字起こしWebアプリを作りました。 Streamlit Community Cloudの都合でwhisperのサイズの大きいモデルを使えないので、同じ制度で使えるfaster-whisperのmediumを使っています。 faster-whisper-large-v2はStreamlit Community Cloudでダウンロードができなかったので使っていません。 faster-whisperを使う理由としては

LLMを使ってデスクトップマスコットに命を吹き込む

Takaさんの「フィーちゃんをデスクトップマスコットにするのに本気を出した話」をベースに作っています。同じものを使っても面白くないのでライブラリを変えたり、文章の生成をChatGPTからLLMに、合成音声をCevio AIからVOICEVOXに変えてやってみました。テキストの送信以外にマイクで会話できる機能を追加しました。あと、Unityを使うのはこれが初めてなのでコードに何かあればコメントをください。 GPU使用率を見る感じ6GBでもギリギリ使えるようになってると

Google Colabを一段階進化させるための方法

Google Colab（以下Colab）で以下の画像のように、Formの入力ができる項目やドロップダウン（複数の選択肢からものを選ぶ）、スライドバー、チェックボックスの設定ができます。このFormを使用することで例えば、プログラムを触ったことのないユーザーが簡単に試せるように、Formに値を入力し実行するだけで結果が得られるようにするなど。では、ColabのFormの使い方について。サンプルコードサンプルコード触りながら、実際に使ってみるのがいいと思います。

Animagine XLをGoogle Colabで試す

Animagine XLはSDXL 1.0からの派生モデルです。モデルアニメスタイルの画像を厳選して学習されたモデル。 Google Colabで試すすぐに試す「ランタイム」から「すべてのセルの実行」で実行ランタイムはGPUに設定されています。もし設定されていなければ「ランタイム」▶「ランタイム設定」▶「T4 GPU」▶「保存」コードライブラリのインストール▼ !pip install -q --upgrade diffusers invisib

Stability AI「SDXL 1.0」をGoogle Colabで試す

SDXL 1.0は従来のStable Diffusionモデルを遥かに超える、高性能なモデルになっています。 Google Colabで試すbase 「ランタイム」から「すべてのセルの実行」で実行ランタイムはGPUに設定されています。 baseコードライブラリのインストール▼ !pip install diffusers --upgrade!pip install invisible_watermark transformers accelerate safe

Stability AI 高度な画像生成モデル「SDXL 1.0」を無料で試せるwebサイトを使う

AUTOMATIC1111（stable diffusion webui）APIからControlNetを使う

準備ControlNetのインストール webuiの拡張機能からControlNetをインストールします。 Extensions（拡張機能）をクリック install from URL（URLからインストール）をクリック URL for extension's git repository（拡張機能の git リポジトリの URL）に以下のURLをコピペ install（インストール）をクリックインストールが終わればinstallの下に「Installed i

AUTOMATIC1111（stable diffusion webui）API 入門

zennにコードの詳細を書いています。 webuiのAPI起動`webui-user.bat`の`set COMMANDLINE_ARGS`にコマンドライン引数を追加します。例として以下のものになります。 set COMMANDLINE_ARGS=--api ほかにもUIなしのAPIモードにする`--nowebui`や、外部からリクエストを受け取ることができる`--listen`引数があります。あとは必要な引数を設定してください。コマンドライン引数一覧起動

ControlNet v1.1 各モデルの説明と出力結果を簡潔にまとめました

前置き「Stable Diffusion web UI」というツールを使って、画像を作っています。 Stable Diffusion web UIでControlNetを使うためには、「sd-webui-controlnet」という拡張機能を追加する必要があります。 ControlNet-v1-1のプリプロセッサとモデル設定の画像を入れる Canny（輪郭）画像の境界線を見つけて、画像を作ります。 Depth（深度）画像の深度情報をもとに画像の生成 Norm

マガジン

画像生成系

記事一覧

音声ファイルを使ってVtubeStudioのキャラクターに口パクさせる方法

0xc0000225エラーを解消する際に確認すべきだったこと

vocal-removerをGoogle Colabで試す

FastChatでGPTQの使い方

WhisperをGoogle Colabで試す

SDWebUIを使ってXサムネマジック作成

AUTOMATIC1111（stable diffusion webui）APIでTensorRT変換モデルを使う

サクッと作った文字起こしWebアプリ

LLMを使ってデスクトップマスコットに命を吹き込む

Google Colabを一段階進化させるための方法

Animagine XLをGoogle Colabで試す

Stability AI「SDXL 1.0」をGoogle Colabで試す

Stability AI 高度な画像生成モデル「SDXL 1.0」を無料で試せるwebサイトを使う

AUTOMATIC1111（stable diffusion webui）APIからControlNetを使う

AUTOMATIC1111（stable diffusion webui）API 入門

ControlNet v1.1 各モデルの説明と出力結果を簡潔にまとめました

音声ファイルを使ってVtubeStudioのキャラクターに口パクさせる方法

0xc0000225エラーを解消する際に確認すべきだったこと

vocal-removerをGoogle Colabで試す

FastChatでGPTQの使い方

WhisperをGoogle Colabで試す

SDWebUIを使ってXサムネマジック作成

AUTOMATIC1111（stable diffusion webui）APIでTensorRT変換モデルを使う

サクッと作った文字起こしWebアプリ

LLMを使ってデスクトップマスコットに命を吹き込む

Google Colabを一段階進化させるための方法

Animagine XLをGoogle Colabで試す

Stability AI「SDXL 1.0」をGoogle Colabで試す

Stability AI 高度な画像生成モデル「SDXL 1.0」を無料で試せるwebサイトを使う

AUTOMATIC1111（stable diffusion webui）APIからControlNetを使う

AUTOMATIC1111（stable diffusion webui）API 入門

ControlNet v1.1 各モデルの説明と出力結果を簡潔にまとめました