【ずんだもん】ローカルLLMにずんだもんの声で応答させる【LLM】

Catapp-Art3D

2024年7月1日 22:30

はじめに

ローカルLLMを実行できる ollama Open WebUI にずんだもんの声で応答させる「工夫」の紹介をします。各ソフトウェアのインストールさえできれば簡単に実現できます。

※ Open WebUI にはwebAPIのTTS読み上げ機能はありますが、VOICEVOX を直接操作する方法がないので、クリップボード経由での工夫です。Windowsでの説明を行います。

前提

① VOICEVOXがインストール済みであること

② Open WebUI がインストール済みであること

VoivoClilpのインストール

クリップボードに貼り付けられたテキストを VOICEVOX で読み上げるアプリです。クリップボードの変更を検知して読み上げます。

公式レポジトリはこちら

右欄の「Release」から最新版「VoivoClip_0.3.3.zip」をダウンロードします。解凍のみで、特にインストール作業は必要ありません。

※ ダウンロード時にChromeにいろいろ怒られます。筆者環境では何も検出していませんが自己責任でお願いします。Chromeも安全側で厳しいチェックにしているのでしょうが、最近はあまりにも多く狼少年になり、誰も気にしなくなる事が怖いですね。気になる方は、Python仮想環境で pip install -r requirements.txt で導入する事ができます。（もちろん安全なわけではなくChromeによる確認がないだけです）を

各種設定

Open WebUI

せっかくなので、ずんだもんモデルを作ります。LLMモデルはQwen2にしています。
「ワークスペース」→「モデル」

「設定」→「インターフェース」

これで文字生成後に、自動でクリップボードにコピーされます。

VOICEVOX

起動するだけです。

VoivoClip

解凍したファイル内の「VoivoClipNC.exe」をダブルクリック実行します。「開始」をクリックすると、クリップボードの変更を検知するたびにその内容をVOICEVOXで読み上げるようになります。

※ 実行時に署名がないとWindows の警告が出るかもしれません。

実行

生成が終わるとクリップボードに転送されるので、VoivoClipが変更を検知して自動で読み上げます。

現バージョンのOpen WebUI付属のTTSスピーチ機能は速さを調節する事ができないので、クリップボード経由の方が優れているかもしれません。

この記事が気に入ったらサポートをしてみませんか？