Langchainを利用したリアルタイム配信解説実況及び参加型AI(ざっくり編)

はじめに

ライブ配信でAIVtuverの二名が、雑談しつつ参加者や配信者(中の人)の応答にも答えてくれるシステムを構築(目下推進中)です。
AI同士の会話は普通は配信だと不向き?な内容になりがちなので
自分がハマってるゆっくり実況やずんだもん、Voiceroid実況などの脚本を
参考にある程度起承転結で、為になり、また対話している感じの内容にしたいと思ってます。
ようは見るに耐える、面白い内容の配信をAIが自律的に作成するというコンセプトです。

もう既にAIに詳しい方が同様なシステムを実現・構築ができているかもしれませんが、私がインフラ系・ネットワーク系のエンジニアが1から学んで作成してある程度できてきたので、そのプロセスを記載していこうと思います。

うちの子茶臼山りんごちゃんとその敵鹿ちゃん(Twitchで時々配信)

使用言語

Python
Langchain

利用させていただいているツール

voicevox(音声変換)
style-verts-vits(音声変換)
vtuber studio(口パク認識) 
Cursor  (コーディング)
わんコメ(Twitch/Youtube/niconicoのコメント拾い)
WebSpeech API(配信主の音声認識)

利用中AI

  • ChatGPT3.5 (全般・embedding)

  • Claude3 haiku,ops(現在利用不可)

  • LLAMA3(Agentなど高入出力が必要な際、英語返答の際)

  • Command R (日本語変換)

  • Gemini (画像認識)

利用AIはLangchainを使いAPIを使用しています。tokenや目的・課金に合わせてモデルチェンジするハイブリッドな仕組みとなっています。個人的にClaude3がお気に入りですが、API無料分枠を全て使ってしまいました…。課金できないのが悲しい。Code作成のときには公式Webでまだ頼ってます。

実装済み・改善中の機能について

  1. オープニングがはじまったら二人でオープニングトークをしてくれる

  2. 配信時、初見や初コメに対して挨拶する

  3. テーマを決めたら、それについて会話(実況・解説系脚本のような会話)

  4. 会話中にコメントや配信者が割り込んだ場合、会話履歴を元に返信する。

  5. 配信中のゲーム画像を解析し、それに合わせた会話をしてくれる

  6. 風来のシレンの攻略を教えてくれる機能


お悩み中の課題

llamaから日本語変換した際に、一部の言語が英文のままになったり、英語を正しく読んでくれないケースがあるので、英語>カタカナ発音の辞書(dic)を転がってないかネットの海を探し中

Web検索>RetriverについてはTraviltyが一歩抜け出ていて、かなり適切で詳細な回答が得られるが、いかんせん有料。対して、Duckduckgoは、回答が不明瞭だったり、エラーで返信が帰ってこないケースなどもあるが、無料のためうまくエラーハンドリングする。上記2つを使い分けて組み込んでいる。

結論

中身が人間の配信者の方がやはり見ていて楽しいし、そうあるべき。
しかしAIは、アイディアと技術で自分が作りたいものが作れるので
同人活動とかそっちよりの楽しさがあります。
1日1日技術が進化してくので、これを追っていくのも面白いですね。
個人的にはAIが世界を圧巻する!よりも、なんか自動化とかスクリプトの
延長?みたいな大手企業内な感じ流行ってくんじゃないかなと。
高性能API、完全無料!とかなら世界は変わるかもですが…(願望)
個人なら、アングラな趣味としては面白いかな~みたいな感じなので、
ガラパゴスAIみたいな独自の日本の進化も期待しつつ!

次回はもうちょっと踏み込んで書いてみますー!

この記事が気に入ったらサポートをしてみませんか?