AI開発のための日本人プロ声優の音声データセット「moe-speech」他 / Catch up on AI 2024.1.24

2024年1月24日 22:16

Pick up

日本人プロ声優による高音質（スタジオ録音）でノイズ・BGM等無しのキャラクター演技セリフ発話音声データセット。1音声は2-15秒のモノラルwavファイル（ほぼ全て44.1kHz、いくつかは48kHz）。

キャラクターごとにフォルダ分けされており、現在は合計473キャラクター、約39万の音声ファイル、合計約622時間、368GBの音声が含まれるデータセット。

moe-speech
https://huggingface.co/datasets/litagin/moe-speech#moespeech日本語版readme-japanese-version

Sample
https://litagin02.github.io/moe-speech-explorer/

【日本人プロ声優の音声データセット】
moe-speechは、449キャラクター、約36万の音声ファイル、合計約581時間、343GBにも及ぶ音声データセット。

TTS等のタスクに使えるように、機械的に音声の質によりフィルタリング済み。

著作権法（昭和45年5月6日法律第48号）第三十条の四に基づき公開

続く>> pic.twitter.com/3e9bDC5Eh1
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 24, 2024

Catch up on AI

言葉の壁を取り払うAI「Dubbing Studio」

【言葉の壁を取り払うAI】

Dubbing Studioは、@elevenlabsio がリリースした、29言語に対応した、多言語音声変換ツール。世界中の視聴者向けにコンテンツを翻訳できる。

翻訳を更新したり、タイミングを変更したり、アクセントやトーンの再生成が可能。#生成AI pic.twitter.com/DrR02T8ezE
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 24, 2024

お金の歴史と未来を描くAI動画

【お金の歴史と未来を描くAI動画】

トロントで開催された「The Future of Money」のイベントの創設者から依頼を受け作成された、お金の進化を描いた動画作品。

AIで無いと、かなりの時間とコストが掛かる。こうした用途にはとても有効！

CREATOR：@intothefab pic.twitter.com/n296xiKU0W
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 24, 2024

一貫性が凄い動画生成AIモデル「Google Lumiere」

【一貫性が凄い動画生成AIモデル】
Google Lumiere はSpace-Time U-Net を用いて、一貫性が非常に高い動画を生成できるAIモデルです。

デモを見る限りかなり一家線画高く車のタイヤがちゃんと回っているのは感動！！

続く>>pic.twitter.com/TJkLQfoomM
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 24, 2024

家庭環境化でのロボット制御技術「OK-Robot」

【家庭環境化でのロボット制御技術】
OK-Robotは、Metaとニューヨーク大学が立ち上げたプロジェクト。

一般的なマンションの部屋などの環境で、「あれを取ってきてくれ（ピックアンドプレイス）」タスクが実行可能。

家庭用も研究が重ねられている！#AI #ロボット pic.twitter.com/GKkbM3OazC
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 24, 2024

PDFを参照しての会話が手軽に「PDFToChat」

【PDFを参照しての会話が手軽に】

PDFToChatは、生成AIを使用してPDF (ブログ、教科書、論文) を参照しながら、チャットができるオープンソース。

WEB上からも利用でき、PDFをアップしてチャットでやり取りを始めるだけと非常にシンプルなものとなっています。

続く>>pic.twitter.com/6jT07M4VXp
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 24, 2024

オープンソース3DCG生成AI「3DTopia」

【オープンソース3DCG生成AI】

3DTopiaは、ローカルで動作する、高品質化も可能なオープンソース3DCG生成AI。

2段階の生成に対応しており、まずは高速に生成し、そこから高品質化するステップで3DCGを生成可能です。

すでにコードが公開されています。

続く>> pic.twitter.com/MQhfk5oGmX
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 23, 2024

学習無しでキャラを再現！ComfyUIで可能に

【学習無しでキャラを再現！ComfyUIで可能に】
InstantIDは一枚の画像からキャラ性を保ち、様々なポーズやスタイルを生成可能なフレームワーク。

ComfyUI InstantIDの特徴
1.モジュール化によってさらに効率化
2.PhotoMaker Styler にも対応
3.3種類のワークフロー

続く>>pic.twitter.com/4Qrt298xMy
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 23, 2024

理想の3DCG生成AIを再現したモックアップムービー

【理想の3DCG生成AIを再現】

現状の3DCG生成AIはすごいが、実用品質かと言われるとまだ少し遠い。3DCG生成AIと、リアルタイム画像生成を組み合わせて、理想的な擬似的な3DCG生成AIを実現したモックアップムービー。

AIについては今はこうだけどきっと理想に近づくはず！pic.twitter.com/N2JOI6EEJo
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) January 23, 2024

AIのNewsやアートワーク情報を更新中⚡

X（Twitter）ではAIの最新情報を発信中🐦

Tweets by taziku_co

この記事が気に入ったらサポートをしてみませんか？

AI開発のための日本人プロ声優の音声データセット「moe-speech」 他 / Catch up on AI 2024.1.24