動画から大規模自然言語処理モデル用の日本語コーパスを抽出するシステムの検討(Parallel Keyword Gathering and Mining)

概要

ChatGPTの台頭からすでに数ヶ月経過し、ビジネスの利用がある程度固まりつつあります。また、オープンソースの言語モデルや改良技術によりスマホ程度の閉じた環境でも動作できるようになりました。

※すでに実施しているも居るとは思いますが・・・
しかし自然言語処理モデルにファインチューニングしようと思っても、自分の思ったテキストは手に入りません。
例えばテキストマイニングを行っても
・まとめ記事
・インターネットの評判
・どういう人物か解説してみました
という、第三者の情報ばかりで、本人のなど欲しいコーパスではないです。
今回私が欲しいのは
・Youtube上でコメントに反応しながら対応するその姿、反応。
です。
そのために動画から情報をテキスト化し、マイニングするシステムを
「 並行キーワード収集とマイニング(Parallel Keyword Gathering and Mining)」略称:PKGM を考え実際に稼働を開始させました。

何がしたいのか。

色々理由はありますが、お気に入りのVtuber?と会話がしたいのです。全盛期で引退した方、引退してしまった方、たくさん居ます。
私もお気に入りの人ブログ執筆者様が居ますが、配信もブログも書いてくれなくなりました。
そこで大量の日本語コーパスを入手する方法を考え実行してみました。現段階で680個のアーカイブ動画に対して、クリーニング処理前ですが文字数は480万文字を超えており、クリーニング処理によって140万字程度の有効なテキストが得られました。これによりファインチューニング可能と考えています。

並行キーワード収集とマイニング(Parallel Keyword Gathering and Mining)について

既存の言語モデルに対して日本語でチューニングするには大量の日本語データが必要です。ある動画からテキストを入手するものです。
ほしいのはテキストとコメント、それに対応する反応です。
ここで問題なのは
・配信者は音声で回答、反応をする。
・視聴者は文字で反応する。
・コラボ等で複数人が存在する。
・時間差が存在する
という情報の違いです。
当然ですが、人間はYoutubeやニコニコ動画を見て、コメントを見たり反応したりしています。
この動画データを単に取得し、OCRや文字起こしAPIを用いても、時間に対する前後関係がわからないコーパスとなったため、PKGMを考えました。

PKGMの簡単な仕組み

#ここまでは公開した翌日から 、Bingくんが検索してくれて、概要出してくれたので、じゃあ有料部分は?と思ったのでめちゃふっかけ値段つけてまっす。

ここから先は

656字

¥ 30,000

期間限定 PayPay支払いすると抽選でお得に!

この記事が気に入ったらサポートをしてみませんか?