見出し画像

YouTube動画を独自に文字起こししてみた - 業務効率化の記録 #11


データ取得先

YouTubeの任意の動画

※著作権の扱いはご注意ください

取得データの詳細

動画で話された言葉のテキスト化

取得方法

無償提供されているライブラリを使用してプログラム作成

結果(csv)

所感・まとめ

YouTube内で文字起こし自体は機能としてありますが、それを活用しやすくする為に独自に作成してみました。完璧に解析できてはいないですが、これができるとクワウドソーシングでも引き受けられそうです。

仕組みとしては以下です。備忘録です

1. 動画ファイル(今回は10分以上の動画)を1分動画に分割
2. 分割した動画をそれぞれ解析用ファイルに変換
3. 解析用ファイルに対して文字を取り出してデータに落としこむ

なぜ1分動画に分割するのかは、使用しているライブラリ制限で分割しています。ちなみに有償なら長い動画もぶんかつせずにいけます

まぁ難しいこと書きましたが結果うまくいきました。精度に関しては弱い部分があるので最終的に人間がみないといけないですね

このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。

データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!



この記事が気に入ったらサポートをしてみませんか?