見出し画像

Podcast『ドングリFM』の文字起こしを検索するサイトを作りました

Podcastで配信している楽しいラジオ「ドングリFM」というものがあります。そのドングリリスナーに便利なものを作ってみましたので、気に入った方はどうぞご活用ください!

ドングリFM トークサーチ

ドングリFM トークサーチ PC版

ドングリFMの検索?すでにあったような・・・

存じております…! しかし今回ご紹介しているこちらのサイトでは、なんと《文字起こし対応》なのです! 他にもいろんな工夫をしたので、こちらも使ってみてね。

スマホでも使えるよ

UIにもこだわりました。追求してもキリがないので、一旦これで!

ドングリFM トークサーチ iPhone

ホーム画面に追加すると便利です。

画像3

きっかけ

ドングリFMの音源を公開して置いておきますので、ご自由にお使いください。ここから全話ダウンロードできます(現時点で829話)。

きっかけはこれと、あとラジオ内で発言されていた「文字起こしは検索できない」が自分の中でずっと引っかかっていて、「よし、やってみるか!」となりました。

どうやってるの

小難しい技術の話は置いておいて、ざっくりこんな感じです。似たようなことをやりたい方は、参考にしてみてください。

《文字起こし》 ▷ 《形態素解析》 ▷ 《全文検索》

文字起こしサービス AutoMemo は、mp3をアップロードしてテキストに変換してくれるサービスです。期間限定無料だったため利用しました。念のため利用規約を確認しており、掲載されている活用事例でも似たような使い方が取り上げられているので問題ないでしょう。ただし手作業で変換作業をしなければならないため、現状では一部のみ文字起こし対応済みとなります。
肝心の変換精度ですが、、、まぁこんなもんでしょう。冒頭の「どうもなつめぐです」が、「ドーナツメグ」になってしまっています。笑 まぁ、ご愛嬌ということでお許しください。

形態素解析エンジン kuromoji は、文章を単語に分割して品詞ごとにプログラムから扱えるようにするものです。今回は、上記文字起こしサービスで得られた長いテキストを投入して検索の対象となる名詞に絞る目的で利用しました。文字起こし全文をそのまま検索対象にしてしまうのは、品質・性能の観点でもよろしくないからです。

画像4

そして、エピソードごとの文字起こし名詞リストをこちらのサービスに流し込みました。使い方も簡単で、しかも(ある程度まで)無料。これはすごいサービスです。

https://www.algolia.com/

技術まわりの余談ですが、最初参考にしたのはもちろん Rebuild.fm でした。あちらは Google の Speech-to-Text を利用されているとのことで私も試したのですが、、、高い。ドングリFMは1回あたりのエピソードが長くて30分ですが、これを書いている今の最新が 866 ですから、全部やるとなるとすごい金額に。。。なので、反響があるようでしたらコツコツと追加していこうと思います。

全エピソード文字起こし対応しました(2022/10/16)

おわりに

「これ困ってるんだよね~」とか「面倒なんだよなぁ」を、「こうやったら解決できるんじゃね!?」と閃いて試してやってみるのが好きなのですが、途中で投げ出さずに完成させるのはなかなか難しい…! だけどちゃんとやり切ると、達成感が得られて自信にもつながるのでおすすめです🙌

なるみさん、なつめさん、面白いネタありがとうございました。

使ってみて、なにか気になるところや要望などあればお知らせください。

https://twitter.com/wasyu

#やってみた大賞


この記事が気に入ったらサポートをしてみませんか?