Gemini1.5Proで「音声データから文字起こし」

2024年7月17日 08:03

音声データから文字起こし - つみかさね
https://3yokohama.hatenablog.jp/entry/2024/07/17/165936

音声データから文字に変換する方法をいろいろ模索していました。大抵は有料であれば何とか出来るものが多かった。そこで無料でも出来るものはないか探してみました。

Gemini1.5Proを使うと簡単に音声データから文字起こしをしてくれます。用意するのは音声（.wavファイル）7分程度、これをGemini1.5Proにアップロードする。「文字起こしをしてください」という指示をする。数分待つとテキスト文で出力される。ただ文字がどんどん出てくるだけの整理されていない状態です。
次に「文字起こししたテキストを整形して見やすい形にしてください。」と指示をすると見やすい文章に整形してくれる。最初から文字起こし、文章の整形を指示しておくのが良いかもしれない。

今回の音声データは読み上げソフトの音声合成ツールを使ってホームページの文章を読み上げて作成した。比較的綺麗な音声で文字起こしも間違いがなかった。本物の人間の音声だとどうなるか興味あるところです。Gemini1.5Proを使うと簡単に出来るので試してみる価値ありです。会議の音声なども試してみたい。今のところ他の生成AIもありますが、うまく文字起こし出来なかった。

Gemini 1.5 Proは音声データからの文字起こしに非常に優れた性能を発揮します。
以下にGemini 1.5 Proを使った音声データの文字起こしについて説明します：

長時間の音声データ処理が可能：
Gemini 1.5 Proは、一度に最大11時間分の音声データを処理できます。これは従来のモデルと比較して圧倒的に長い時間です。
高精度な文字起こし：
膨大な学習データと高度なアルゴリズムにより、高精度な文字起こしが可能です。アクセントや専門用語にも対応できる可能性が高いです。

Gemini1.5Proを使って文字起こし

「音声データ」を文字挿入欄の右にある〇の中に＋の場所をクリックして「My Drive」を選択する。「アップロード」を押して自分のパソコンの中に置いた音声データを選択してOKでアップロードできる。

その後
「文字起こしをしてください」また「文字起こししたテキストを整形して見やすい形にしてください。」
というプロンプトを入力してRUNを押す。すると下記のように文字起こしを始める。

今回は下記のYouTubeの音声約20分をAudacityで録音して、エキスポートで.mp3形式で書き出した。それを音声データとして利用、.wavファイルは容量が大きいのでGemini1.5Proで20分の長さ、容量（200MB）は読み込めなかった。.mp3ファイルにすると16.5MBと小さくなった。長い長い音声ファイルを作ると読み込めないので、Audacityで分割、ファイル形式等を変更して小容量化をしないといけないかもしれない。

「Audacity」無料の音声編集ソフト - 窓の杜
https://forest.watch.impress.co.jp/library/software/audacity/

【2024年最新】Canvaで稼ぐ！Canvaクリエイターになる方法・全手順(報酬/審査通過のコツ/ポートフォリオ作成デモ） - YouTube
https://www.youtube.com/watch?v=RRCYmAsF17Q

今回見本としてCanvaで稼ぐ！Canvaクリエイターになる方法・全手順を書き起こしの結果です。zipファイルにしておきますので、YouTubeを見ながら、テキスト文を比較してみてください。女性の声をテキストにしています。検出率、認識率はかなり高いのではないかと思います。ただ人の音声を認識させるのはなかなか難しいので、発言をした人の声によりますので、あまり期待しない方がいいかも？

音声からの文字起こしを成功させるためには最初の音声に左右されます。判りやすい声の持ち主だと旨く行きますが、前の管総理の声など全然認識しなかった。そんな人もいますので、事前にテストも必要だと思います。

Gemini1.5Proに文字起こしの仕方を質問したら、出来ないという回答が返ってきた。「perplexity」はGemini1.5Proは文字起こしが得意だと言っていた。質問する時は別の生成AIに聞いた方が良い時もありますね