見出し画像

Word トランスクリプト機能の実例!音声とテキストの変換結果を比較

こんにちは、はみだしチャンネルOgawaです。

Wordのトランスクリプト機能の音声ファイルから文字起こしの変換結果の実例を載せています。
詳しい考察は別の記事で行います。

入力に使った音声 (6:45)

音声の内容(修正済み)

はみだしチャンネルのOgawaです。
今日は、文字起こしについて話していきたいと思います。
久しぶりにスタエフで配信しています。

前回の放送で、ジーニーさんから日本語の文字起こしの難易度について質問がありました。
ウィスパーはどれくらい直しが必要なのか、ということです。
音声認識は私も興味がある分野なので、ぜひお答えしたいと思います。

ウィスパーに関しては、言語モデルというのがあります。
large version3という大きなものから、medium small tinyという小さなものまで、いろいろな種類があります。
言語モデルの精度は、選ぶものによって変わります。
最新のlargeのv3というものを使うと、精度は高いのですが、変換スピードとマシンパワーが必要になります。
現実的には、どれくらい日本語の直しが必要なのか、ということですね。

実際に、今声を取っているこの放送自体を文字起こししてみて、どれくらいの精度になるかを試してみたいと思います。

私の感想としては、ウィスパーも含めて、文字起こしの精度は、AIによって文字を整える作業をすると、かなり改善されると思います。
よくあるのは、漢字の間違いです。
同じ言葉でも、漢字の種類が違うということが、音声入力ではよく起こります。
しかし、AIに直してもらうと、前後の文章の文脈から、誤字を修正することができます。
そのため、漢字の間違いは、比較的直りやすいと思います。

一方、直りにくいのは、固有名詞の単語です。
例えば、私が今喋っている中で、スタエフという単語をよく使います。
これは、standfmで配信しているときに使う略語です。
しかし、音声認識では、スタイフになってしまうことが多いです。
これは、インターネットにはない単語なので、直りにくいのです。
そこで、文字を直すときのプロンプトで、スタイフはスタエフです、というように指定しておくと、間違いが直されやすくなります。

同じように、この番組の名前であるはみだしチャンネルという言葉も、はみ出しの出るという漢字に直されてしまうことがあります。
しかし、私はひらがなで書きたいのです。
それで、文字を直すときのプロンプトに、はみだしチャンネルはひらがなです、というように書いておくと、間違いが直されやすくなります。

また、私の名前である小川も、漢字で書かれてしまうことがあります。
しかし、私はローマ字でOgawaと書きたいのです。
それに、後ろに@でリンクを貼りたいという場合もあります。
そのときは、文字を直すときのプロンプトに、小川はOgawaです、というように書いておくと、間違いが直されやすくなります。

ということで、今は6分ぐらい話しました。
これぐらいの内容を、実際に文字起こしにかけてみて、どのように変換されるかを実演してみたいと思います。

今日の放送はこれで終わります。
また別の機会にお会いできることを楽しみにしています。
それでは、ありがとうございました。

音声の内容(修正済み)

Word トランスクリプト

はみ出しチャン。 川です。今日はですね。まあ、テーマとしては即文字起こしっていうところで、まあちょっと久々に配信をしてスタイフですね。配信をしてそうですね。また、うんと前回の放送の中であのまあうん、いろいろ話したんですけど。 ねあの以前から配信者で知ってるジーニーさんからえっと日本語の文字起こしってなかなか難易度が高いですけど、エスパーはどれぐらい直しが必要ですか?音声認識は私も今興味ある分野なんで学院も。 是非お願いしますっていうところの反応がありましてで、まあそれについて話していきたいと思うんですけ。 けど、まあ、あのウィスパーに関しては、あの言語モデルというのがあって、まあラージバージョンスリーっていうまあ大きなも。 から。 ディアムスモールうん、タイニーっていうまあ。 だんだんだんだん精度が変わって、あの? うん、言語モデルだね、あの。 そう精度が結構、その選ぶものによって変わるっていうのもあって、最新のラージのvスリー。 ていうものを使うとうん? 精度は高いんだけども、あの返還スピード。 ンパワーがを使うという世界で、で現実的にね。どれぐらい日本語? 直しがうん。 必要ですかっていうところに関して。 まあ、実際ね、今声をとっているんであの今の今回の話している放送自体をあのね、うん。文字起こしとい。 かう。 んそうですね、それにかけてみてど。 ぐらいのうん。 あの制度になるか? ていう。 をあの試してみ? いと? いますでですね。まあ一応、自分の思っている所感というか、あのね。まあウィスパーも含めてというか、まあウィスパーもの文字起こしの精度と。 まあ、あとね、精度が悪かった場合だとしても、AIによってあと文字を成分。 ん文字を整えるね文章を整えるっていう。 の作業をすると、まあ文字が治るっていう世界もありまして。 でまあ、よくあるのはね。自分で思ってるのはあの。 本当だね、間違いね。あの同じ言葉だけど、漢字の種類が違うってことが。 はよくあの音声入力とかリアルタイ。 声入力までそうなんですけど、よく起こるんですけど、それをね、エーアイにあの直してもらうと結構治る確率が高いと思います。それはね、あの前後。 文書の文脈というかね、そこからあのうん? 文字を修正する文字を修正するというのがかかるんで、案外その漢字の間違いっていうのはあの治るかなと思っています。で一方ね、あの治りにくいと思っているのはね例。 ばで。 ね、あの僕、今喋ってるの中でスタイ風っていう単語をよくあのまあスタンダイ。 配信していて、スタイフという略語を使うんですけど、どうも僕が話すとね、スタイフ。 ことが多いんですよね。うん。あの音声認識。 のとか、自分の声のあのそうですね。中でそういう固有名詞の単語はあのインターネットとかにあるわけじゃないんで、結構治りにくいというか、まあほぼほぼ治らないんですけど、そこをね、あの文字を直す時のうんとプロンプトであのスタイフはスタエフですとか、うんっ。 いうを書いたりだとか。 例えばね、紹介文の。 **、*の番組で言うとはみ出し、チャンネルっていう言葉を使った時に、例えばねはみ出しの部分をあのはみ出しの出るっていうのを漢字にうん直される場合があるんだけれども、そこはひ。 がなでうん、行きたいとと思っていて、それをあらかじめその治す分のプロンプトにはみ出し、チャンネルは正しい。うん、正しいというかね。思っているひらがなのはみ出しチャンネルですと。 書いておくと、その成分する時のプロンプトで治ることが多いで。 同じようにですね。あの名前はね、小川ですとなお名乗っているんですけど、まあ漢字でうんと治ることが多いんですね。その。 文字起こ。しを使。うとで使いたいのはローマ字の小川ですとうん。そこであの統一して行きたいだとか、まあそこにね。後ろにあのアットマー。 であ。 のね、うんとまあリンクというかね、あの。 を貼りたいというような。 場合もあったりしましてで、そのまずね漢字の小川っていうのをローマ字にしたいというのも、あらかじめうんと間違いやすい。うん、変換をこうですよというふうに指定しておくと、あの間違いがなおされや。 いっていうのがあります。 ということで、うん? まあ一旦6分ぐらいかな。今結構喋ったんでうん。まあ、これぐらいの今の話した内容を実際にうん。文字起こしにかけてみて。どのように変換? れるかっていうのをうん。 あの実演してみたいと思いますうんということで、今日の放送はこれまでということでそうですね。また、別の機会で会えることを楽しみにしています。 それでは。

Word トランスクリプト

▼下記の記事で同じ音声を使った場合の、Whisperの言語モデルごとの実例を載せています。

#stand_fm
#podcast
#はみだしチャンネル
#AIトーク
#AIとやってみた
#Copilot
#Word
#Microsoft
#Microsoft365
#トランスクリプト
#Whisper
#文字起こし
#精度
#変換速度
#テクノロジー


















この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?