見出し画像

ウィスパーでの文字起こしの実例!音声とテキストの変換結果を比較

こんにちは、はみだしチャンネルOgawaです。

Whisperの文字起こしの精度を言語モデルごとで比較しています。
詳しい考察は別の記事で行います。

入力に使った音声 (6:45)

音声の内容(修正済み)

はみだしチャンネルのOgawaです。
今日は、文字起こしについて話していきたいと思います。
久しぶりにスタエフで配信しています。

前回の放送で、ジーニーさんから日本語の文字起こしの難易度について質問がありました。
ウィスパーはどれくらい直しが必要なのか、ということです。
音声認識は私も興味がある分野なので、ぜひお答えしたいと思います。

ウィスパーに関しては、言語モデルというのがあります。
large version3という大きなものから、medium small tinyという小さなものまで、いろいろな種類があります。
言語モデルの精度は、選ぶものによって変わります。
最新のlargeのv3というものを使うと、精度は高いのですが、変換スピードとマシンパワーが必要になります。
現実的には、どれくらい日本語の直しが必要なのか、ということですね。

実際に、今声を取っているこの放送自体を文字起こししてみて、どれくらいの精度になるかを試してみたいと思います。

私の感想としては、ウィスパーも含めて、文字起こしの精度は、AIによって文字を整える作業をすると、かなり改善されると思います。
よくあるのは、漢字の間違いです。
同じ言葉でも、漢字の種類が違うということが、音声入力ではよく起こります。
しかし、AIに直してもらうと、前後の文章の文脈から、誤字を修正することができます。
そのため、漢字の間違いは、比較的直りやすいと思います。

一方、直りにくいのは、固有名詞の単語です。
例えば、私が今喋っている中で、スタエフという単語をよく使います。
これは、standfmで配信しているときに使う略語です。
しかし、音声認識では、スタイフになってしまうことが多いです。
これは、インターネットにはない単語なので、直りにくいのです。
そこで、文字を直すときのプロンプトで、スタイフはスタエフです、というように指定しておくと、間違いが直されやすくなります。

同じように、この番組の名前であるはみだしチャンネルという言葉も、はみ出しの出るという漢字に直されてしまうことがあります。
しかし、私はひらがなで書きたいのです。
それで、文字を直すときのプロンプトに、はみだしチャンネルはひらがなです、というように書いておくと、間違いが直されやすくなります。

また、私の名前である小川も、漢字で書かれてしまうことがあります。
しかし、私はローマ字でOgawaと書きたいのです。
それに、後ろに@でリンクを貼りたいという場合もあります。
そのときは、文字を直すときのプロンプトに、小川はOgawaです、というように書いておくと、間違いが直されやすくなります。

ということで、今は6分ぐらい話しました。
これぐらいの内容を、実際に文字起こしにかけてみて、どのように変換されるかを実演してみたいと思います。

今日の放送はこれで終わります。
また別の機会にお会いできることを楽しみにしています。
それでは、ありがとうございました。

音声の内容(修正済み)

Large V3

はみだしチャンネル小川です
今日はですね
テーマとしては
続文字起こしというところで
久々に配信をして
スタイフですね
配信をして
そうですね
また前回の放送の中で
いろいろ話したんですけど
あの
以前から配信者で知っている
ジーニーさんから
日本語の文字起こしって
なかなか難易度が高いですけど
ウィスパーはどれくらい
直しが必要ですか
音声認識は私も
今興味ある分野なので
特にぜひお願いします
というところの反応がありまして
それについて
話していきたいと思うんですけど
ウィスパーに関しては
言語モデル
言語モデルというのがあって
large
version3っていう
大きなものから
medium small
tinyっていう
まあ
だんだんだんだん
精度が変わって
あの
言語モデルのね
あの
精度が結構その
選ぶものによって
変わるっていうのもあって
最新のlargeのv3
っていうものを使うと
うん
精度は高いんだけども
あの変換
スピードとマシンパワーが
を使うという世界で
で現実的にね
どれぐらい
日本語の直しが
必要ですか
っていうところに関して
まあ実際にね
今声を取っているんで
あの今の今回の話してる放送
自体をあのね
文字起こしというか
そうですね
それにかけてみて
どれぐらいの
精度になるかっていうのを
試してみたいと思います
でですね
まあ一応自分の
思ってる所感というか
あのね
まあウィスパーも含めて
というか
まあ
ウィスパーも
の文字起こしの精度と
まああとね
精度が悪かったら
あった場合だとしても
aiによって
文字を成分する
文字を整えるね
文章を整えるっていう
の作業をすると
まあ文字が直るっていう
世界もありまして
でまあよくあるのはね
自分で思ってるのは
あの漢字のね
間違いね
あの同じ言葉だけど
漢字の種類が違うってことが
よくあの音声入力とか
リアルタイプの音声入力も
そうなんですけど
よく起こるんですけど
それをね
aiにあの直してもらうと
結構直る確率が
高いと思います
それはね
あの前後の文章の文脈というかね
そこからあの
文字を修正する
誤字を修正するってのがかかるんで
案外その漢字の間違いっていうのは
あの
直るかなと思っています
で一方ね
あの直りにくいと思っているのはね
例えばですね
あの僕今喋ってるの中で
スタイフっていう単語をよく
あのまあスタンドFMで配信していて
スタイフという略語を使うんですけど
どうも僕が話すとね
スタイフになることが多いんですよね
あの音声認識の
とか自分の声の
あのそうですね
中で
そういう固有名詞の単語は
あのインターネットとかに
あるわけじゃないんで
結構直りにくいというか
まあほぼほぼ
直らないんですけど
そこをね
文字を直すときの
プロンプトで
スタイフは
スタFですとか
っていうのを書いたりだとか
例えばね紹介文の
この番組で言うと
はみ出しチャンネルっていう
言葉を使ったときに
例えばねはみ出しの部分を
あのはみ出しの
出るっていうのを漢字に
直される場合があるんだけれども
そこはひらがなで
いきたいと
と思っていて
それをあらかじめ
その直す文のプロンプトに
はみ出しチャンネルを
正しい
正しいというかね
思っている
ひらがなのはみ出しチャンネルですと
書いておくと
その成分するときの
プロンプトで
直ることが多いです
同じようにですね
あの名前をね
小川ですと
名乗っているんですけど
まあ漢字で
うーんと
直ることが多いんですね
その文字起こしを使うと
で使いたいのは
ローマ字の小川ですと
そこで統一していきたいだとか
まあそこにね
後ろにアットマークで
リンクと言うかね
を貼りたいというような
場合もあったりしまして
でそのまずね
漢字の小川っていうのを
ローマ字にしたいっていうのも
あらかじめ
間違えやすい
変換をこうですよ
という風に指定しておくと
間違いが直されやすい
っていうのがあります
ということで
まあ一旦6分ぐらいかな
今結構しゃべったんで
これぐらいの今の話した内容を
実際に文字起こしにかけてみて
どのように変換されるかっていうのを
実演してみたいと思います
ということで
今日の放送はこれまでということで
そうですね
また別の機会で会えることを
楽しみにしています
それでは
ありがとうございました

Large V3

Midiam

はみ出しチャンネル、小川です。
今日はですね、まあ、テーマとしては「続文字起こし」というところで、
まあ、ちょっと久々に配信をして、スタッフですね、配信をして、そうですね。
また、前回の放送の中で、あの、まあ、いろいろ話したんですけど、
ちょっとね、あの、以前から、配信者で知ってるジーニンさんから、
日本語の文字起こしって、なかなか難易度が高いですけど、
ISPAはどれくらい直しが必要ですか?
音声認識は私も今興味ある分野なので、
特にも、ぜひお願いします、というところの反応がありまして、
まあ、それについて話していきたいと思うんですけど、
まあ、あの、ISPAに関しては、言語モデルっていうのがあって、
まあ、large、version3っていう、まあ、大きなものから、medium、small、tinyっていう、
まあ、だんだん、だんだん、精度が変わって、言語モデルのね、
あの、そう、精度が結構その、選ぶものによって変わるっていうのもあって、
最新のlargeのv3っていうものを使うと、うん、
精度は高いんだけども、あの、変換、スピードとマシンパワーを使うという世界で、
で、現実的にね、どれくらい日本語の直しが、うん、
必要ですか、っていうところに関して、
まあ、実際にね、今、声を取っているんで、
あの、今の今回の話している放送自体を、あのね、
文字起こしというか、そうですね、それにかけてみて、どれくらいの、うん、
あの、精度になるかっていうのを、あの、試してみたいと思います。
でですね、まあ、一応自分の思っている所感というか、あのね、
まあ、Whisperも含めてというか、まあ、Whisperも、
の文字起こしの精度と、まあ、あとね、精度が悪かった場合だとしても、
AIによって、あの、文字を成分する、
文字を整えるね、文章を整えるっていう、
の作業をすると、まあ、文字が直るっていう世界もありまして、
で、まあ、よくあるのはね、自分で、思っているのは、あの、
漢字のね、間違いね、あの、同じ言葉だけど、漢字の種類が違うってことが、
よく、あの、音声入力とか、リアルタイプの音声入力もそうなんですけど、
よく起こるんですけど、それはね、AIに直してもらうと、
結構直る確率が高いと思います。
それはね、あの、前後の文章の文脈というかね、そこから、あの、
文字を修正する、語字を修正するっていうのがかかるんで、
案外、その、漢字の間違いっていうのは、あの、
直るかなと思っています。で、一方ね、あの、直りにくいと思っているのはね、
例えばですね、あの、僕今喋ってるの中で、
スタイフっていう単語をよく、あの、まあ、スタンドヘルムでは配信していて、
スタイフという略語を使うんですけど、どうも僕が話すとね、
スタイフになることが多いんですよね。あの、音声認識の、とか、自分の声の、
あの、そうですね、中で、そういう、こういうイメージの単語は、あの、
インターネットとかにあるわけじゃないんで、結構直りにくいというか、
まあ、ほぼほぼ直らないんですけど、そこをね、あの、
文字を直すときの、プロンプトで、あの、スタイフはスタFです、とか、
っていうのを書いたりだとか、例えばね、紹介文の、
この番組で言うと、はみ出しチャンネルっていう言葉を使ったときに、
例えばね、はみ出しの部分を、あの、はみ出しの、出るっていうのを漢字に、
直される場合があるんだけれども、そこは平仮名で、
行きたいと、と思っていて、それを、あらかじめ、その直す分のプロンプトに、
はみ出しチャンネルは正しい、正しいというかね、思っている、平仮名のはみ出しチャンネルですと、
書いておくと、その、成分するときのプロンプトで直ることが多いです。
同じようにですね、あの、名前をね、小川ですと、名乗っているんですけど、
ま、漢字で、あの、直ることが多いんですね、その、
文字起こしを使うと。で、使いたいのは、ローマ字の小川ですと、
そこで、あの、統一していきたいだとか、ま、そこにね、後ろにあの、
アットマークで、あのね、
リンクというかね、あの、
を貼りたいというような、場合もあったりしまして。
で、その、まずね、漢字の小川というのをローマ字にしたいというのも、あらかじめ、
あの、間違えやすい、
変換を「こうですよ」というふうに指定しておくと、あの、間違いが直されやすいというのがあります。
ということで、
ま、一旦6分くらいかな、今結構喋ったんで、
ま、これぐらいの、今の話した内容を実際に、
文字を個子にかけてみて、どのように変換されるかというのを、
実演してみたいと思います。
ということで、今日の放送はこれまでということで、そうですね、また別の機会で会えることを楽しみにしています。
それでは。

midiam


Small

はみ出しチャンネルをご覧ください。
今日はテーマとしてはとても文字を起こしています。
久々に配信をしています。
前回の放送の中で、いろいろ話したんですけど、
以前から配信者で知っているジーニンさんから、
日本語の文字を起こしてなかなか難易度が高いですけど、
イスパーはどれくらい直しが必要ですか。
音声認識は私も今興味ある分野なので、
是非お願いします。というところの反応がありまして、
それについて話したいときたいと思うんですけど、
イスパーに関しては言語モデルというのがあって、
ラージーバージョン3という大きなものから、
ミディアム・スモール・タイニーという、
だんだんだんだん制度が変わって、
言語モデルの制度が結構選ぶものによって
変わるというのもあって、最新のラージのV3というものを使うと、
制度は高いんだけども、変換、スピードとマシンパーを使うという世界で、
現実的にどれくらい日本語の直しが必要ですか。
というところに関して、実際に今声をとっているので、
今の今回の話している放送自体を文字起こしというか、
それにかけてみて、どれくらいの制度になるかというのを
試してみたいと思います。
一応自分の持っている所感というか、
ウィスパーも含めてというか、
ウィスパーの文字起こしの制度と、
制度が悪かった場合だとしても、
AIによって文字を整文する、文字を整えるという作業をすると、
文字が直るという世界もありまして、
よくあるのは、自分で思っているのは、
漢字の間違い、同じ言葉だけど、
漢字の種類が違うということがよく、
音声入力とかリアルタイプの音声入力もあるんですけど、
よく起こるんですけど、
それをAIに直してもらうと、
結構直る確率が高いと思います。
それは前後の文章の文脈というか、
そこから文字を修正するというのがかかるので、
漢字の間違いというのは、
直るかなと思っています。
一方、直りにくいと思っているのは、
例えば、僕は今、喋っている中で、
スタイフという単語をよく配信していて、
スタイフという略語を使うのですけど、
どうも僕は話すと、スタイフになることが多いんですよね。
音声認識とか自分の声の中で、
そういう名字の単語はインターネットとかにあるわけじゃないので、
結構直りにくいというか、
ほぼ直らないんですけど、
そこを文字を直すときのプロンプトで、
スタイフはスタエフですとか、
という書いたりだとか、
例えば、紹介文のこの番組で言うと、
「はみ出しチャンネル」という言葉を使った時に、
例えば「はみ出し」の部分を、
「はみ出し」の出るというのを漢字に直される場合があるんだけれども、
そこは平仮名で行きたいと思っていて、
それをあらかじめ、
直す分のプロンプトに「はみ出しチャンネル」は正しいと思っている、
平仮名の「はみ出しチャンネル」ですと書いておくと、
成分する時のプロンプトで直ることが多いです。
同じより、名前を「おがわ」ですと名乗っているんですけど、
漢字で直ることが多いんですね。
文字起こしを使うと。
で、使いたいのはローマ字の「おがわ」ですと、
そこで統一していきたいだとか、
そこに後ろにアットマークで、
リンクというかね、
を貼りたいというような場合もあったりしまして、
漢字の「おがわ」というのをローマ字にしたいというのもあらかじめ、
間違いやすい変換をこうですよというふうに指定しておくと、
間違いが直されやすいというのがあります。
ということで、
一旦6本くらいかな、今結構喋ったんで、
これぐらいの今の話した内容を実際に文字起こしにかけてみて、
そのように変換されるかというのを実演してみたいと思います。
ということで、
今日の放送はこれまでということで、
また別の機会で会えることを楽しみにしています。
それでは。

small

Base

ハミダッシャネローガーです 今日はですねまあテーマとしは得文字を越しというところで
まあちょっと久々に配信をしてスタイフですね配信をして そうですね
また 前回の放送の中で 色々話したんですけど
ちょっとねあの以前から配信者で知ってる ジーニンさんから
日本語の文字を越してなかなかないん度が高いですけど
スパーはどれぐらい直しが必要ですか 本成人式は私も今興味ある分野なんで
フィンもぜひお願いしますっていうところの反応がありまして
まあそれについて話したい きたいと思うんですけど
ウィスパーに関しては言語モデルというのが あってまあラージバージョン3っていう
大きなものから ミディアムスモール
タイニーっていうまあだんだんだんだせいドが変わって 言語モデルだね
そうせいドが結構その選ぶ者によって 変わるっていうのもあって
最新のラージのV3っていうものを使うと せいドは高いんだけども
変換スピードとマシンパーが 使うという世界で
現実的にねどれぐらい日本語の直しが 必要ですかっていうところに関して
まあ実際にね今声を取っているんで 今の今回の話している放送自体を
文字を越したいよっか そうですねそれにかけてみてどれぐらいの
せいドになるかっていうのを 試してみたいと思います
ですねまあ一応自分の思ってる初感というか
まあウィスパーも含めてというか ウィスパーもの文字を含じのせいドと
まああとね制度が悪かった場合だとしても AIによって文字を成分する
文字を整えるね文書を整えるっていうのを 作業すると文字がなわるっていう世界もありまして
まあよくあるのはね自分で考っているのは 感じのね間違いね
同じ言葉だけど感じの種類が違うってことが よく音声入力とかリアルタイムの音声入力
なんですけどよく起こるんですけど それをね AIにあの直してもらうと結構
直る確率が高いと思います それはねあの前後の文書の文字役というかね
そこからあの文字を修正する 文字を修正するっていうのがかかるんで案外その
感じの間違いっていうのはあの 直るかなと思っています
一方ねあの直りにくいと思っているのはね 例えばですねあの
僕今しゃべってるのなんかでスタイフっていう 単語をよくまあスタンでよく
配信していてスタイフというリアク語を使用んですけど どうも僕は話すとねスタイフになることが多いんですよね
あの完全に意識のとか自分の声のあのそうですね なのでそういうこういう名字の単語はあの
インターネットとかにあるわけじゃないんで 結構直りにくいというかまぁほぼ
直らないんですけどそこをねあの 文字を直す時のプロンプとであのスタイフはスタFですとか
っていう書いたりだとか 例えばね紹介文の この番組で言うとハビ出しチャンネルっていう
言葉を使った時に 例えばねハビ出しの部分をあのハビ出しの出るっていうのを感じに
直される場合があるんだけれども そこはヒラガナで
行きたいと思っていて それをあらかじめその直す文のプロンプとに
ハビ出しチャンネルは正しい正しいというかね 思っているヒラガナハビ出しチャンネルですと
書いておくとその成分するときのプロンプとで直ることが多いです 同じよりですねあの名前はね
お側ですと直なのっているんですけど まあ感じであーんと直ることが多いんですねその
文字を越しを使うとで使いたいのはローマジのお側ですと そこであの統一していきたいだとか
そこにね後ろにあのアットマークで リンクというかね
を張りたいというような場合もあったりしまして そのまずね感じのお側というのをローマジにしたいというのも
あらかじめんと間違いやすい 変換をこうですよというふうに指定しておくと
間違いが直されやすいっていうのがあります ということで
まあ一旦6分ぐらいかな今結構しゃべったんで まあこれぐらいの今の話した内容を
実際に文字を越しにかけてみて そのように変換されるかっていうのを
実現してみたいと思います ということで今日の放送はこれまでということで
ですねまた別の機会で会えることをお楽しみにしています それでは

base

tiny 

ハミダシチャンネルの動画です。今日はですね。
テーマとしは特徴文字を欲しいというところで、
ちょっと久々に配信をして、スタイフですね。
配信をして、そうですね。
また、全開の放送の中で、
いろいろ話したんですけど、
ちょっとね、あの、以前から配信者で知ってるG23から、
日本語の文字を越して、なかなかないんだ方が高いですけど、
イスパーはどれくらい直しが必要ですか。
本線人式は私も今興味ある分野なので、
食品もぜひお願いします。
っていうところのあるのがありまして、
まぁ、それについて話したいと思うんですけど、
まぁ、ウィスパーに関しては、
言語モデルというのがあって、
ラーチ、バージョンスリッティュー、
大きなものからミディアもスモール、
タイニーティュー。
なんだ、なんだ、セードが変わって、
言語モデルなの。
セードが結構、
エラブモなによって変わるっていうのもあって、
最新のラージのブイスリ、
っていうものを使うと、
セードは高いんだけども、
変換、スピードとマシンパーが使うという世界で、
現実的に、どれくらい日本語の直しが必要ですか。
っていうところに関して、
実際に今、声を取っているので、
今の今回の話しているフォースを自体を
もう上手くしているか、
それにかけてみて、
ブレグライの制度になるか、
というのを試してみたいと思います。
で、まあ、ちょっと十分の思ってる食感というか、
まあ、ウィスパーも含めてというか、
フィスパーも文字を含ちな制度と、
あと、制度が悪かった場合、
だとしてもAIによって、
マジを成分する、
マジを撮らないのか、
そういう話をすると、
マジがなわるという世界もありまして、
よくあるのは、
自分で感を持っているのは、
感じなの、
間違いね、
同じ言葉だけで、
感じな種類が違うということが、
よく、
音声入力とか、
リアルタイムの音声入力もありますが、
あるんですけど、
それをAIに、
あの直してもらうと、
結構なおる確率が高いと思います。
それはね、
前後の文章の文略というか、
そこから、
あの、
文字を修正する、
文字を修正するっていうのか、
かかるんで、
案外、
その、
感じな間違いっていうのは、
なおるかなと思っています。
一方、
なおるにくいと思っているのは、
例えばですね、
僕今、
しゃべってるの、
中で、
スタイプっていう、
単語をよく、
まあ、
3で、
配信していて、
スタイプという役号を使うんですけど、
どうも、
僕は話すと、
スタイプになることが多いんですよね。
うん。
あの、
完全に意識の、
とか、
自分の声の、
そうですね。
中で、
そういう、
こういうメージの単語は、
あの、
インターネットとかに、
ある訳じゃないんで、
結構、
直りにくいというか、
まあ、
ほぼ、
直らないんですけど、
そこをね、
文字を直すときの、
プロンプとで、
スタイプは
スタイプですとか、
っていう書いたりだとか、
例えばね、
紹介文の、
この番組で、
あと、
はみ出しちゃんでる、
言葉を使ったときに、
例えばね、
はみ出しの部分も、
あの、
はみ出しの、
出るっていうのを感じに、
直される場合があるんだけれども、
そこはひらがなで、
いきたいと思っていて、
それを、
あらかじめ、
その直す分のプロンプとに、
はみ出しちゃんでるわ、
正しい、
楽しいですね、
思っている、
ひらがななはみ出しちゃんでる、
ですと、
書いておくと、
その成分するときの
プロンプとで、
直ることが多いです。
同じようにですね、
あの、
名前をね、
お側ですと、
直っているんですけど、
まあ、
感じで、
直ることが多いですね、
面上ご視聴を使うと、
で、
使いたいのは、
ローマジのオーガーワーですと、
そこで、
統一していきたいだとか、
まあ、
そこにね、
後ろに、
アットマークで、
ね、
あの、
まった、
リンクというかね、
オー、
張りたいっていうような、
わいもあったりしました。
で、
その、
感じのオーガーワーというのを、
ローマジに、
下っていうのも、
あらかじめ、
うーん、
と、
間違いやすい、
ん、
変感、
おお、
こうですよと、
いうふうに、
指定しよくと、
あの、
間違いは、
直されやすいっていうのが、
あります。
ということで、
ん、
まったん、
ロッポンクでは、
今結構しゃべったんで、
これぐらいの、
今の、
話した内容を、
実際に、
文字を欲しにかけてみて、
そのように、
変感されるかっていうのを、
ん、
実演してみたいと思います。
ということで、
今日の放送は、
これまでということで、
わた、
別の違いで、
会えることを、
楽しみにしています。
それでは、
ご視聴ありがとうございました

tiny

#Whisper
#文字起こし
#精度
#言語モデル
#stand_fm #podcast
#はみだしチャンネル

この記事が気に入ったらサポートをしてみませんか?