ウィスパーでの文字起こしの実例!音声とテキストの変換結果を比較 1 Ogawa @ はみだしチャンネル 2024年2月1日 16:03 こんにちは、はみだしチャンネルOgawaです。Whisperの文字起こしの精度を言語モデルごとで比較しています。詳しい考察は別の記事で行います。入力に使った音声 (6:45) stand.fm 音声の内容(修正済み)はみだしチャンネルのOgawaです。今日は、文字起こしについて話していきたいと思います。久しぶりにスタエフで配信しています。前回の放送で、ジーニーさんから日本語の文字起こしの難易度について質問がありました。ウィスパーはどれくらい直しが必要なのか、ということです。音声認識は私も興味がある分野なので、ぜひお答えしたいと思います。ウィスパーに関しては、言語モデルというのがあります。large version3という大きなものから、medium small tinyという小さなものまで、いろいろな種類があります。言語モデルの精度は、選ぶものによって変わります。最新のlargeのv3というものを使うと、精度は高いのですが、変換スピードとマシンパワーが必要になります。現実的には、どれくらい日本語の直しが必要なのか、ということですね。実際に、今声を取っているこの放送自体を文字起こししてみて、どれくらいの精度になるかを試してみたいと思います。私の感想としては、ウィスパーも含めて、文字起こしの精度は、AIによって文字を整える作業をすると、かなり改善されると思います。よくあるのは、漢字の間違いです。同じ言葉でも、漢字の種類が違うということが、音声入力ではよく起こります。しかし、AIに直してもらうと、前後の文章の文脈から、誤字を修正することができます。そのため、漢字の間違いは、比較的直りやすいと思います。一方、直りにくいのは、固有名詞の単語です。例えば、私が今喋っている中で、スタエフという単語をよく使います。これは、standfmで配信しているときに使う略語です。しかし、音声認識では、スタイフになってしまうことが多いです。これは、インターネットにはない単語なので、直りにくいのです。そこで、文字を直すときのプロンプトで、スタイフはスタエフです、というように指定しておくと、間違いが直されやすくなります。同じように、この番組の名前であるはみだしチャンネルという言葉も、はみ出しの出るという漢字に直されてしまうことがあります。しかし、私はひらがなで書きたいのです。それで、文字を直すときのプロンプトに、はみだしチャンネルはひらがなです、というように書いておくと、間違いが直されやすくなります。また、私の名前である小川も、漢字で書かれてしまうことがあります。しかし、私はローマ字でOgawaと書きたいのです。それに、後ろに@でリンクを貼りたいという場合もあります。そのときは、文字を直すときのプロンプトに、小川はOgawaです、というように書いておくと、間違いが直されやすくなります。ということで、今は6分ぐらい話しました。これぐらいの内容を、実際に文字起こしにかけてみて、どのように変換されるかを実演してみたいと思います。今日の放送はこれで終わります。また別の機会にお会いできることを楽しみにしています。それでは、ありがとうございました。音声の内容(修正済み)Large V3はみだしチャンネル小川です今日はですねテーマとしては続文字起こしというところで久々に配信をしてスタイフですね配信をしてそうですねまた前回の放送の中でいろいろ話したんですけどあの以前から配信者で知っているジーニーさんから日本語の文字起こしってなかなか難易度が高いですけどウィスパーはどれくらい直しが必要ですか音声認識は私も今興味ある分野なので特にぜひお願いしますというところの反応がありましてそれについて話していきたいと思うんですけどウィスパーに関しては言語モデル言語モデルというのがあってlargeversion3っていう大きなものからmedium smalltinyっていうまあだんだんだんだん精度が変わってあの言語モデルのねあの精度が結構その選ぶものによって変わるっていうのもあって最新のlargeのv3っていうものを使うとうん精度は高いんだけどもあの変換スピードとマシンパワーがを使うという世界でで現実的にねどれぐらい日本語の直しが必要ですかっていうところに関してまあ実際にね今声を取っているんであの今の今回の話してる放送自体をあのね文字起こしというかそうですねそれにかけてみてどれぐらいの精度になるかっていうのを試してみたいと思いますでですねまあ一応自分の思ってる所感というかあのねまあウィスパーも含めてというかまあウィスパーもの文字起こしの精度とまああとね精度が悪かったらあった場合だとしてもaiによって文字を成分する文字を整えるね文章を整えるっていうの作業をするとまあ文字が直るっていう世界もありましてでまあよくあるのはね自分で思ってるのはあの漢字のね間違いねあの同じ言葉だけど漢字の種類が違うってことがよくあの音声入力とかリアルタイプの音声入力もそうなんですけどよく起こるんですけどそれをねaiにあの直してもらうと結構直る確率が高いと思いますそれはねあの前後の文章の文脈というかねそこからあの文字を修正する誤字を修正するってのがかかるんで案外その漢字の間違いっていうのはあの直るかなと思っていますで一方ねあの直りにくいと思っているのはね例えばですねあの僕今喋ってるの中でスタイフっていう単語をよくあのまあスタンドFMで配信していてスタイフという略語を使うんですけどどうも僕が話すとねスタイフになることが多いんですよねあの音声認識のとか自分の声のあのそうですね中でそういう固有名詞の単語はあのインターネットとかにあるわけじゃないんで結構直りにくいというかまあほぼほぼ直らないんですけどそこをね文字を直すときのプロンプトでスタイフはスタFですとかっていうのを書いたりだとか例えばね紹介文のこの番組で言うとはみ出しチャンネルっていう言葉を使ったときに例えばねはみ出しの部分をあのはみ出しの出るっていうのを漢字に直される場合があるんだけれどもそこはひらがなでいきたいとと思っていてそれをあらかじめその直す文のプロンプトにはみ出しチャンネルを正しい正しいというかね思っているひらがなのはみ出しチャンネルですと書いておくとその成分するときのプロンプトで直ることが多いです同じようにですねあの名前をね小川ですと名乗っているんですけどまあ漢字でうーんと直ることが多いんですねその文字起こしを使うとで使いたいのはローマ字の小川ですとそこで統一していきたいだとかまあそこにね後ろにアットマークでリンクと言うかねを貼りたいというような場合もあったりしましてでそのまずね漢字の小川っていうのをローマ字にしたいっていうのもあらかじめ間違えやすい変換をこうですよという風に指定しておくと間違いが直されやすいっていうのがありますということでまあ一旦6分ぐらいかな今結構しゃべったんでこれぐらいの今の話した内容を実際に文字起こしにかけてみてどのように変換されるかっていうのを実演してみたいと思いますということで今日の放送はこれまでということでそうですねまた別の機会で会えることを楽しみにしていますそれではありがとうございましたLarge V3Midiamはみ出しチャンネル、小川です。今日はですね、まあ、テーマとしては「続文字起こし」というところで、まあ、ちょっと久々に配信をして、スタッフですね、配信をして、そうですね。また、前回の放送の中で、あの、まあ、いろいろ話したんですけど、ちょっとね、あの、以前から、配信者で知ってるジーニンさんから、日本語の文字起こしって、なかなか難易度が高いですけど、ISPAはどれくらい直しが必要ですか?音声認識は私も今興味ある分野なので、特にも、ぜひお願いします、というところの反応がありまして、まあ、それについて話していきたいと思うんですけど、まあ、あの、ISPAに関しては、言語モデルっていうのがあって、まあ、large、version3っていう、まあ、大きなものから、medium、small、tinyっていう、まあ、だんだん、だんだん、精度が変わって、言語モデルのね、あの、そう、精度が結構その、選ぶものによって変わるっていうのもあって、最新のlargeのv3っていうものを使うと、うん、精度は高いんだけども、あの、変換、スピードとマシンパワーを使うという世界で、で、現実的にね、どれくらい日本語の直しが、うん、必要ですか、っていうところに関して、まあ、実際にね、今、声を取っているんで、あの、今の今回の話している放送自体を、あのね、文字起こしというか、そうですね、それにかけてみて、どれくらいの、うん、あの、精度になるかっていうのを、あの、試してみたいと思います。でですね、まあ、一応自分の思っている所感というか、あのね、まあ、Whisperも含めてというか、まあ、Whisperも、の文字起こしの精度と、まあ、あとね、精度が悪かった場合だとしても、AIによって、あの、文字を成分する、文字を整えるね、文章を整えるっていう、の作業をすると、まあ、文字が直るっていう世界もありまして、で、まあ、よくあるのはね、自分で、思っているのは、あの、漢字のね、間違いね、あの、同じ言葉だけど、漢字の種類が違うってことが、よく、あの、音声入力とか、リアルタイプの音声入力もそうなんですけど、よく起こるんですけど、それはね、AIに直してもらうと、結構直る確率が高いと思います。それはね、あの、前後の文章の文脈というかね、そこから、あの、文字を修正する、語字を修正するっていうのがかかるんで、案外、その、漢字の間違いっていうのは、あの、直るかなと思っています。で、一方ね、あの、直りにくいと思っているのはね、例えばですね、あの、僕今喋ってるの中で、スタイフっていう単語をよく、あの、まあ、スタンドヘルムでは配信していて、スタイフという略語を使うんですけど、どうも僕が話すとね、スタイフになることが多いんですよね。あの、音声認識の、とか、自分の声の、あの、そうですね、中で、そういう、こういうイメージの単語は、あの、インターネットとかにあるわけじゃないんで、結構直りにくいというか、まあ、ほぼほぼ直らないんですけど、そこをね、あの、文字を直すときの、プロンプトで、あの、スタイフはスタFです、とか、っていうのを書いたりだとか、例えばね、紹介文の、この番組で言うと、はみ出しチャンネルっていう言葉を使ったときに、例えばね、はみ出しの部分を、あの、はみ出しの、出るっていうのを漢字に、直される場合があるんだけれども、そこは平仮名で、行きたいと、と思っていて、それを、あらかじめ、その直す分のプロンプトに、はみ出しチャンネルは正しい、正しいというかね、思っている、平仮名のはみ出しチャンネルですと、書いておくと、その、成分するときのプロンプトで直ることが多いです。同じようにですね、あの、名前をね、小川ですと、名乗っているんですけど、ま、漢字で、あの、直ることが多いんですね、その、文字起こしを使うと。で、使いたいのは、ローマ字の小川ですと、そこで、あの、統一していきたいだとか、ま、そこにね、後ろにあの、アットマークで、あのね、リンクというかね、あの、を貼りたいというような、場合もあったりしまして。で、その、まずね、漢字の小川というのをローマ字にしたいというのも、あらかじめ、あの、間違えやすい、変換を「こうですよ」というふうに指定しておくと、あの、間違いが直されやすいというのがあります。ということで、ま、一旦6分くらいかな、今結構喋ったんで、ま、これぐらいの、今の話した内容を実際に、文字を個子にかけてみて、どのように変換されるかというのを、実演してみたいと思います。ということで、今日の放送はこれまでということで、そうですね、また別の機会で会えることを楽しみにしています。それでは。midiamSmallはみ出しチャンネルをご覧ください。今日はテーマとしてはとても文字を起こしています。久々に配信をしています。前回の放送の中で、いろいろ話したんですけど、以前から配信者で知っているジーニンさんから、日本語の文字を起こしてなかなか難易度が高いですけど、イスパーはどれくらい直しが必要ですか。音声認識は私も今興味ある分野なので、是非お願いします。というところの反応がありまして、それについて話したいときたいと思うんですけど、イスパーに関しては言語モデルというのがあって、ラージーバージョン3という大きなものから、ミディアム・スモール・タイニーという、だんだんだんだん制度が変わって、言語モデルの制度が結構選ぶものによって変わるというのもあって、最新のラージのV3というものを使うと、制度は高いんだけども、変換、スピードとマシンパーを使うという世界で、現実的にどれくらい日本語の直しが必要ですか。というところに関して、実際に今声をとっているので、今の今回の話している放送自体を文字起こしというか、それにかけてみて、どれくらいの制度になるかというのを試してみたいと思います。一応自分の持っている所感というか、ウィスパーも含めてというか、ウィスパーの文字起こしの制度と、制度が悪かった場合だとしても、AIによって文字を整文する、文字を整えるという作業をすると、文字が直るという世界もありまして、よくあるのは、自分で思っているのは、漢字の間違い、同じ言葉だけど、漢字の種類が違うということがよく、音声入力とかリアルタイプの音声入力もあるんですけど、よく起こるんですけど、それをAIに直してもらうと、結構直る確率が高いと思います。それは前後の文章の文脈というか、そこから文字を修正するというのがかかるので、漢字の間違いというのは、直るかなと思っています。一方、直りにくいと思っているのは、例えば、僕は今、喋っている中で、スタイフという単語をよく配信していて、スタイフという略語を使うのですけど、どうも僕は話すと、スタイフになることが多いんですよね。音声認識とか自分の声の中で、そういう名字の単語はインターネットとかにあるわけじゃないので、結構直りにくいというか、ほぼ直らないんですけど、そこを文字を直すときのプロンプトで、スタイフはスタエフですとか、という書いたりだとか、例えば、紹介文のこの番組で言うと、「はみ出しチャンネル」という言葉を使った時に、例えば「はみ出し」の部分を、「はみ出し」の出るというのを漢字に直される場合があるんだけれども、そこは平仮名で行きたいと思っていて、それをあらかじめ、直す分のプロンプトに「はみ出しチャンネル」は正しいと思っている、平仮名の「はみ出しチャンネル」ですと書いておくと、成分する時のプロンプトで直ることが多いです。同じより、名前を「おがわ」ですと名乗っているんですけど、漢字で直ることが多いんですね。文字起こしを使うと。で、使いたいのはローマ字の「おがわ」ですと、そこで統一していきたいだとか、そこに後ろにアットマークで、リンクというかね、を貼りたいというような場合もあったりしまして、漢字の「おがわ」というのをローマ字にしたいというのもあらかじめ、間違いやすい変換をこうですよというふうに指定しておくと、間違いが直されやすいというのがあります。ということで、一旦6本くらいかな、今結構喋ったんで、これぐらいの今の話した内容を実際に文字起こしにかけてみて、そのように変換されるかというのを実演してみたいと思います。ということで、今日の放送はこれまでということで、また別の機会で会えることを楽しみにしています。それでは。smallBaseハミダッシャネローガーです 今日はですねまあテーマとしは得文字を越しというところでまあちょっと久々に配信をしてスタイフですね配信をして そうですねまた 前回の放送の中で 色々話したんですけどちょっとねあの以前から配信者で知ってる ジーニンさんから日本語の文字を越してなかなかないん度が高いですけどスパーはどれぐらい直しが必要ですか 本成人式は私も今興味ある分野なんでフィンもぜひお願いしますっていうところの反応がありましてまあそれについて話したい きたいと思うんですけどウィスパーに関しては言語モデルというのが あってまあラージバージョン3っていう大きなものから ミディアムスモールタイニーっていうまあだんだんだんだせいドが変わって 言語モデルだねそうせいドが結構その選ぶ者によって 変わるっていうのもあって最新のラージのV3っていうものを使うと せいドは高いんだけども変換スピードとマシンパーが 使うという世界で現実的にねどれぐらい日本語の直しが 必要ですかっていうところに関してまあ実際にね今声を取っているんで 今の今回の話している放送自体を文字を越したいよっか そうですねそれにかけてみてどれぐらいのせいドになるかっていうのを 試してみたいと思いますですねまあ一応自分の思ってる初感というかまあウィスパーも含めてというか ウィスパーもの文字を含じのせいドとまああとね制度が悪かった場合だとしても AIによって文字を成分する文字を整えるね文書を整えるっていうのを 作業すると文字がなわるっていう世界もありましてまあよくあるのはね自分で考っているのは 感じのね間違いね同じ言葉だけど感じの種類が違うってことが よく音声入力とかリアルタイムの音声入力なんですけどよく起こるんですけど それをね AIにあの直してもらうと結構直る確率が高いと思います それはねあの前後の文書の文字役というかねそこからあの文字を修正する 文字を修正するっていうのがかかるんで案外その感じの間違いっていうのはあの 直るかなと思っています一方ねあの直りにくいと思っているのはね 例えばですねあの僕今しゃべってるのなんかでスタイフっていう 単語をよくまあスタンでよく配信していてスタイフというリアク語を使用んですけど どうも僕は話すとねスタイフになることが多いんですよねあの完全に意識のとか自分の声のあのそうですね なのでそういうこういう名字の単語はあのインターネットとかにあるわけじゃないんで 結構直りにくいというかまぁほぼ直らないんですけどそこをねあの 文字を直す時のプロンプとであのスタイフはスタFですとかっていう書いたりだとか 例えばね紹介文の この番組で言うとハビ出しチャンネルっていう言葉を使った時に 例えばねハビ出しの部分をあのハビ出しの出るっていうのを感じに直される場合があるんだけれども そこはヒラガナで行きたいと思っていて それをあらかじめその直す文のプロンプとにハビ出しチャンネルは正しい正しいというかね 思っているヒラガナハビ出しチャンネルですと書いておくとその成分するときのプロンプとで直ることが多いです 同じよりですねあの名前はねお側ですと直なのっているんですけど まあ感じであーんと直ることが多いんですねその文字を越しを使うとで使いたいのはローマジのお側ですと そこであの統一していきたいだとかそこにね後ろにあのアットマークで リンクというかねを張りたいというような場合もあったりしまして そのまずね感じのお側というのをローマジにしたいというのもあらかじめんと間違いやすい 変換をこうですよというふうに指定しておくと間違いが直されやすいっていうのがあります ということでまあ一旦6分ぐらいかな今結構しゃべったんで まあこれぐらいの今の話した内容を実際に文字を越しにかけてみて そのように変換されるかっていうのを実現してみたいと思います ということで今日の放送はこれまでということでですねまた別の機会で会えることをお楽しみにしています それではbasetiny ハミダシチャンネルの動画です。今日はですね。テーマとしは特徴文字を欲しいというところで、ちょっと久々に配信をして、スタイフですね。配信をして、そうですね。また、全開の放送の中で、いろいろ話したんですけど、ちょっとね、あの、以前から配信者で知ってるG23から、日本語の文字を越して、なかなかないんだ方が高いですけど、イスパーはどれくらい直しが必要ですか。本線人式は私も今興味ある分野なので、食品もぜひお願いします。っていうところのあるのがありまして、まぁ、それについて話したいと思うんですけど、まぁ、ウィスパーに関しては、言語モデルというのがあって、ラーチ、バージョンスリッティュー、大きなものからミディアもスモール、タイニーティュー。なんだ、なんだ、セードが変わって、言語モデルなの。セードが結構、エラブモなによって変わるっていうのもあって、最新のラージのブイスリ、っていうものを使うと、セードは高いんだけども、変換、スピードとマシンパーが使うという世界で、現実的に、どれくらい日本語の直しが必要ですか。っていうところに関して、実際に今、声を取っているので、今の今回の話しているフォースを自体をもう上手くしているか、それにかけてみて、ブレグライの制度になるか、というのを試してみたいと思います。で、まあ、ちょっと十分の思ってる食感というか、まあ、ウィスパーも含めてというか、フィスパーも文字を含ちな制度と、あと、制度が悪かった場合、だとしてもAIによって、マジを成分する、マジを撮らないのか、そういう話をすると、マジがなわるという世界もありまして、よくあるのは、自分で感を持っているのは、感じなの、間違いね、同じ言葉だけで、感じな種類が違うということが、よく、音声入力とか、リアルタイムの音声入力もありますが、あるんですけど、それをAIに、あの直してもらうと、結構なおる確率が高いと思います。それはね、前後の文章の文略というか、そこから、あの、文字を修正する、文字を修正するっていうのか、かかるんで、案外、その、感じな間違いっていうのは、なおるかなと思っています。一方、なおるにくいと思っているのは、例えばですね、僕今、しゃべってるの、中で、スタイプっていう、単語をよく、まあ、3で、配信していて、スタイプという役号を使うんですけど、どうも、僕は話すと、スタイプになることが多いんですよね。うん。あの、完全に意識の、とか、自分の声の、そうですね。中で、そういう、こういうメージの単語は、あの、インターネットとかに、ある訳じゃないんで、結構、直りにくいというか、まあ、ほぼ、直らないんですけど、そこをね、文字を直すときの、プロンプとで、スタイプはスタイプですとか、っていう書いたりだとか、例えばね、紹介文の、この番組で、あと、はみ出しちゃんでる、言葉を使ったときに、例えばね、はみ出しの部分も、あの、はみ出しの、出るっていうのを感じに、直される場合があるんだけれども、そこはひらがなで、いきたいと思っていて、それを、あらかじめ、その直す分のプロンプとに、はみ出しちゃんでるわ、正しい、楽しいですね、思っている、ひらがななはみ出しちゃんでる、ですと、書いておくと、その成分するときのプロンプとで、直ることが多いです。同じようにですね、あの、名前をね、お側ですと、直っているんですけど、まあ、感じで、直ることが多いですね、面上ご視聴を使うと、で、使いたいのは、ローマジのオーガーワーですと、そこで、統一していきたいだとか、まあ、そこにね、後ろに、アットマークで、ね、あの、まった、リンクというかね、オー、張りたいっていうような、わいもあったりしました。で、その、感じのオーガーワーというのを、ローマジに、下っていうのも、あらかじめ、うーん、と、間違いやすい、ん、変感、おお、こうですよと、いうふうに、指定しよくと、あの、間違いは、直されやすいっていうのが、あります。ということで、ん、まったん、ロッポンクでは、今結構しゃべったんで、これぐらいの、今の、話した内容を、実際に、文字を欲しにかけてみて、そのように、変感されるかっていうのを、ん、実演してみたいと思います。ということで、今日の放送は、これまでということで、わた、別の違いで、会えることを、楽しみにしています。それでは、ご視聴ありがとうございましたtiny #Whisper #文字起こし #精度 #言語モデル #stand_fm #podcast#はみだしチャンネル ダウンロード copy #podcast #stand_fm #文字起こし #精度 #whisper #言語モデル #はみだしチャンネル 1 この記事が気に入ったらサポートをしてみませんか? サポート