見出し画像

副業にも使える!?非エンジニアでもWhisperを使って4分で文字起こし

こんにちは!クオッカです。

AIを使った文字起こしの精度ってどれくらいなのだろう?

気になったので会社の事業発表の会議の録音データを使ってWhisperで文字起こしをしてみました。

会議はオフラインで行われたもので発表者とは少し距離があるので音声データも声が遠いデータを使ったという前提でどれくらい正確にできたかを見ていきたいと思います。

Whisperの使い方

私はエンジニアではないので、記事を参考にGoogel Colaboratoryを使用して文字起こししました。
この工程はまったくコードがわからなくても、誰でもできるレベルで簡単です。


Wisperのモデルごとのアウトプット

まずは記事に書いてある通りでBaseモデルで試してみました。

  • Base
    19分の音声データの文字起こしが4分くらいで完了しました。

出力されたテキスト

まずの貌けのナンバーコンションを確立するぞとこういう持ってきのために貌品数を単化した再便数を手に入れていきましょうというふうになっていますでこの目指すべき姿というのはすべてが鉄行連鉄とではなくルールベースにおけるみんながさらにたしくみっこうまっと出たらしくみっているものとルールンベースを持っとした鉄駆が融合した組織をおくられたこういう仕ここも組織にどこよりもマーケティングの方向をこういう仕出る状態を目指していきましょういうふうになっていますのでこの観点で見た次のページ以降でマーケセールをする各両側の仕組みのプロジェクトっていうのを報告してもらいますけれどもプロジェクトオーナーが推進しているものというふうに取られるのではなくみんな各フェジンがですねどういうふうにこの部分が出す仕組みというものに対して取り組めるかというものを意識しながら見てもらえると嬉しいですはい、ここからは以上になりますはい、じゃあマーケセール数の関係をさせていただきますちょっと6月の担当の振り返りもしながら関係の振り返りをさせていただければなと思います

これは何を言っているのか全然わからない…
AIもこんなものかと絶望しかけたのですが、調べてみるともっと精度が高いモデルがあった!

  • Large
    19分の音声データだと容量オーバーのエラーが出てしまい、冒頭の2分のデータだけにしてトライしました。(文字起こしは2分くらいで完了)

出力されたテキスト

マーケットのナンバーポイントを確立するぞと、こういう目的のために、高品質を担保して再現性を手に入れていきましょうというふうになっています。この目指すべき姿というのは、すべてがテックオリエンテッドではなく、ルールベースにおけるみんなが定めた仕組み、フォーマットであったら仕組みというものと、テックが融合した組織を僕らで保有し、ここの組織にどこよりもマーケティングノウハウを保有している状態を目指していきましょうというふうになっていますので、この観点で見た次のページ以降で、マーケティングセールス各領域の仕組みのプロジェクトを報告してもらいますけれども、プロジェクトオーナーが推進しているものというふうに捉えるのではなく、みんな各人がどういうふうにこの部分が目指す仕組みに取り組めるかを意識しながら聞いてもらえると嬉しいです。はい、ここからは以上になります。はい、じゃあマーケティングセールスの発表をさせていただきます。6月の単体の振り返りもしながら、関係の振り返りをさせていただければと思います。

Largeだとまあまあ精度が高いアウトプットがでてきました。でもこのままだとちょっと意味わからない部分も、、

ChatGPTに文章をリライトしてもらう

ChatGPTに文章がおかしい部分を修正してと聞いて、文字起こししたデータを送りました。

出てきたアウトプット↓

マーケットのナンバーワンポイントを確立しようという目的のために、高品質を保証し、再現性を手に入れていきましょう。私たちが目指すべき姿は、全てがテクノロジーオリエンテッドである必要はなく、みんながルールベースで定めた仕組みやフォーマットと、部分的に認められたテクノロジーが融合した組織を保有しましょう。私たちの組織は、どこよりもマーケティングノウハウを保有している状態を目指しましょう。そのため、次のページ以降では、マーケティングとセールスの各領域の仕組みについてプロジェクトオーナーが推進しているものだけでなく、各個人がこの目指すべき仕組みにどう取り組むかを考えながら聞いていただければと思います。以上で、ここまでの説明は終わります。次に、マーケティングとセールスの発表を行います。6月の振り返りをしながら、全体の振り返りも行いたいと思います。

内容を端的にしてくれて文章も日本語のおかしいところが修正されました。

どこを修正したかも丁寧に教えてくれます。

結論

今回の音声データだとWhisperだけの文字起こしでも少し変なとこが多かったですが、ChatGPTを組み合わせて人間が最終確認すればで十分精度の高いアウトプットができると思います。
何よゼロから文字起こしするよりは圧倒的に早くできると思います。

文字起こしはクラウドソーシングでも募集が多い仕事なので、whisperのようなAIを使って大量にできるようにするのはありなのかもしれないですね!

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?