見出し画像

Whisper V3を試す

この記事を書いている人

兎耳山ルカ

会計Vtuber/会計修士/公認会計士/公認情報システム監査人CISA/公認内部監査人CIA/AFP/G検定/元銀行員/大手監査法人でAIを用いた業務変革に取り組んでいました/メタバースやYouTubeにおいて会計の魅力を発信する会計Vtuberとして活動しています。
X: @TomiyamaLuca


Whisper V3モデルの公開

2023年11月6日に開催されたOpenAI Dev Dayでは様々なAIの発表がありましたが、今回はそのなかのひとつWhisper V3を試してみます。

WhisperはOpenAIが開発したオープンソースのSpeech to text(音声文字起こし)AIです。Transformerを活用することで、高い精度で文字起こしが可能です。
Whisperのモデルはsmall, medium, largeなどモデルのサイズによって区分があります。大きいモデルほど精度が高く、より大きな計算資源を必要とします。しかし、一番大きいlargeモデルでもVRAM10GB程度で動作するため、一般的なご家庭のハイパフォーマンスゲーミングPCでも十分に動作するレベルです。
WhisperのGithubリポジトリは下記です。

Wisper V3の性能向上は言語によって大きく差があります。とくに英語以外のマルチリンガルモデルの改善が顕著であり、中国語のフォーマンスが大きく向上していることがわかります。日本語の改善幅は小幅であるように見受けられます。

large-v3とlarge-v2のパフォーマンス

Whisper large-v3を試す

今回は私のYoutube動画を題材にWhisper large-v3とlarge-v2の動作を比較してみます。
題材動画「いまさらきけない財務会計士 徹底攻略 - YouTube

動画ではかつて設立が検討された国家資格「財務会計士」について解説しています。会計士制度に関する話題で、若干専門的な用語も含んでいます。

Whisperライブラリをインストールします。

!pip install -U openai-whisper

Whisperライブラリをインポートし、mp3ファイルのパスを渡して実行します。今回はinitial_promptとして、動画の内容を簡潔に含めておきます。
initial_promptはWhisperに事前指示を与えることができ、口調や用語をある程度誘導することができます。(詳しくはドキュメントをご覧ください。
https://platform.openai.com/docs/guides/speech-to-text/prompting

import whisper

whisper_model = whisper.load_model("large-v3")
whisper_model.transcribe("/content/完成財務会計士_1.mp3", 
                         initial_prompt="会計Vtuberの兎耳山ルカ(とみやまるか)がかつて議論された公認会計士の前段階の資格「財務会計士」について話をしています。")
print(result["text"])

出力結果(V3とV2の比較)

Whisper large-v3による文字起こし結果(抜粋)は下記の通りです。

こんにちは。会計Vtuberのとみやまです。本日はよくわかる財務会計士と題しまして、幻の資格財務会計士について説明していきたいと思います。財務会計士、正確には企業財務会計士といいますが、これはかつて創設が議論された会計プロフェッション資格です。公認会計士という資格の前段階として位置付けられたものです。これは2011年頃に、公認会計士法改正案として参院の財政金融委員会に提出されましたが、与野党から批判が噴出して撤回されたということになります。なので、最初に申し上げておくと、財務会計士は今は存在しない、かつても存在していないんですけども、そういった資格になります。これがなんで今さらその話をするかというと、2023年7月9日に、この財務会計士が謎のツイッタートレンド入りをしました。これは私のツイートですけども、財務会計士がまさかのトレンドインということで、公認会計士界隈、会計界隈がざわついたということがありました。どうしてこの財務会計士がトレンドインしたのか、ツイッターを検索して遡ったりしますと、どうやら元々の発端はですね、2010年の日経新聞の記事をツイートした方がいて、見出しとURLで、財務会計士が負けたというだけなんですが、それを見て、反響があってプチバズりになったというところみたいです。これが日経新聞の記事ですが、財務会計士を新設、公認会計士の前段階に金融庁。この見出しだけ見ると、何かこう新しい資格ができるのかなと思って、財務会計士いいねこれ、私も目指してみようかなっていうことをおっしゃっていた方もいます。この経緯を知っている方は、財務会計士、そんなのあったら懐かしいなっていうツイートをしていました。財務会計士2010年頃、どうしてそんな新しい資格を作ろうなんて議論をしていたのかっていうところなんですが、この当時のですね、公認会計士業界の抱える非常に深刻な問題っていうのがありました。その辺について説明します。代金合格者問題ですね。代金合格者問題ですね。代金合格者というのは、公認会計士試験に合格したものの、監査法人に採用されず、公認会計士登録に必要な実務経験の機会を得ることができなかった人たちのことです。

Whisper large-v3による出力

同様にWhisper large-v2で実行した文字起こし結果は下記の通りです。

こんにちは。会計Vtuberの富山です。本日はよくわかる財務会計士と題しまして、幻の資格財務会計士について説明していきたいと思います。財務会計士正確には企業財務会計士と言いますが、これはかつて創設が議論された会計プロフェッション資格です。公認会計士という資格の前段階として付けられたものです。これは2011年頃に公認会計士法改正案として参院の財政金融委員会に提出されましたが、与野党から批判が紛失して撤回されたというものです。なので最初に申し上げておくと財務会計士は今は存在しない。かつても存在していないんですけども、そういった資格になります。これがなんで今更その話をするかというと、2023年7月9日に財務会計士が謎のツイッタートレンド入りをしました。これは私のツイートですけども、財務会計士がまさかのトレンドインということで公認会計士界隈、会計界隈がざわついたということがありました。どうして財務会計士がトレンドインしたのか、ツイッターを検索して遡ったりしますと、どうやら元々の発端は、2010年の日経新聞の記事をツイートした方がいて、見出しとURLだけなんですが、それを見て反響があってプチバズりになったというところみたいです。これが日経新聞の記事ですが、財務会計士を新設、公認会計士の前段階に金融庁。この見出しだけ見ると、何か新しい資格ができるのかなと思って、財務会計士、いいねこれ、私も目指してみようかなっていうことをおっしゃっていた方もいますし、この経緯を知っている方は、財務会計士、そんなのあったら懐かしいなっていうツイートをしていました。財務会計士、2010年頃どうしてそんな新しい資格を作ろうなんて議論をしていたのかっていうところなんですが、その当時の公認会計士業界の抱える非常に深刻な問題というのがありました。その辺について説明します。待機合格者問題ですね。待機合格者というのは、公認会計士試験に合格したものの、探査法人に採用されず、公認会計士登録に必要な実務経験の機会を得ることができなかった人たちのことです。

Whisper large-v2による出力

両出力とも一見してよく文字起こしできています。出力結果を文章比較ツールを用いて比較してみます。

左 Whisper V3/右 Whisper V2

initial_promptが効いているのか「財務会計士」といった用語も文字起こしができています。両者の文字起こし結果は大部分が一致していますがV3のほうが気持ちディテールが出ている気もします。
「位置付け」、「噴出」、「監査法人」といった言葉はV3がうまく文字起こしできました。一方でV2が正しく文字起こしした「待機合格者」は「代金合格者」になってしまいました。
V3の出力の中段に「~で、財務会計士が負けたという~」という部分がありますがこれは発話には存在しないものであり、Whisperのハルシネーション(幻覚)です。Whisperには時折このようなtransformerらしい?ふるまいがみられます。

まとめ

短い文章での比較ではありましたが、V3とV2はどちらも高い水準で文字起こしができており、両者の目立った差はない印象です。個人的にはどっちでもいいですが、一応今後は新しいモデルのV3を使うと思います。

最後までお読みいただきありがとうございました。
参考になりましたらスキを押していただけましたら幸いです。


会計人コースに記事を執筆しました🎉

会計人コースWebでは、会計プロフェッションを目指している若い方々向けて、生成AI時代の会計人材に必要とされるスキルについて記事を執筆しました。ぜひ御覧ください!

【未来予想図2035】監査現場と会計人に必要とされるスキルとは | 会計人コースWeb

この記事が気に入ったらサポートをしてみませんか?