Google Pixelの文字起こし精度に関する考察 #アンサー配信
はみだしチャンネルのOgawaです。今回は、文字起こしに関するテーマで、いろいろな話をしました。コメントをくださった方々、ありがとうございます。
43回目の配信で、リアルタイム変換について話したときに、ジーニーさんからこんなコメントをいただきました。
「毎度コメント失礼します。笑 私はGoogle Pixel7使いですが、デフォルトで入ってるボイスレコーダーに文字起こしの機能がついてます! 今久しぶりに試してみたのですが、買った頃よりめちゃめちゃ精度高くなってました!😲ほぼ修正いらずです!」
この「久しぶりに使ってみたGoogle Pixelの文字起こし機能が非常に精度が高い」という話に興味を持ちました。
私はGoogle Pixelを持っていないのですが、この話から感じたことや、考えてみたことをシェアしたいと思います。また、役立つ情報もいくつかお伝えしたいと思います。
ジーニーさんの録音環境
ジーニーさんは、私と同じくstandfmでポッドキャストを配信しています。録音環境についても、以前にお話ししたことがあります。高品質の録音機材を使っていることは分かっています。
オーディオインターフェースやコンデンサーマイクを使って、standfmでポッドキャストの録音をしているとのことです。
このコメントから、私が思ったのは、
Google Pixelで直接リアルタイムにボイスメモを文字起こしした場合と、
ポッドキャスト用に高音質のマイク環境で音声ファイルを録音し、それを文字起こしにかけるという方法には、大きな違いがあるのではないかということです。
つまり、Pixelのマイク環境よりも、優れた音声録音環境があることで、精度が上がっている可能性があるということです。
リアルタイム変換と音声ファイルの変換
もう一つ、リアルタイム変換と音声ファイルをアップロードして文字を起こす方法とでは、変換精度に違いが出る可能性があると感じました。
私がMacで使っているHello Transcribeというアプリでは、リアルタイム変換よりも、音声ファイルを取ってからアップロードした方が精度が高いと感じています。
つまり、ポッドキャスト用に高音質の音声データを録音した後に、Pixelを使ってファイルをアップロードし文字起こしをすると、非常に高い精度で、ほぼ修正不要の文字起こしができるということです。
Pixelの文字起こし機能の特徴
私はiPhoneユーザーですが、Pixelの情報については、周りのPixelユーザーから聞くことがあります。スマートフォンの性能というと、カメラ機能などに注目されがちですが、
Pixelの文字起こし機能、特にCPUを使ったGoogle独自のTensorによるリアルタイム文字起こしは、オフラインでも日本語の文字起こし機能が優れているという点で、注目すべきです。
この情報については、参考にしているブログ記事があります。勝間和代さんのはてなブログでは、WindowsとGoogle Pixelの音声認識について詳しく解説されています。
▼参考リンク
勝間和代が徹底的にマニアックな話をアップするブログ
このブログを読んで知ったのは、Windows 11から音声入力の性能が向上したことや、Google Pixelの文字起こし機能が優れているということです。私はApple製品を好きで使っていますが、この情報は多くのユーザーにとって有益だと思います。
以上、Google Pixelの文字起こし機能に関する考察を話してみました。このテーマについては、これで終わります。
この記事が気に入ったらサポートをしてみませんか?