見出し画像

Google Pixelの文字起こし精度に関する考察 #アンサー配信

はみだしチャンネルのOgawaです。今回は、文字起こしに関するテーマで、いろいろな話をしました。コメントをくださった方々、ありがとうございます。

43回目の配信で、リアルタイム変換について話したときに、ジーニーさんからこんなコメントをいただきました。

「毎度コメント失礼します。笑 私はGoogle Pixel7使いですが、デフォルトで入ってるボイスレコーダーに文字起こしの機能がついてます! 今久しぶりに試してみたのですが、買った頃よりめちゃめちゃ精度高くなってました!😲ほぼ修正いらずです!」

この「久しぶりに使ってみたGoogle Pixelの文字起こし機能が非常に精度が高い」という話に興味を持ちました。

私はGoogle Pixelを持っていないのですが、この話から感じたことや、考えてみたことをシェアしたいと思います。また、役立つ情報もいくつかお伝えしたいと思います。

ジーニーさんの録音環境

ジーニーさんは、私と同じくstandfmでポッドキャストを配信しています。録音環境についても、以前にお話ししたことがあります。高品質の録音機材を使っていることは分かっています。

オーディオインターフェースやコンデンサーマイクを使って、standfmでポッドキャストの録音をしているとのことです。

このコメントから、私が思ったのは、

  • Google Pixelで直接リアルタイムにボイスメモを文字起こしした場合と、

  • ポッドキャスト用に高音質のマイク環境で音声ファイルを録音し、それを文字起こしにかけるという方法には、大きな違いがあるのではないかということです。

つまり、Pixelのマイク環境よりも、優れた音声録音環境があることで、精度が上がっている可能性があるということです。

リアルタイム変換と音声ファイルの変換

もう一つ、リアルタイム変換と音声ファイルをアップロードして文字を起こす方法とでは、変換精度に違いが出る可能性があると感じました。

私がMacで使っているHello Transcribeというアプリでは、リアルタイム変換よりも、音声ファイルを取ってからアップロードした方が精度が高いと感じています。

つまり、ポッドキャスト用に高音質の音声データを録音した後に、Pixelを使ってファイルをアップロードし文字起こしをすると、非常に高い精度で、ほぼ修正不要の文字起こしができるということです。

Pixelの文字起こし機能の特徴

私はiPhoneユーザーですが、Pixelの情報については、周りのPixelユーザーから聞くことがあります。スマートフォンの性能というと、カメラ機能などに注目されがちですが、

Pixelの文字起こし機能、特にCPUを使ったGoogle独自のTensorによるリアルタイム文字起こしは、オフラインでも日本語の文字起こし機能が優れているという点で、注目すべきです。

この情報については、参考にしているブログ記事があります。勝間和代さんのはてなブログでは、WindowsとGoogle Pixelの音声認識について詳しく解説されています。

▼参考リンク
勝間和代が徹底的にマニアックな話をアップするブログ

このブログを読んで知ったのは、Windows 11から音声入力の性能が向上したことや、Google Pixelの文字起こし機能が優れているということです。私はApple製品を好きで使っていますが、この情報は多くのユーザーにとって有益だと思います。

以上、Google Pixelの文字起こし機能に関する考察を話してみました。このテーマについては、これで終わります。

#whisper #音声認識 #リアルタイム #文字起こし #windows #Pixel

この記事が気に入ったらサポートをしてみませんか?