音声入力に思うこと(2024年春版)

つらつらと雑談です。
タイトルに時期を入れたのは、半年、1年くらいで大きく状況が変わるだろうと考えるからです。

懐かしのドラゴンスピーチ11

最近はやりのオンラインAI利用ではなく、スタンドアロンタイプの音声認識ソフトです。
Windows8、8.1の頃に使っていました。

話者の音声プロファイルが必要というのが今の音声認識との最大の違いで、使い込むほどに変換精度が上がっていく仕様でした。

当時のPCにはそこそこ負荷がかかりましたが、非常に優秀でした。句読点は自動入力も音声入力も可能、改行も音声で入れます。

実は当時、まだ音声起こしを始めたばかりの頃で、うまく使いこなせなかったんですよね。
何も進化していなくて構わないから、今、使いたいと切実に思います。

Google音声認識エンジン

最近、自動音声認識アプリだったりサービスだったりを紹介する記事を見かけることが多くて、たどっていくとほぼ”Google音声認識エンジンを使用している”という記述にぶつかります。

オンラインの利点といえば、日々の進化がすぐに反映されることでしょう。

Googleドキュメントへの音声入力も、プロファイルが不要なことを考えればそこそこの精度はあります。
ですが、プロファイルを使用した入力の足元にも及びません。

自動音声認識、起こしの記事は、ほぼnottaの紹介に帰着しているような印象を受けて、なんだかなと思うこともあり…。

Wordでの音声認識

Microsoft365のWordを使用しても、オンラインで音声からの文字起こしが可能です。

Google音声認識エンジンを使ったものと精度は五分五分か、若干こちらが優位かなという印象です。

内容にもよるかもしれません。

音源をアップロードすれば数分で1~2時間分の文字起こしは可能です。
音声を流してディクテーション形式でマイクで拾うこともできます。

こちらサブスクリプション版で、Googleドキュメントとは違ってお金を払っているわけですから優位で当たり前と言えばそれまでですが。

サブスク利用しているかつ概要がつかめればいい、修正の手間は厭わないという方は試してみる価値はあるんじゃないでしょうか。

一太郎の音声入力

この機能はWindows11のみ対応ということで、導入を先送りしています。なにしろメインPCがまだWindows10なもので。

現在主流のGoogle音声認識エンジンではなく、Windows11の音声認識をつかっているというので、もしかしたらネット接続なくてもいける?と軽く期待しましたが、”別途マイクとインターネット接続環境が必要です。”という注意書きを確認、残念です。

音声コマンドがドラゴンスピーチと似てることもあって、見た目がGoogleより好みなんです。

と思ったら、ドラゴンスピーチを開発販売していたニュアンスはマイクロソフトに吸収されていました。
「ドラゴンスピーチを今、使いたい」の願望は、Windows11+一太郎現バージョンの導入で可能なようです。


なぜかWindows11へのアップデートから外されている第7世代ノートですが、一太郎2024の音声入力が導入出来ない以外に大きな不満はないので、このままサポート終了まで使いたいなと。
私の快適な音声入力は、まだ少し先になりそうです。


この記事が気に入ったらサポートをしてみませんか?