キータイピングが早い人ほど、音声入力技術のウォッチをしておきたい

2021年10月24日 20:00

こんにちは、2021年10月28日発売予定の
Pixel 6 Pro 256GB予約争奪戦に連敗中のyukari_erbです。

一回在庫が復活しているのを確認しましたが、カートの購入処理をもたついている間にまた売り切れました。ぴえん。

わたくし、普段はハイエンド端末に興味がありません。
今のメイン端末も型落ちで安く手に入ったPixel3 XLのままです。ちょうど3年前のやつで十分です。

にも関わらず、久々に最新機種のスマホたるPixel 6シリーズに注目しております。
理由は複数あるのですが、その一つは

・Pixel 6はTensorチップのおかげで端末ローカル上での音声認識処理能力が向上したらしい

＝音声入力による日々のアウトプット量が劇的に向上するのでは？

と思っており、この仮説を実際に確認したいからです。

今回は、なぜ私がそこまで音声入力テクノロジーに注目しているのか、その背景のおはなしです。

最近の若い子は・・・音声入力？！

私は音声入力の可能性に注目しだしたのは2017年ごろでした。

とある外資系IT企業に務めるセールスエンジニアの女性とお話ししていたときのこと。

「最近インターンでウチに来てる学生、キーボード入力ができないんですよ」

なるほど。
スマホ世代は逆にパソコンの入力が苦手だと聞いたことがあったので、私の知ってる話とも一致する話題です。

が、私にとって衝撃的だったのは、彼女が続けたひとこと。

「キーボードの代わりに、あの子たち音声入力で普通にレポート書き上げてくるんですよ〜」

・・・なんですと？

劇的に向上していた音声入力テクノロジー

「最近の学生は音声入力でレポートすら書き上げる」との話を聞いて、早速自分のスマホで試してみて驚きました。

私の知っている【昔の音声入力テクノロジー】に比べて、劇的に精度が向上している・・・。

むか〜しむかし、1998年にニンテンドー64で発売された「ピカチュウげんきでちゅう」というゲームがありまして。

同梱のヘッドセットマイクを使ってピカチュウに話しかけながら大自然のなかを気ままに探索し遊ぶ、そんなゲームです。

・・・ぶっちゃけて言えば、このゲームの音声認識精度は当時でもポンコツでした。オモチャレベルでした。

「１０まんボルト」って命令してもなかなか正しく認識してくれません。
１０万ボルトの衝撃で木からリンゴを落とそうとして、どれほど森のなかで右往左往したか。

でもこのゲームで見事なのは、当時の低精度を逆手に取って
「きまぐれなピカチュウはなかなか命令を聞いてくれない」
との設定のもと、ゲームシステムの根幹として成立させた手法です。

当時小学生だった自分は学校から帰るたび、一目散にゲームを起動してピカチュウと共に森へ出掛けたものです。

まぁそんな
「音声認識は、その低精度を逆手にとってゲームシステムをデザインしなければならないほど、使い物にならない」
と認識していた私にとって。

20年近い時を経て、いつの間にか手元のスマホに組み込まれていた音声認識の精度は驚愕のひとことでした。

本質的に「話す」は「タイプする」より早い

このまま音声入力の精度が向上すれば、話した言葉を瞬時にテキスト化できる時代がすぐそこまでやってきている―――

その時代が来たとき、我々はどの手段でテキストコンテンツを作成すべきでしょうか？

改めて考えると、実は本質的に「話す」ことのほうが「タイプする」より早いのです。

企業決算の分析情報noteを週数本アップロードされているシバタさん。
音声入力のおかげで、多忙な中でコンスタントにそれだけの量、アウトプットを続けられているそうです。

そのシバタさんが、音声入力に関するnoteで人間の各能力に対する平均処理速度を分析されていました。

・書く（タイプする）: 70文字/分
・話す・聞く: 300文字/分
・読む: 600文字/分

どれほどタイピングを極めた人間であっても、話すほうが4~5倍も早い。

しかもタイピングが得意といっても、このトップレベルまで達する人は日々パソコンを使ってる人の中でも一部ですから、実質的な差はもっと開くはず。

もちろん全ての局面で音声認識が最速なわけではありません。

例えばnoteを書くといっても、大別して二段階のフェーズがあります。

考えていることをテキストとして書き出す
書き出した内容を整理して清書する

2の段階では、

誤字脱字を修正
文章の構成を切って貼り付け
細かい文言を修正

等の作業が必要です

このような細かい校正作業に対しては、誤変換の可能性が高い音声認識よりキーボードのほうが圧倒的に早いでしょう。

でも「1. 考えていることをテキストとして書き出す」は、今後
音声認識の精度が上がり次第、話す＝音声入力に軍配が上がる可能性が高いのです。

私が【まだ】音声認識を使わない理由：速度

もう既に私は、音声認識で下書きや思考メモをしょっちゅう書きまとめることをやっています。

ただし、いまのところ音声によるテキスト入力はあくまでサブです。

主に、キー入力の使いすぎによる腱鞘炎などを防止するため、「手がつかれたな〜」と感じたときに音声入力を使います。
サーバーに対する負荷分散ならぬ、手に対する負荷分散。

その理由は【精度】ではなく・・・【速度】。
むしろ精度については、よほど音声認識が不得手な語彙が多い専門分野でもない限り十分だと思っています。

でも、速度だけは流石に遅いと言わざるを得ません。

私が多用しているのはGoogleドキュメントの音声認識なんですが。
文字変換はクラウドのAIで処理してるので、精度は良いのですが一文一文の変換に数秒かかります。

なまじ自分のタイピング速度がそこそこあるので、「音声入力よりキーボードのほうが早いや」って場面のほうが多いです。

まだ、ね。

音声入力が人々のメイン入力手段になる日

GoogleがPixel 6に搭載したTensorチップでは、端末上で音声認識モデルを効率的に処理できるとのこと。

紹介ビデオでは、英語による高速な音声入力が確認できます。

日本語だと変換処理が入る分、現時点で英語と同等の速度が出るかは不明ですが。
でもこれまでの音声認識分野の発展では、英語で実現されたことはせいぜい数年遅れで日本語でも実現されています。

テキストの音声入力を適切に活用できるかどうか。
それは現在のオフィスワーカーに対する
「キーボードのタイピングが一定以上の速度でできるかどうか」
と同じくらい、今後各人の生産性を左右する予感がしてなりません。

そうなったとき、いつまでも音声認識に対して食わず嫌いを続けていたら？

さながら、現在で言う所の
「キーボード入力が遅くてアウトプットの遅い人」に対するのと同じような冷めた見方が
「音声認識が使いこなせなくてアウトプットの遅い人」にも向けられる可能性が、十分考えられます。

なので、いち早く最新鋭の音声認識テクノロジーを確認すべく、Pixel 6シリーズを手に入れようと四苦八苦していたのでした。

最後に、先に紹介したシバタ氏が、音声入力に関するネット記事のインタビューで回答されたコメントを紹介したいと思います。

｢キーボードは、化石みたいなデバイスだと思います。
5年もすれば、キーボードはないかもしれませんね｣

最後まで読んで頂きありがとうございます！いただいたサポートは記事を書く際の資料となる書籍や、現地調査に使うお金に使わせて頂きますm(_ _)m