見出し画像

特許の鉄人2024 第2試合で出題された問題について #2

1.はじめに

 特許の鉄人2024とは弁理士同志がクレームドラフティングで対戦するイベントです。アイキャッチ画像は、ChatGPT (DallE3)で生成した特許の鉄人のイメージイラストです。

 日時:8月24日(土曜日)
 場所:大阪工業大学 梅田キャンパスOIT梅田タワーセミナー室204
 主催:株式会社知財塾

第2試合で出題された問題であるVUEVO(ビューボ)について、前回の記事に引き続いて検討してみました。

2.第2試合で出題されたVUEVOについて

VUEVOとは、聴覚障害や聞こえにくさがある人と聴者のスムーズなコミュニケーションを支援するサービスです。詳しくは以下の動画をご覧ください。

VUEVOで使われるマイクは、集音データと方向データを取得する機能を有しています。

VUEVO 紹介HPより ワイヤレスマイク

このマイクは、VUEVOのサイトに簡単な動作について記載されています。

また、VUEVOは、おそらく特開2024-027122号に記載されているマイクとおもいます。このマイクの動作について調査してみました。

3.VUEVOのサイトに記載の動作や仕様について

マイクが使用するワイヤレス通信路

VUEVOのサイトには以下のように記載されています。

ピクシーダストテクノロジーズの独自技術で、設計・開発したワイヤレスマイクです。限られた内部スペースに8つの高性能マイクを内蔵し、360°全方向から音声を集音しながら発話者の方向を特定。精度の高い音声認識で正確なテキスト変換と方向表示を実現します。

マイクは軽量・コンパクトで携帯しやすく、ワイヤレスで使えます。

・マイクが使用するワイヤレス通信路は、このFAQを見るとWifi回線のようです。FAQには「ご利用にあたっては、安定した2.4GHz帯を使用したWi-Fi回線が必要です。」と記載されていることから推定しました。

・「音声テキスト変換は、セキュアなクラウド上のサーバで処理されています。」と記載されています。ここから、マイクが検知した音声データはサーバに送られてテキストに変換されていると推測しました。当初、音声テキスト変換は、ローカルのPC上で行っているものと思い込んでいたので、これは当職の仕様把握ミスでした。

・そして、マイク仕様については以下の記載が見つけました。

https://vuevo.net/service/#technology  より引用
https://vuevo.net/service/  より

これらの動作説明から、マイクが出力している音声ストリームは3本であると推定できます。重い処理である音声テキスト変換をサーバに担当させ、ユーザ端末(PCやスマホ)は、マップ画像の表示のみとする巧みな設計です。これにより、ユーザ端末の性能によらず、VUEVO のサービスを提供可能です。

つまり、当職が、マイクが出力している音声ストリームが1本であると断定してしまったのは誤りです。金子愛子先生のクレームの方が、仕様に沿った正確なものでした。すみませんでした>金子先生

VUEVOの推奨・必要環境

アプリ/ブラウザ推奨環境は以下です。

VUEVOの推奨・必要環境 より

マイク接続の必要環境は以下です。

VUEVOの推奨・必要環境 より

これらの仕様から推定したシステム動作は以下です。

1.マイクが複数の音源から信号分離した各音源の音声データと方向データの組合せをサーバ(cable.app.vuevo.net)に送信する。
2.サーバ(cable.app.vuevo.net)は、各音声データをテキストデータに変換する。そして、マップ画像における各音源の方向データに応じた方向に、それぞれテキストデータを描画する。
3.ユーザ端末(パソコンやスマートフォン、タブレット)は、サーバからマップ画像を取得して表示する。

4.特開2024-027122号のマルチマイクデバイスについて

 特開2024-027122号の公開公報はこちらです。以下、この公開公報に基づいてマイク仕様等について検討いたします。

ビームフォーミング処理について

図3

【0026】
 マルチマイクデバイス50は、複数のマイクロホンを備える。以下の説明では、マルチマイクデバイス50は、5つのマイクロホン51-1,・・・,51-5(以下、特に区別しない場合は単にマイクロホン51と表記する)を備えることとする。マルチマイクデバイス50は、マイクロホン51-1,・・・、51-5を用いて、音源から発せられた音を受信(集音)することで音声信号を生成する。また、マルチマイクデバイス50は、マイク座標系における音の到来方向(つまり、音源の方向)を推定する。また、マルチマイクデバイス50は、後述するビームフォーミング処理を行う。

特開2024-027122号

・段落0026の記載より、特開2024-027122号のマルチマイクデバイスは、ビームフォーミング処理を行っていることが判ります。

【0061】
・・・中略・・・
マルチマイクデバイス50が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
【0062】
マルチマイクデバイス50は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。

特開2024-027122号

・段落0061,0062には、マルチマイクデバイスのビームフォーミング処理の詳細が記載されています。

電波のビームフォーミングとは、多数の小型のアンテナに給電する高周波の位相を制御することにより、指向性を変える技術のことをいいます。

音声でも同様に、ビームフォーミングによってアレイマイクロホンの信号を処理することで指向性を変えることができます。例えば以下には、アレイマイクロホンの選択的な極性応答について図示されています。


特開2022-545113号 図11

音声のビームフォーミングについては、以下の記事がありました。

「マイクに関していう時のビームフォーミングとは、設置した複数のマイクで発声者や周囲の雑音がどの方向から届いているかを判定し、特定の音を増幅/減衰させる技術を指します。
ビームフォーミングでは、マイクそのものは無指向性であっても、複数設置したマイクに届く音量の差・到達した時間の差をもとに計算して音源の方向を推定します。方向がわかれば、人間の声など対象にする音を強調することが可能になります。」(【連載】ガジェットTIPSより)

本願の図8の説明箇所に、マルチマイクデバイスの動作説明がありました。以下に引用します。図8は、3つの音源から音声データを同時に取得することが図示されています。

特開2024-027122号 図8

【0063】
図8に示される例では、マルチマイクデバイス50は、計算された角度A1をビームフォーミングモデルに入力し、x軸から右方向に角度A1ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A2をビームフォーミングモデルに入力し、x軸から左方向に角度A2ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A3をビームフォーミングモデルに入力し、x軸から左方向に角度A3ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
【0064】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A1に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0065】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A2に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0066】
マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A3に対応する方向の音源から到来した発話音についての音声信号を抽出する。
【0067】
マルチマイクデバイス50は、抽出した音声信号を、ステップS151において推定した当該音声信号に対応する音源の方向を示す情報(つまり、マルチマイクデバイス50に対する音源の方向の推定結果)とともに、コントローラ30へ送信する。

特開2024-027122号

上記段落0063から0067には、角度A1,A2,A3の方向の3つの音源から飛来した発話音についての音声信号を並行して処理することが記載されているものと判断します。

音声認識処理について

音声認識処理については段落0070に記載されています。

【0070】
ステップS130の後、コントローラ30は、音声認識処理(S131)を実行する。
記憶装置31には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置31の代わりに、コントローラ30がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。

特開2024-027122号

この段落0070には、音声認識モデルがクラウドサーバに保存されていてもよいことが明記されています。

変形例について

【0137】
・・・中略・・・。しかしながら、ディスプレイデバイス10およびコントローラ30は一体化されてもよい。例えば、ディスプレイデバイス10およびコントローラ30が1台のタブレット端末またはパーソナルコンピュータとして実装可能である。また、マルチマイクデバイス50とディスプレイデバイス10またはコントローラ30とが一体化されてもよい。また例えば、コントローラ30がクラウドサーバ内に存在してもよい。

特開2024-027122号

特開2024-027122号には、変形例として以下が記載されています。請求項を記載する際には、これら全ての変形例を包含することが必要とおもいます。

(1)ディスプレイデバイス10およびコントローラ30が一体化。
(2)マルチマイクデバイス50とディスプレイデバイス10またはコントローラ30とが一体化。
(3)コントローラ30がクラウドサーバ内に存在。

ここでコントローラは音声認識とマップ画像の作成を行います。ディスプレイデバイスは、作成されたマップ画像を表示します。
現状のVUEVOの仕様で、コントローラ30はクラウドサーバに相当し、ディスプレイデバイス10はPCやスマホに相当します。

この公開公報には更に、段落0138から0149に、さまざまな変形例が細かく記載されており、大変に参考になります。

《ディスプレイデバイスの変形例》
ディスプレイデバイスの変形例として、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよいことが記載されています。ディスプレイデバイスは、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよいことが記載されています。

《ディスプレイの変形例》
ディスプレイの変形例として、以下が列挙されています。
・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
・液晶ディスプレイ
・網膜投影ディスプレイ
・LED(Light Emitting Diode)ディスプレイ
・有機EL(Electro Luminescence)ディスプレイ
・レーザディスプレイ
・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ

《音声抽出処理の変形例》
ビームフォーミング処理に限定されず、Frostビームフォーマ、適応フィルタビームフォーミングが列挙されています。更にビームフォーミング以外の音声抽出方法一例として、周波数フィルタ、又は機械学習であってもよいことが記載されています。

5.終わりに

ここでは特許の鉄人2024の第2試合にて出題された問題の技術内容について検討しました。ここで出題されたVUEVOが極めて興味深かったためです。VUEVOは、サービスの殆どをクラウド化することで端末での処理を表示制御処理に限定し、よってWindows, MacOS, iOS, Android などに対応しやすくするものであると推定いたしました。果たしてこの推定は当たっているでしょうか。
 このような構成の場合、どのようなクレームが最も適切かもいろいろと考える必要があるとおもいました。

この記事が気に入ったらサポートをしてみませんか?