見出し画像

特許の鉄人2024 第2試合で出題された問題について #1

1.はじめに

弁理士同志がクレームドラフティングで対戦する、特許の鉄人2024というイベントに僭越ながら審査員として参加してきました。

 日時:8月24日(土曜日)
 場所:大阪工業大学 梅田キャンパスOIT梅田タワーセミナー室204
 主催:株式会社知財塾

第2試合にて出題された問題があまりにも面白かったもので、自分でも内容を分析してみました。

2.第2試合にて出題された問題

 第2試合で出題された問題は、ピクシーダストテクノロジーズ株式会社さまのVUEVO(ビューボ)というサービスです。VUEVOとは、聴覚障害や聞こえにくさがある人と聴者のスムーズなコミュニケーションを支援するサービスです。詳しくは以下の動画をご覧ください。

VUEVOで用いられるワイヤレスマイクは、限られた内部スペースに8つの高性能マイクを内蔵し、360°全方向から音声を集音しながら発話者の方向を特定。精度の高い音声認識で正確なテキスト変換と方向表示を実現します。(VUEVOのサイトより

発明は、以下のハードウェアとソフトウェアで構成されています。

ハードウェア
・独自マイク:集音データと方向データを取得することができる。
・集音データ:音源から発せられた「人の声(音声)」のデータ。
・方向データ:マイクを基準として音源の方向のデータ

ソフトウェア
・他社製の音声文字変換エンジン:集音データの音声を文字に変換する。
・独自ユーザインタフェース:音源の方向毎に、変換後の文字を表示する。
・議事録機能:変換後の文字を議事録として出力する。LLMを使って要約を生成する。

本発明の類似技術(先行技術)は以下です。

マイク
・類似技術の汎用マイクでは、集音データを取得することができるが、方向データは取得できない。これに対して本発明の独自マイクでは、集音データと方向データを取得することができる。

VUEVO 紹介HPより ワイヤレスマイク

ユーザインターフェース(UI)
・汎用UIでは、全ての人の声が1種類のテキストに変換される。これに対して本発明の独自UI(360度ビュー)では、音源の方向毎に、変換後の文字を表示する。会話内容が見やすいタイムライン表示も可能である。

VUEVO 紹介HPより 360度ビュー

3.試作クレーム

 上記問題をもとにクレームを試作してみました。但し、優に1時間以上は掛かっています。実際に試合に参加したならば、当然に第二試合の両選手に負けてしまっていたことでしょう。
 なお、VUEVO の出願を検索するまえに本クレームを試作しましたので、VUEVOの出願とのコンタミネーションはありません。但し、第二試合の選手のクレームを何となく覚えていますので、室伏先生や金子先生のクレームとのコンタミネーションが発生し、両先生のクレームに似てしまっているかもしれません。

【書類名】特許請求の範囲
【請求項1】
 音声を収録すると共に、当該音声の発話者が位置している方向を検出する音声収録部と、
 前記音声から文字情報を認識する音声認識部と、
 前記音声収録部から見た前記発話者の方向ごとに前記文字情報を表示する表示制御部と、
 を有する音声文字変換システム。
【請求項2】
 前記表示制御部は、表示画面上の前記音声収録部のアイコンを基準とした前記発話者の方向に、それぞれ当該発話者が発した音声の文字情報を表示する、
 ことを特徴とする請求項1に記載の音声文字変換システム。
【請求項3】
 前記音声収録部が、新たに所定方向の発話者の音声を収録すると、
 前記表示制御部は、前記所定方向に表示中の文字情報を前記表示画面の外側に向けて移動させると共に、前記発話者が発した新たな音声の文字情報を表示する、
 ことを特徴とする請求項2に記載の音声文字変換システム。
【請求項4】
 前記表示制御部は、前記文字情報をタイムライン形式で、当該文字情報に係る発話者の方向に応じた態様で表示する、
 ことを特徴とする請求項1に記載の音声文字変換システム。
【請求項5】
 コンピュータに、
 音声収録部が収録した音声および当該音声の発話者が位置している方向を取得する手順、
 前記音声から文字情報を認識する手順、
 前記音声収録部から見た前記発話者の方向ごとに前記文字情報を表示する手順、
 を実行させるための音声文字変換プログラム。

 システムクレームとしたのは、本発明はサービスとしての提供であり、システムとして提供していることを出願人が意識しているように読み取ったためです。
 クレーム名称は本サービスを端的に表すよう「音声文字変換システム、および、音声文字変換プログラム」としました。サービスを端的に表す名称により、同業他社は、本特許を検索しやすくなります。これは、同業他社に対する威嚇となることを狙いました。

・請求項1は上位概念で、360度ビューとタイムライン表示の両方を含むように広く記載しました。但し、不明確として拒絶されるかもしれません。
・請求項2は、360度ビューについて記載しました。
・請求項3は、360度ビューで、新たに発話者が会話したときの画面更新動作を記載しました。VUEVOの360度ビューでは、中央から外側に向けてスクロールするという独特の画面更新を行います。ただし、第二試合では、あまり長い間のデモは行われなかったので、第二試合中にこの機能を認識するのは難しかったとおもいます。
・請求項4は、タイムライン表示について記載しました。
・請求項5は、プログラムクレームです。プログラム単体であっても侵害に問えるようにするためです。

4.VUEVOの出願?!

 VUEVOの実際の出願は、おそらく特開2024-027122号、特許第7399413号と思われます。特開2024-027122号の図12や、特許第7399413号の図18に、360度ビューとタイムライン表示の原案が看取できます。但し、360度ビューでは音源のアイコンを表示している点が異なります。

特開2024-027122号 図12 360度ビューとタイムライン表示?
特開2024-027122号 図15 こちらの方が最新の仕様に近いです。

特開2024-027122号の請求の範囲は以下です。発明の名称は、「情報処理装置、情報処理方法、及びプログラム」です。

【請求項1】
少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、
ディスプレイデバイスの表示部に前記マップ画像を表示する手段と
を具備する、情報処理装置。
【請求項2】
前記音源の方向を示す情報に基づいて、前記マルチマイクデバイスの周囲に存在する音源を識別する手段と、
識別された前記音源に関する音源情報をユーザ指示に応じて設定する手段とをさらに具備する、
請求項1に記載の情報処理装置。
【請求項3】
前記設定する手段は、前記識別された音源の名称、当該音源の使用言語、または当該音源から発せられた音声の内容に関するテキストに適用される機械翻訳の目的言語の少なくとも1つを設定する、
請求項2に記載の情報処理装置。
【請求項4】
前記音声の内容に関する情報に基づいて議事録を生成する手段と、
前記議事録を前記マップ画像とともに前記ディスプレイデバイスの表示部に表示する手段とをさらに具備する、
請求項1乃至請求項3のいずれかに記載の情報処理装置。
【請求項5】
前記議事録を生成する手段は、取得された前記音声の内容に関する情報を時系列順に配置することで前記議事録を生成する、
請求項4に記載の情報処理装置。
【請求項6】
前記議事録に配置されたテキストをユーザ指示に応じて編集する手段をさらに具備する、
請求項4または請求項5に記載の情報処理装置。
【請求項7】
チャット参加者によって投稿されたテキストを取得する手段をさらに具備し、
前記議事録を生成する手段は、前記チャット参加者によって投稿されたテキストと前記音声の内容に関する情報とを配置することで前記議事録を生成する、
請求項4乃至請求項6のいずれかに記載の情報処理装置。
【請求項8】
前記マップ画像を生成する手段は、前記マルチマイクデバイスを表すマイクアイコンと、前記音源を表す音源アイコンとを含み、前記音源アイコンが、前記マイクアイコンを中心とする円周上のうち前記マルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるように前記マップ画像を生成する、
請求項1乃至請求項7のいずれかに記載の情報処理装置。
【請求項9】
前記マップ画像を生成する手段は、前記音源が音声を発している間、当該音源を表すアイコンまたは当該音声の内容に関する情報を強調するように前記マップ画像を生成する、
請求項8に記載の情報処理装置。
【請求項10】
チャット参加者によって投稿されたテキストを取得する手段を具備し、
前記マップ画像を生成する手段は、前記チャット参加者を表す投稿者アイコンと、当該チャット参加者によって投稿されたテキストを含むように前記マップ画像を生成する、
請求項8または請求項9に記載の情報処理装置。
【請求項11】
前記マップ画像における前記投稿者アイコンの表示位置をユーザ指示に応じて移動する手段をさらに具備する、
請求項10に記載の情報処理装置。
【請求項12】
前記マップ画像を生成する手段は、前記音源アイコンの1つが前記マップ画像上で所定の方向に位置するように、前記音源アイコンおよび前記音声の内容に関する情報の表示位置を前記マイクアイコンの表示位置を中心に回転する、
請求項8乃至請求項11のいずれかに記載の情報処理装置。
【請求項13】
前記マップ画像を生成する手段は、同一の音源から発せられた音声に関する複数のテキストを、対応する発言日時が古い順に前記マップ画像の座標系の中心から遠ざかるように前記マップ画像上に配置する、
請求項1乃至請求項12のいずれかに記載の情報処理装置。
【請求項14】
前記少なくとも1つのマルチマイクデバイスは、異なる場所に設置された第1マルチマイクデバイスおよび第2マルチマイクデバイスを含み、
前記音源の方向を示す情報を取得する手段は、前記第1マルチマイクデバイスに対する音源の方向を示す情報と前記第2マルチマイクデバイスに対する音源の方向を示す情報とを取得し、
前記音声の内容に関する情報を取得する手段は、前記第1マルチマイクデバイスによって集音された第1音声に関する第1テキストと、前記第2マルチマイクデバイスによって集音された第2音声に関する第2テキストとを取得し、
前記マップ画像を生成する手段は、前記第1テキストを、当該第1テキストに対応する第1音声の音源の前記第1マルチマイクデバイスに対する方向に応じた位置に配置した第1マップ画像と、前記第2テキストを、当該第2テキストに対応する第2音声の音源の前記第2マルチマイクデバイスに対する方向に応じた位置に配置した第2マップ画像とを生成し、
前記マップ画像を表示する手段は、前記ディスプレイデバイスの表示部に前記第1マップ画像および前記第2マップ画像を表示する、
請求項1乃至請求項13のいずれかに記載の情報処理装置。
【請求項15】
少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
ディスプレイデバイスの表示部に前記マップ画像を表示するステップと
を具備する、情報処理方法。
【請求項16】
コンピュータに、請求項1~請求項14の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。

特許第7399413号

 360度ビューの仕様が異なりますので、第二試合の出題内容とは異なりますが、大まかな比較はできるかとおもいます。

4.1.請求項1

請求項1を各構成要件に分節して検討します。
請求項1の対応図面は以下の図6と思われます。

図6

少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、

第1構成要件

この構成要件はマルチマイクデバイスの動作に係るものですが、PC側で処理しても技術範囲に含まれるように、主体が明示されていないものと思料します。
 第1構成要件に対応するのは、図6のステップS151の「到来方向の取得」と思われます。

前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、

第2構成要件

この構成要件は音声認識エンジンに係るものです。
第2構成要件に対応するのは、図6のステップS131の「音声認識」と思われます。

前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、

第3構成要件

360度ビューのみを考慮し、タイムライン表示は含めていないようです。音源方向を識別可能に表示するタイムライン表示は、先行技術があったのでしょうか。
第3構成要件に対応するのは、図6のステップS133の「マップ画像生成」と思われます。

ディスプレイデバイスの表示部に前記マップ画像を表示する手段と

第4構成要件

かなり具体的にディスプレイデバイスや、マップ画像などのように記載されています。
第4構成要件に対応するのは、図6のステップS335の「マップ画像生成」と思われます。

4.2.請求項4,5:タイムライン表示?!

この請求項4,5はかなりタイムライン表示っぽいですが、あくまで議事録生成に関するものであります。タイムライン表示単体の請求項はないのかもしれません。

【請求項4】
前記音声の内容に関する情報に基づいて議事録を生成する手段と、
前記議事録を前記マップ画像とともに前記ディスプレイデバイスの表示部に表示する手段とをさらに具備する、
請求項1乃至請求項3のいずれかに記載の情報処理装置。

【請求項5】
前記議事録を生成する手段は、取得された前記音声の内容に関する情報を時系列順に配置することで前記議事録を生成する、
請求項4に記載の情報処理装置。

.図12

本願の図12が、請求項4,5の対応図面と思われます。本願の図12は、右側に議事録MN50が表示され、話者の発言の情報を表示しています。「議事録は、マルチマイクデバイス50の周囲の音源(話者)による発言内容を時系列順に配置した発言履歴に相当する。」とありますので、議事録MN50がタイムライン表示に相当するのだとおもいます。

4.3.請求項8:360度ビュー

現在の仕様とはすこし違いますが、360度ビューに対応する請求項とおもわれます。本願公報では円周上に音源アイコンが表示されていますが、VUEVOの現在の仕様では、扇形状の色付けのみが行われ、扇形状のうえに文字が表示されます。

【請求項8】
前記マップ画像を生成する手段は、前記マルチマイクデバイスを表すマイクアイコンと、前記音源を表す音源アイコンとを含み、
前記音源アイコンが、前記マイクアイコンを中心とする円周上のうち前記マルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるように前記マップ画像を生成する、
請求項1乃至請求項7のいずれかに記載の情報処理装置。

図12

本願の図12が、請求項8の対応図面とおもわれます。図12には、左側にマップ画像MP50が表示されています。中央にマイクアイコンが表示され、音源を表す音源アイコンD,T,H,Yが円周上に配置されています。音源アイコンD,T,H,Yは、音源の方向に応じた位置に配置されています。

4.4.請求項13:360度ビューの文字更新

360度ビューの文字更新方法に対応する請求項とおもわれます。音声認識されたテキストは、マイクのアイコンから遠ざかるように順次移動します。これによって、リアルタイムの動きを示しているのかもしれません。

【請求項13】
前記マップ画像を生成する手段は、同一の音源から発せられた音声に関する複数のテキストを、対応する発言日時が古い順に前記マップ画像の座標系の中心から遠ざかるように前記マップ画像上に配置する、請求項1乃至請求項12のいずれかに記載の情報処理装置。

.図16

本願の図16が、請求項13の対応図面とおもわれます。図16にて第1話者の発言であるテキスト画像T161a、T161b、T161cが、発言日時が古い順です。
 実施形態の段落0127には、「ただし、コントローラ30は、図15に示すマップ画像に比べて、テキスト画像TI61bの表示位置を、マイクアイコンM61の表示位置から遠ざかる方向に移動させる。」と記載されています。これにより、「同一の音源から発せられた音声に関する複数のテキストを、対応する発言日時が古い順に前記マップ画像の座標系の中心から遠ざかるように前記マップ画像上に配置する」の請求項の動作をサポートしているものと思料いたします。

4.5.請求項15と16:方法クレームとプログラムクレーム

請求項15の方法クレームのあとの請求項16に、プログラムクレームを配置しているのが興味深いです。外国出願の際には、プログラムクレームを容認しない国もあります。そのような国への内外出願の際には、プログラムクレームの請求項16を削除するという方針なのかもしれません。

【請求項15】
少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
ディスプレイデバイスの表示部に前記マップ画像を表示するステップとを具備する、
情報処理方法。

【請求項16】
コンピュータに、請求項1~請求項14の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。

5.終わりに

 ここでは特許の鉄人2024にて出題された問題を検討してクレームを試作し、その元となる製品の公報を検索してクレームを検討しました。
 続く・・・かもしれない。

この記事が気に入ったらサポートをしてみませんか?