見出し画像

LLMを使った会話で使える映像システム with アストロデザイン

シャープ株式会社 研究開発本部 山本智幸
アストロデザイン株式会社 遠山健一郎

はじめに

大規模言語モデル(LLM)などの生成AIを利用して会話で色々なものが便利に使える世の中の実現に向けて研究に取り組んでいます。直近ではAppleからApple Intelligenceが発表され、スマホを中心により多くの人が会話で様々なタスクが実現できる将来もかなり近づいてきたかなと感じています。

さて、シャープでは家電を中心にデバイスへの生成AI搭載を検討していますが、他のデバイスも会話で使いたいと思いませんか?

今回の記事ではアストロデザインとシャープが連携して取組んでいる会話で使える映像システムをご紹介します。

会話で使える映像システムって?

こんなイメージです!

生成AI (LLM) による音声システム制御
(※ アストロデザイン プライベートショー パネルより一部抜粋)

右上のCE-LLM (Communication Edge-LLM) はシャープで開発中の生成AIエンジンで、この部分でユーザの指示を解釈して映像システムに対して命令を生成します。命令はアストロデザインで開発中のシステム制御APIを通じて各映像処理機器に送られて入力映像に対話指示に対応する映像処理がリアルタイムで適用されます。

今回試作したシステムでは、映像の領域切り出し、物体検知、スイッチャーなど様々な機器を含んでいます。複雑な連携など、まだまだチャレンジングな部分もありますが、複数の異なる機器が「会話」という共通のインタフェースで操作できることを実際に体験し可能性を感じています。

開発中のものですが、映像処理イメージの写真を紹介します。ちょっと会話で操作していることが伝わらないのが残念ですが、左上の映像入力に対して、「テディベアを切り出して」という風に会話でお願いすると、左下の物体認識を実行し、その結果を利用して右上の映像領域を選択し、右下のような切り出された映像が出力されます。

実際の会話を通じた映像処理の様子

システムのメリット

映像を会話で操作できるようになると、どんなメリットが生まれるでしょうか?

ハンズフリー

映像を確認しながら手を使って色々と作業をしている、そういう場面で会話で映像を操ることができれば便利じゃないですか?身近な例だと料理しながら映像でレシピを見る場合、手をとめて手を洗って操作するのは面倒ですよね。専門的な例だと、遠隔監視映像を見ながらPCで作業する場合にも使えて作業効率改善が期待できそうです。

誰でも使える

映像機器では大量のデータを扱うことになるため、PCなどの一般的なハードウェアやOSではなく、専用のハードウェアや操作系が採用されている場合が多いです。映像機器をよく使用している我々でも、新しい映像機器を使うとなるとマニュアル読まなきゃなど事前の勉強が必要です。会話形式で使えば、「この機能が使えますよ」や「入力信号が届いていませんよ」など、対話を通じて確認もできるので、利用の敷居が下がると期待しています。

より高度に使える

既に映像機器をつかいこなしている皆さんにも恩恵があると考えています。例えば、新たな機能を追加搭載する必要がある場合、これまではボタンも増えるなど、操作が難しくなってしまうことが多くありましたが、今回提案する会話形式のインタフェースが定着すると、容易にその機能を使用できることになり、映像機器もより高度な機能を搭載した製品を提供しやすくなりそうです。

さらなる機能性の向上を目指し、この記事への皆さんの反応や、後述のプライベートショーでの展示での議論もふまえて色々考えていきたいと思います。

試作して得た手応え

実際にシステムを試作したことで多くの手応えを得ることができました。

抽象的な指示でも処理可能

キーワードが含まれていれば、あいまいな表現でも内容の処理を実行してくれる。これが最大のメリットだと思っています。さすがにこの表現だと理解が難しいだろうと思っても意外に問題なく理解できるなど、抽象的な指示でも問題なく処理できる機能が多くありました。

コマンド理解不要

声で制御できるので、中身の具体的な処理やコマンドを理解していなくても操作が可能です。従来は具体的な制御が割り当てられたUIを操作する、もしくはコマンドとそのパラメータを理解してプログラムから制御する、という理解をするというハードルがありましたが、それを意識する必要がなくなり、操作性が格段に上がったという手応えがありました。開発する側にとってもAPIを直感的に、よりシンプルにと思いながら作ることができるので、今後の発展性も見込みやすいのかなと思います。

試行錯誤が容易

従来のシステムでは操作仕様書やAPIの仕様書をきちんと読んで、内容を理解する必要がありましたが、声で制御できるシステムでは、雑な言い方でも試しに伝え、テストすることが容易です。APIを叩く場合は適当に試しながらコマンドを叩くことはできませんが、このシステムならそれが可能なので、プログラマーやプロフェッショナルな人でなくても直感的に操作を試すことができるのは、導入のハードルを下げることに繋がります。

課題と改善点

このシステムには現状以下のようないくつかの課題もあります。

誤認識

音声認識の精度により、意図しない動作が発生することがあります。特に雑音が多い環境や、話し手の発音に癖がある場合には、誤認識率が高まります。対策として、ノイズキャンセリング技術の導入や指向性マイクを採用することで、誤認識率が低下し、ユーザーの意図通りにシステムが動作することで、操作性の向上が可能となります。

解釈のバリエーション

現時点では、システムが解釈できる命令の範囲が限られています。今後は自然言語処理モデルのトレーニングデータを増やし、多様な表現を学習させることで、解釈能力を向上させていく必要があります。その結果、ユーザーからのフィードバックを基にシステムを継続的に改善することで、より多様な指示に対応できるようになり、ユーザーは自由度の高い操作が可能となり、システムの利便性も大幅に向上することが可能になります。

遅延

リアルタイムでの音声処理と映像処理を組み合わせるため、システムに遅延が発生することがあります。そこで、システム全体のパフォーマンスを最適化し、処理速度を向上させるためのハードウェアのアップグレードや、アルゴリズムの効率化を行うことで、遅延が軽減され、リアルタイムでの操作感が向上します。これにより、ユーザーはスムーズにシステムを利用できるようになります。

これらの課題に対して、現在も継続的に改善を進めています。新しいアルゴリズムの導入やハードウェアの最適化を通じて、システムの精度とパフォーマンスを向上させていく予定です。

このように、「会話で使える映像システム」は実際に試すと色々な感想や課題がでてきます。そこで、皆さんからの様々な反応も聞いてみたいと思い、アストロデザインのプライベートショーに展示することとしました。

アストロデザインプライベートショー

概要

アストロデザインは、未成熟かつ技術的難易度の高い市場への事業展開を行っているエレクトロニクスの会社です。 リアルタイム高速デジタル信号処理技術を得意として、8Kをはじめとしたユニークな製品を開発しています。 プライベートショーでは8Kカメラや画像解析AIなど最新の映像技術を活用した様々なソリューションを紹介しています。会場では、実際に開発に携わったエンジニアが説明員を担当します。 ぜひお越しください!

Private Show 2024 | アストロデザイン株式会社 (astrodesign.co.jp)

今回の展示

開発の背景

アストロデザインは、概要にある通り、機能に特化した最先端の製品を開発しています。そのため、操作が複雑であったり、新しい機能であるためUIからの直感的な操作が難しい場合があります。さらに、プロ向けの製品であるがゆえに、玄人が減少している現状では、新人でもすぐに使用できる操作方法が求められています。声で抽象的な指示ができるシステムを開発することで、これらの課題を解決できると考え、このプロジェクトが始まりました。

まとめ

シャープとアストロデザインが共同で取り組んでいる会話で使える映像システムは、プロフェッショナルでなくても操作が可能になる点が最大の特長です。生成AI(LLM)を活用することで、ユーザーの抽象的な指示も解釈できるため、ハンズフリーで誰でも簡単に操作でき、試行錯誤も容易です。

今後は、制御する機材を増やしたり、画像と言語を解釈できる生成AIを使って、よりプロフェッショナルなカメラ操作を実現したいと考えています。さらに、小型化したデバイスで制御を可能にすることで、エッジコンピューティングの利点を最大限に活用し、リアルタイムで高性能な映像処理を提供します。

LLMには大きな可能性が秘められています。制御する機器の範囲を広げたり、複雑な要求にも対応できるようになると、さらに価値が高まります。特に、画像を解釈できるAIとの組み合わせにより、システムの応用範囲は一層広がり、大きな成果が期待されます。現在の開発段階でも多くの利点が確認されており、今後の発展が非常に楽しみです。

今回紹介した会話で使える映像システムは、アストロデザインのプライベートショーで展示します。事前登録によりどなたでも来場可能ですので、お越し頂ける皆様には、実際にシステムを体験いただき、未来の映像システムの可能性を感じていただくとともに、今後の方向性を議論させてもらいたいと考えています。

この記事が気に入ったらサポートをしてみませんか?