見出し画像

スタートアップが考える事業成長につながる研究開発とは?レブコム・リサーチ最新インタビュー

こんにちは。RevComm(レブコム)PRです。

レブコムは、ビジネスにおける会話の可視化とセルフコーチング、生産性向上を実現する音声解析AI電話「MiiTel」、AI搭載オンライン会議解析ツール「MiiTel Meetings」、オフライン(対面)の商談を可視化する「MiiTel RecPod(β版)」を提供している会社です。

レブコムには、音声認識、自然言語処理、マルチモーダルAIを中心とした研究開発を行う専門組織「レブコム・リサーチ」があります。
AI技術が日々進化する中で、新技術をいち早く取り込み、お客様にとってより魅力的なプロダクトとして届けられるよう、研究開発に積極的に取り組んでいます。今回は、リサーチディレクターの橋本に、直近の研究開発の実績や今後の展望についてインタビューしました。

レブコムnoteでの橋本へのインタビューは約1年ぶりとなります。1年前の記事と合わせてお読みいただき、プロダクトの進化を感じていただけたら幸いです。


レブコム・リサーチについて

レブコム・リサーチ(以下、RCR)はAI技術を用いて、コミュニケーションの分析・研究を行う専門組織として2023年1月に設立されました。事業主体のスタートアップで研究開発部門を設け論文発表等を行うのは比較的珍しいと思いますが、機械学習やAI技術の分野ではここ数年、新技術の発表から1年以内にサービス化されるケースが増加しており、スピード感を持ってビジネスを推進するためには、研究開発に積極的に取り組むことが非常に重要だと考えています。

・研究開発領域

レブコム・リサーチの研究開発領域は主に以下の分野です。

・音声信号処理
音声認識、音声合成、音声感情認識など、音声信号にこめられている様々な情報を明らかにし、音声コミュニケーションを発展させる研究。

・自然言語処理
情報抽出や対話要約など、コミュニケーションの内容を理解しやすくする、発話表現からコミュニケーションスキルのレベルを測定するなど、話し言葉や対話に関する研究。

・マルチモーダルAI
音声、言語、動画像を組み合わせた複数の情報をもとに解析するAI技術に関する研究。

・グローバルトップレベルの音声認識技術力

レブコムでは、「MiiTel」や「MiiTel Meetings」の提供を通じ、2億回を超える電話・オンライン会議の音声データを保有して、日々音声認識技術の向上に努めています。レブコムの音声認識モデルでは、話し方解析を正しく評価するためにチューニングされており、
・一言一句を正確に音声認識できる
・フィラー(えー、あー、えっとー)も正しく認識できる
という特徴を持っています。

一方、ディープラーニングベースの音声認識では、
・自信のない結果は出力しないため、一見誤りを見つけづらい
・綺麗な文章を出力しがち
といった特徴が見られます。

2024年1月に音声認識精度の自主調査結果を発表しました。レブコムの音声認識モデルと他社API・モデルの精度を比較することを目的に実施し、その結果、ビジネスにおける電話、オンライン会議において、レブコムの音声認識モデルにおける誤りの割合が他モデルと比較して総体的に低く、音声認識精度が高いことが分かりました。今回の検証から、レブコムが現在ターゲットとしている「ビジネスにおけるコミュニケーション」において、有意義な価値提供を行えているということが分かりました。

・論文の発表

優秀な研究者が集う学術会議・国際会議で研究の成果を発表し、研究者・技術者に向けてレブコムの認知度を高め、人材ネットワークを拡充する取り組みにも力を入れています。この1年では、下記2本の論文が採択されました。

  • 「大規模言語モデルを活用した音声への感情のアノテーション」に関する論文が、音声信号処理の国際会議 「ICASSP2024」に採択

音声感情認識技術の精度を上げるためには、感情情報が付与された学習データを作る必要があります。従来は人手により音声を聞き感情を特定して付与するため、大規模な感情情報付き音声データを作成することは非常に困難でした。本研究では、音声認識による音声の書き起こしや音声的特徴をもとに、大規模言語モデル(Large Language Model, LLM)を活用して感情を自動的に付与する手法を提案しています。本研究の成果により、大規模な音声感情データの作成が容易になり、より高精度な音声感情認識器の開発ができることが期待されます。

  • 「入力音声に適した顔画像を生成するAI技術」に関する論文が、音声処理系トップカンファレンス「INTERSPEECH 2023」に採択

本研究は、画像生成AI技術を音声に応用したものです。音声データを入力すると、その声で喋りそうな顔をAIが生成します。従来よりも高品質な顔画像を生成できる技術を開発しました。本研究の成果は、コールセンターのオペレーターなど、プライバシーを守りながら「顔出し」を実現し、コミュニケーションを円滑にするといった将来的な応用を検討しています。

直近1年間でのプロダクトへの技術の応用

この1年間、RCRでは生成AIをMiiTelの音声データにどのように適用して、ユーザーに気づきを生み出すことができるかといった点にフォーカスし、「議事録の作成」「教育・コーチング」「資料や原稿の作成」「分析・評価」の4点を研究のトピックとして取り組んできました。それぞれの成果や進捗についてご紹介します。

・議事録生成のカスタマイズ機能

昨年5月にオンライン会議解析AI「MiiTel Meetings」に生成AIを活用した議事録生成機能をリリースしました。8月には「MiiTel」でも利用できるようになりました。リリース当初は主に商談を想定した議事録項目のテンプレートを提供して来ましたが、今年2月にあらゆるシーンで適切な議事録を生成することができるように、議事録生成テンプレートのカスタマイズ機能を追加しました。

・AIによる会話コーチング機能

本機能では、前週1週間の活動データをもとに、AIが一人ひとりの強み、弱み、改善ポイント、ネクストアクションを総合的に読み解き、示唆出しを行います。これにより、担当者はマネージャーやSVの指導や指示を受けることなく自ら確認できるようになり、セルフコーチング効果を高めます。
プレスリリースはこちら>

・リアルタイムFAQ機能

ユーザーが自走して応対できるように、リアルタイム文字起こしの中に特定のワードが話されると事前に設定したマニュアルやFAQのURLが自動で表示される「リアルタイムFAQ機能」をリリースしました。この機能により、経験の浅いユーザーも通話中に必要なマニュアル・FAQを即時に参照しながら応対できるようになり、ユーザーの応対スキルの平準化、管理者の教育工数の軽減に繋がります。
プレスリリースはこちら>

・テキストから音声を合成

読み上げたい文章をテキスト入力すると音声が合成され、設定した場面に自動音声が読み上げられる機能です。音の高さ、抑揚の大きさ、話す速さ、句点のスペースの長さなど、MiiTelがお客様の通話を測定する際に指標としている項目等をお客様に合わせて設定することができます。
プレスリリースはこちら>

今後の展望

現在のAIの活用の中心は、入力業務を自動化するといったビジネスシーンにおけるDXとしての活用です。しかし、将来的には人間と同等の活動ができるAIの出現が予想されます。RCRでは、上述した4点の研究トピックをもとに「人を成長させるAI」「人と共同活動できるAI」の研究開発を進めていきたいと考えています。
先月、Open AIの「GPT-4o」が発表され、音声の応答速度が向上し、人間とAIとの自然な会話を行う様子が話題になりました。MiiTelにおいても営業活動や顧客対応のプロセスで自然なビジネス応対ができるAIエージェントの実現、さらには企業経営の意思決定を助ける「経営判断AI」の実現を目指しています。実現に向けて、音声認識や音声合成のスピードの向上、発言を聞き取った上での返事の仕方や気持ちの良い間の取り方といった自然な会話ができるようにするためのチューニング等、1つ1つ課題をクリアにし、事業成長につながる研究開発を行っていきます。


\レブコムでは様々な職種で素敵な仲間を募集中です!/

\カジュアル面談実施中!まずは話を聞いてみたいという方はwantedlyからお気軽にご連絡ください/


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?