第21回Language&Robotics研究会聴講(2024年5月24日)

YANO Tomoaki@

2024年5月24日 16:41

はじめに

今回は
東京理科大学の岡留有哉先生による、ロボットとの自然な対話に向けてのお話

本noteは矢野の個人的な備忘録で、
事務局の公式議事録とかではありません

2者間対話に注目をした振る舞いの分析とモデリング

概要（HPより）

講演者：岡留有哉先生（東京理科大学）
発表タイトル：2者間対話に注目をした振る舞いの分析とモデリング
概要：人と円滑にコミュニケーション可能なロボットを設計するためには, 対話における言語的な自然さだけでなく, 振る舞い的な自然さもまた重要となる. 例えば, 興味のあるテーマについて話している際に, 「いいですね」などの肯定的な返答をしているにも関わらずうつむいている場合, 話者は対話相手がこの話題には興味ないと感じられる. 対話における振る舞いについては, 発話内容に合わせたハンドジェスチャ, 例えば大きいや小さいを表すジェスチャ, のように言語と共起する振る舞いだけでなく, 視線移動や（ほぼ）無意識での頷き, 声のピッチなど言語と紐づけることが容易でない振る舞いも表出される. 本発表では, 特に言語との紐づけが容易でない振る舞いであるバックチャネル動作のモデリングについて, これまでの取り組みを紹介する.

以下のHP参照

12:20 - 12:23　オープニング

小林先生からLangage&Robotics研究会のいつもの説明があった。

谷口忠大先生が京都大学に移られて、助教の先生を募集しているとのアナウンスがあった

【助教人事公募】情報学研究科知能情報学コース助教｜募集中の教職員公募一覧ページ | 京都大学 https://t.co/8xhGMrtdc5

新しく助教を谷口研（京大）で募集することになりました。興味ある人は #jsai2024 ででもお声がけください。
— Tanichu/たにちゅー (Tadahiro Taniguchi, 谷口忠大） (@tanichu) May 23, 2024

小林先生からの注意事項確認のあと、講演が始まった

12:23 - 13:18講演（55分）

1．自己紹介

大阪大学　石黒浩先生の元で学位取得
日立→理化学研究所→理科大
「留」が付く名字は九州に多い

石黒研（～2016年）では空圧上肢ロボットの動作生成を行っていた。
上肢のモーションキャプチャデータを学習し、最適に近い動作を生成する

日立（～2021年）ではロジスティクス企業のDX化のお手伝いをしていた
倉庫の搬出を予測して搬入と配置を最適化する
多数のクライアント共有の倉庫で運用効率化と需要予測を行う
packing transfer centerの効率的な運用システムの構築

理研（～2022年）では人の振る舞いのモデリングと表現予測の研究に携わり

東京理科大（2023年～）では傾聴対話システム、人の対話データを使用したロボット対話システム、冗長な発話テキストの情報量を維持して圧縮するシステムの開発などを行ってきています

研究の目標

目標としているのは、ことばに表れにくい事象のモデリング、振る舞いと言語のグラウンディング、同調現象の抽出などを通して、ロボットと人間が自然なコミュニケーションをとれる社会を構築することです

ロボットと人とのコミュニケーション

ロボットが相手に合わせて発話し、相手の発話に合わせて動作を表出する（バックチャネル動作という）のはタイミングが非常に重要で、これらを自然に行うのは結構たいへんなのです

2．二人のやりとりの情報を同時に扱うモデルの構築

二人のやりとりの情報を同時に扱うモデルを構築するには、
まず、二人の人間の雑談データを、身振りや顔の表情を含めて集めなければなりません

データは、「自然な対話」「全身の振る舞い」「顔の特徴量」に分類できます。画像は、十分な解像度が必要になります

人間同士の対話では、「同調現象」が起きることが知られています。
対話がスムースに行われているときは顔などの筋電位が同調します
（感想：ミラーニューロンが重要なのだな）

3．データセットの構築

以下が、有名なデータセットです
・Human3.6M　俳優11人の360万ポーズ
・TV　Human Interaction Dataset　テレビの300本のビデオ
・Casual Conversation Dataset　MetaのDeepFake評価用対話データ
　3000人の45,000ビデオ

岡留研究室でもデータセットを収集した
顔見知り（同じサークルだがそれほど親しくない男性10人女性2人の6ペアによる10分間の雑談データ）
人がデータにラベル付け（talk,move,excited,nod）

人の性格を評価する指標としてBigFiveパーソナリティを用いた
・外向性
・協調性
・勤勉性
・情緒安定性
・開放性

ハンドジェスチャーとBigFiveの相関をCGエージェントの動きで確認

同調現象と個性

笑顔に対して500ms以内に笑顔が追随したとき同調性があると評価してBigFiveの個性指標との相関を調べた。
笑顔はFacial Action Unitで判定
「開放性」と強い相関があった（世界初。研究の成果）

ジェスチャ生成に向けて

二人の動作（全二重）をモデリング
映像と音声（時刻インデックスを繊細に合わせることが重要）

目的は学習によりロボットが自然なふるまいをする未来情報生成であるが、
データのどの部分が欠損しても学習により修復が可能

データのさまざまな部分を欠損させ、復元を学習する
IDM（Interaction Diffusion Model）とDenoising手法を用いた
30msecで5秒分の未来データ（２人分）を復元した

学習に用いたデータは30fpsの動画を5fpsに圧縮
身体11点と音声データ

・予測　未来データが2人分欠損
・補完　予測にゴールデータを追加
・反応　一人分の未来データが欠損

補完と反応が、再現性が高かったが、予測と比較して平凡になった

4．コミュニケーションの定量評価

・同調度スコアを定義する
・一人の時間をシフトし、不自然な会話のデータセットを構築する（±1秒、±0.5秒）
・同調度スコアを評価する
5つの領域にきれいに射影されたものは同調度が高いと評価

同調度が高い場合はアイコンタクトが取れている。低いものは顔の向きが相手を向いていない

5．今後目指していくこと

・ロボットへの適用
・人同士の会話の評価
・事前学習モデルの構築

長期的目標

・ロボットと人のギャップを埋める→安心感
・TPOに応じてロボット側から話しかける
・言語に紐付いたジェスチャーを取り入れる
・データ収集と出力傾向の分析と更新

13:18 - 13:30　Q&A（12分）

質問はSlidoで受付.

Q1：最近はGPT-4Vが出て画像入力できるようになり，GPT-4oやGroqは応答のリアルタイム性が優れていると聞きます．単純に思ったのが，ジェスチャーの様子を表した画像を入力して，次に行うジェスチャーを予測したりできるのでは？と思うのですが，どうお考えでしょうか？
A1：オンラインは危険を伴うので人とインタラクションするロボットの動作などに使用するのは難しい。ロボットの心象表現ならいいかもしれない
Q2：BigFiveの値に似ている人たちはどの程度ジェスチャ（笑顔以外にも）似ていると考えてよいでしょうか？
A2：実は「外交性」でもいろいろな個性があります。しかし概ね声のピッチが高い、動きが大きい、動作頻度が高いなどの共通の特徴を持っているようです。他の項目はまだ知見が得られていませんが、「外向性」と「開放性」は、相関性を発見し、大きな成果が上がりました
Q3：対話とジェスチャのデータセットは、何かアノテーション情報は基本的にあるのでしょうか？（勉強不足かつ身内からの質問ですみません）
A3：Human3.6Mはラベリングされています。紹介しませんでしたが「はずみ」データセットもラベリングされています
Q4：全体として、時系列情報が非常に大事だと思いますが、サンプリングレートはどのくらい気にされているのでしょうか？予測する未来が何s後にするかどうかに依存する？
A4：ノイズ除去のためフレームレートを落としています。いっぽう、瞬きやうなずきのデータは一瞬なので消えるときがあります
未来予測は5秒先まで必要なく、1秒程度でいいのではないかと考えています
Q5：研究によると思いますが，今後どういったロボットやエージェントを使用する予定なのでしょうか？顔の表情を変化させる場合は，アンドロイドやディスプレイ上に表示されるキャラクターなどを用いるのでしょうか？
A5：リアルワールドのロボットは不自然さが前面に出てしまうので、全身の動きを行えるUnity上の人型アバターを想定しています

13:35　クロージング

時間になったので、クロージングとなった。

おわりに

前回から半年近くたった開催となったが、非常にためになった。
私の所属していた中澤研究室でも対人対話エージェントの研究を進めているのだが
ChatGPT-oの登場によりすることがなくなったのではないかと感じていた

本日の講演を聴講して
まだまだ研究要素が残されていることがわかりました

人間のコミュ力すごい！

本noteは私の備忘録ですが、自由に読んでくださいサポートは、興味を持ったnote投稿の購読に使用させていただきます