第19回Language&Robotics研究会聴講(2023年11月20日)

YANO Tomoaki@

2023年11月21日 17:00

はじめに

今回は
東京工業大学大学の篠崎隆宏先生による、音声言語獲得の現状のお話

本noteは矢野の個人的な備忘録で、
事務局の公式議事録とかではありません

AIのラボからロボティクスへ東大松尾研究室における基盤モデルを活用した汎化性・適応可能性の高いロボットシステム開発

概要（HPより）

講演者：篠崎隆宏先生（東京工業大学）
発表タイトル：内発的動機付けを備えた自律エージェントによる音声言語獲得
概要：音声言語や文字言語の使用は、人間の知性の重要な要素である。連続信号を扱う必要がある分、機械学習の観点からは音声言語の方が文字言語のモデル化よりも複雑である。しかし人間にとってはむしろ音声言語の方が基本的であり、乳幼児は特別な教育を受けなくても周囲との関りの中で自然に音声言語を獲得する能力を備えている。具体的なメカニズムは未解明であるが、音声言語の獲得には感覚のシンボル化を含め人間の知性の根幹にも関わる様々な学習・認識能力が用いられていると考えられる。本研究では、音声対話という人間社会において観察される複雑な現象の根本原理を内部状態と内発的動機付けを備えた自律エージェントによる行動最適化プロセスとして定式化する。そしてこの定式化に基づき、特定の言語知識を全く持たない状態からラベル付きデータを用いずに音声言語を獲得できるエージェントを提案する。また、学習を効率化する目的で工夫したエージェントの内部構成と脳構造との対応や、内発的動機付けと自由意志の関係について考察する。

以下のHP参照

http://www.ts.ip.titech.ac.jp/member_j.html

12:20 - 12:25オープニング

品川先生からLangage&Robotics研究会のいつもの説明があった。
本講演の動画はYOUTUBEにアップする予定

言語処理学会第30回年次大会(NLP2024)のWS4およびTS4の紹介があった

次回（第20回L&G研究会）は、12月15日（金）12:20-13:30
阪大の堀井隆斗先生に講演していただきます

12:25 - 13:23講演（58分）

講演の初めにZOOMのチャット欄でスライドを共有していただきました
いずれ、Youtubeおよびcompassで動画とスライドは公開される予定です

1．究極の目標

音声言語処理における教師あり学習の限界
・テキストと異なり、声の強さや発声時の表情によりニュアンスが異なる。これらニュアンスの違いまでラベリングするのは困難
人の音声言語獲得はどのようになされるのか
・個体レベルではニュアンスを含む意味接地がなされる。この能力は思考能力とリンクしている
・社会レベルでは、言語の自己進化が起こる

研究のモチベーション

・人の音声言語学習を知りたい
・人と同様の言語獲得能力を備えたエージェントを作りたい

2．言語獲得研究の歴史

・B.F.Skinner
ねずみのオペラント（条件反射で音声学習ができた）
・N.Chomskyの反論
親がオペラントのようなことをしていない
データだけで文法を獲得できるとは思えない
（篠崎先生；最近のChatGPTなどを見ると、データだけでも文法を獲得できているように見えるので、可能だと考えている）

音声単語学習の機能要素

①　繰り返しパターンを見つける
②　パターンを接地する（対象物と結びつける）
③　Action Learning（パターン行動のモデル化）
④　発声器官を使って発話してみる

A.Gorin+ DTW based vocabulary learning
電話のコールデータから未知語を検出し、コールの仕分けを利用して強化学習を行った
①○　②×　③△　④×

J.Williams+ s POMDP based Dialogue System
2005年当時の計算機では状態は数個しか用意できなかった
①×　②×　③△　④×

A.Taniguch + 　T. Taniguchi+, 　階層ベイズモデルを用いた研究
①△　②○　③△　④×
谷口忠大先生より、詳しい説明があった。
④を含んでいるかどうかは解釈によるとのお話

言語獲得研究に携わる研究者は少ないが、裾野は広い

スライドの右上の写真には一匹の犬がいて、1000個のぬいぐるみの名前を覚えている。なので言語獲得できるのは人間だけではない。
ただし、言語による意思疎通で社会を形成しているのは人間のみ
（感想：クジラは会話をしているとか、オウムは音声を模倣しているだけではなく意味も理解しているとか、動物行動学の進展は著しく、果たして言語による意思疎通で社会を形成しているのは人間だけなのだろうか？）

既存研究の限界

強化学習系の研究：特定のシナリオの下にユーザーからの報酬を最大化するというのは、言語獲得の観点からは一般性に欠ける
共起関係（同時確率）のモデル化に基づいた研究：試行錯誤に基づいた
自発的な発話を行う能力を欠いている

もっと根本的なところから言語獲得を考えたい

3．自律エージェントによる言語獲得

認知発達ロボティクスの概念を言語学習に応用する
（内部状態を持つエージェントの、内部状態の充足が行動原理）

人間社会と同様に、さまざまな環境に自動適応し、エージェント間で独自言語が発声・発達することが可能

問題点

・行動空間が発話長に対して指数関数的に増加する
・ランダムな発話が有効な発話となる可能性が極めて低い

発話生成エントロピーを下げる工夫
1．教師なし単語辞書方式
・観察学習と対話学習
上記手法による実験で、エージェントが台車に上下左右の移動を発話で指示し、ゴール到達に成功
・上下左右だけだから成功したが、語彙の辞書サイズが大きくなると成功体験率が低下して学習が困難になる
2．視覚に基づく注意機構
音声と学習の共起関係を学習して利用する
学習効率改善を確認
3．言語モデルを用いる
教師なし言語モデルを低次元に圧縮し、場面情報を利用して発話を再構築する
（感想：自分の置かれた環境や刺激に応じて適切な単語が頭に浮かぶのは、まさにこのことかな）

提案したエージェントの全体図を、人間の脳活動と対照させてみた
・提案したモデルはすべて教師なし学習ができ、意地悪く質問を否定文にしてみたが、エージェントは的確な受け答えをすることができた

現在の興味

・提案した構造は脳構造を模倣しているのか
・人の脳は「内部状態と内部欲求を持つエージェント」のモデルに完全に治まっているのだろうか？
・提案したエージェントは「意識を持っている」と言えるのだろうか
・日本人が波形が全く異なる「L」と「R」を同じとクラスタリングしているのは、「意識」と深い関わりがあるのではないだろうか？
（感想：個々人が全く異なるワールドを脳内に構築しているが、それらはすべて実世界とは全く別物だ。例えば光は一次元の「波長」があるだけで、「色」は存在しない。「ベルの不等式の破れ」は、「（私が）見えていない（認識していない）ものは実世界に存在していない」ことを示した。あらゆる事物が、私が認識して初めて（私にとって）意味のある存在として立ち現れる。「意識」は、「自己の存在認識」である。エージェントは自分の存在を認識することにより意識が芽生えうると考えているが、実証実験は不可能だろう。なぜならあなたが「意識」を持っていることさえ実証する術がないのだから）

・自律エージェント心理学の研究分野が考えられる

13:23 - 13:31　Q&A（8分）

質問はSlidoで受付.
途中、ディスカッショが挟まったので時間超過。
さらに個々のQ&Aで盛り上がったため、3問のみ

Q1：先生の学習方法の、先行研究との違いについて教えてください
A1：エージェントの話す語彙が与えられていません
Q2：本日の講演を聞いていて、言語獲得の研究に関して、音声言語処理の観点からの研究者が少ないように感じたのですが、実際どうなんでしょうか？
A2：非常に少ないです。音声の研究者自体が少ないです。
Q3：分野外なので素朴な質問なのですが、音声系列の学習でいえば鳥のさえずりにあるような模倣学習も重要ではないかと連想したのですが、この発声する強化学習と模倣という観点では先生はどのようにお考えでしょうか？
A3：模倣学習は大事だと認識していますが、オウム返しは（内部状態が異なっていると）意味がない。しかし学習効率を高める上で重要だと認識しています

13:31　クロージング

時間になったので、匿名ではないメンバーの質問に対する回答は後日公開することでクロージングとなった。

おわりに

谷口忠大先生の著作「記号創発ロボティクス　知能のメカニズム入門」を読了していたので音声認識に関する今回の話題をある程度理解することができました。
二重文節処理が音声だけでなく人間行動のあらゆる分野に応用可能だという下りは非常に印象に残っています

本講演は、言語獲得の現状と将来の方向が示されていて、たいへん勉強になりました。

本noteは私の備忘録ですが、自由に読んでくださいサポートは、興味を持ったnote投稿の購読に使用させていただきます