第12回Language&Robotics研究会聴講(2023年2月4日)通常版

YANO Tomoaki@

2023年2月11日 12:07

はじめに

今回は
AIと人類が文化・文明を共創で発展させていく道筋を示すという壮大な話。

動画が公開されました

記号創発システムの構成論：言語を生み出す集合的予測符号化

概要（HPより）

今回のLangRobo研究会では、立命館大学の谷口忠大先生から最近のご研究についてご紹介いただきます。特に、複数エージェントによる表現学習と記号の創発に関する研究について、お話いただきます。

講演者：谷口忠大先生 (立命館大学)
発表タイトル：記号創発システムの構成論：言語を生み出す集合的予測符号化
概要：人間の知能はマルチモーダルな知覚系を介した様々な観測、身体に基づく環境との身体的相互作用、他者との記号的相互作用を通して構成されていく存在である。その上で私たちは言語を社会の中で構成し、コミュニケーションを可能にしていく。講演者は記号接地問題（シンボルグラウンディング問題）自体の問題を指摘し、記号創発システムという概念を提案してきた。またその構成論的アプローチとして記号創発ロボティクスの研究を推進してきた。本講演では複数のエージェントが観測を得ながら言語ゲームを行うことを通して記号システム（言語）を組織化していく記号創発システムの構成論に関して概説する。特に確率的生成モデルに基づき、社会的な表現学習としてコミュニケーション創発をモデル化するアプローチについて説明し、メトロポリス・ヘイスティングス名付けゲームを導入する。この言語ゲームが分散的なベイズ推論になっていることを証明すると共に、Inter-GMM+VAEという生成モデルにより、二者エージェントが実画像から記号創発を行う様子を示す。また合成性を有する言語やマルチモーダル情報に基づく記号創発モデルについても触れる。されにこれらから偉える集合的予測符号化仮説について紹介し、人間がこのような学習を行っているかに関しての検討に関して報告する。さらにこのような考え方がもたらす大規模言語モデルの有効性の解釈や、人間とロボットの共創的学習というアイデアに関しても述べたい。

10:30 - 10:33オープニング

谷口忠大先生から、Language&Robotics研究会設立の経緯と、設立に関連する論文Survey on frontiers of language and roboticsの紹介があった。
第1回は2017年7月2日で、かれこれ5年になるそうだ。

著者紹介は簡潔そのもので、すぐ本題に突入した。
今回は今のところスライドは公開されていない

10:33 - 11:35講演（45分）

講演は、4部構成で、記号創発関連研究の動向についてのお話

1．はじめに　人間の認識と機械の認識

現在の考え方の基礎は、京都大学修士時代の椹木哲夫（さわらぎてつお）指導教官との出会いで決まりました

哲学論議が好きな先生で、
「言葉の意味は，概念はどこから来るのか？」
などの議論をしていました

そのころ、ちょうど
AIBOがはやっていて、ロボットが会話の意味を理解してくれる時代を夢見ていました

二つの相対する考え方

世界の捉え方には、イデア論と構成主義という、相対する二つの考え方があります

本質主義（イデア論）

世界の真なる構造が存在し、その構造をを見いだそうとする考え方であり、
GOFAI（第一世代人工知能）で用いられた　オントロジー（情報を組織化するフレームワーク）的な世界観であり、クラスラベルが存在します

社会構成/構築主義

世界は真なる構造が存在するのではなく、人間の感覚情報や社会活動の相互作用により生み出されるものであり、実体は確率分布モデルであるとします。

上記の二つの考え方は相対し、両立しないと考えられてきたが、
椹木哲夫先生の考えは、
「社会学は、二項対立ではない。調停しうるのではないか」
というものでした。

そこで、両者を包含する考え方を模索し、以下の考えに至りました
「情報の自己組織化現象」として「世界モデル」を構築する

そして、構成主義、プラグマティズム、ネオサイバネティクス
を統合した　「複雑系・人工生命・発達ロボティクス」の概念「認知発達ロボティクス」を提案しました

では、
人間は自身のセンサ情報のみで個人の世界観を創り上げるとして、
人間は、この認知的な「閉じ」から、どうやって世界を認知することができるのだろうか？

この、修士時代からの「問い」を、最近は以下のように言い換えてます
知能は「関数」か「全体」か？

2．記号創発システム（2020年～

これはしょっちゅう紹介している図なので見たことがある方も多いと思いますが
実在物に記号を対応させる「記号接地問題」に対して「記号創発問題」を提起しています

記号創発問題の考え方は、
意味を持つ媒体（記号）には、恣意性があることにもとづいています
以下、記号創発システムについて述べていきます

パースの記号論

いま、「サインｗ」「対象ｏ」「解釈項ｚ」を考えます
解釈項ｚは、二つをつなげる脳内活動です

https://knon.hatenablog.com/entry/2014/08/06/183229

現代のＡＩは、このｗ，ｏ，ｚから構成されます

言語の重要性

semiosis（記号過程）について

人間は、自分一人なら、記号がなくても発達可能です
自分が感覚器や内部受容器から獲得するセンサ情報をもとにカテゴリ化していけばいいのです。

「名前を与える」のは「相手が解釈できる」ために重要なのです

私が「BlackBlade取って！」と叫んだとしましょう
これは、中二病のコミュニティでは（コミュニティによっては）通じます

「サインは社会的合意」であり、合意に従う限り、他者を動かせるのです

創発システムは、（Simbol Emergent Systemの）下位システムに影響を与えます

個体の学習・表現学習と集団による記号創発

二重文節構造の考え方により、連続した音から音素を切り分け、さらに単語を取り出すことができます

二重文節構造はセンサデータから場所や語彙を獲得することもできます

予測補完

予測を高めるために確率生成モデルを用います

in→outシステムでは
ある観測値の欠如を補完することが可能になっています
例えば、SLAMの位置推論があります

transformerはまだまだですが、強化学習の手法ではGatoが近いです

Generative View of Cognition

世界モデル（WorldModel）は、限られた感覚運動情報をもとに構成する主観的な世界のモデルです。詳細はロボット学会誌を読んでください

「世界モデルと予測学習によるロボット制御」
2022 年 40 巻 9 号 p. 790-795

予測符号化、自由エネルギー原理、事前信任予測

予測符号化、自由エネルギー原理、事前信任予測の研究を進めています

3．社会における記号創発

集団における記号創発問題として
1990年から2000年にかけてランゲージゲームが行われました
意味不明の会話になってなかなかうまくいきませんでしたが、

2012年のDeepLearningによるネコ画像の分類以降、
言語の創発が可能になり、うまくいくようになりました

実は、貨幣は社会により創発されるのです
貨幣は社会的公正を最大化するように創発します
理想的な環境ではラグランジュ未定定数に価格は一致します

言語プロセスを「全体最適化問題」に帰着させてから分解したい

記号創発で、社会は何を創発しようとしているのか？

同じ物体を見ていても、AとBには見え方が違います。そのもとで、Aの信念（これはりんごだ）を、Bの信念に伝えることができるのだろうか？
見え方が違っていても、信念を伝えることが可能です

「同じものを注視していること」すなわち
共同注意が、幼児の発達に重要な理由はここにあります
共同注意で信念伝達をするモデルは、「マルチモーダル認識」と同じモデルになります」
右目と左目両方からの感覚を統合した場合、両方の情報があるとマルコフブランケットになります

Metropolis-Hasting Algorhythm

Metropolis-Hasting Algorhythmにおいて相手情報を採択するかどうかの判断をするときはAgentBの内部情報だけで受け取るかどうかを判断できます

MNISTデータセットやFRUIT360データセットで実験を行った結果、
2つのエージェントでクラスタリングを行うと、クラスの一致率が独立にクラスタリングするより高くなりました

学習の改善（複数AIの会話）

複数のAI同士の会話はまだ行われていない研究分野。
取り組んでいきたい

意味伝達を考える

1．Aが物体についての推論を言葉にして発する
2．Bが言葉を受け取り、イメージを想起する
この実験では、BがAの言葉を全て真として受け取ると、分類の精度が下がる。
自分自身で真性判断を行うことが重要

人間の場合、五感を活用したCROSS MODAL REFERENCEにより、分類の精度が上がる

4．集合的予測

ここからは、科研費特定領域研究基盤研究（A)「記号創発システム論に基づく共創的学習の基盤創成」（2021～2025年度）で行っている研究の内容になります

A：AIロボットの共創的学習は、拡張の方向がいっぱいありすぎる

1．文法がない
2．強化学習手法の最適化
3．AgentAとAgentBが異なるセンサで学習し、情報を共有するするマルチモーダルエージェント
4．お互いが情報を交換したとき、判断を修正する必要があるが、その方法

以上はNエージェントに拡張できる

マルチエージェント強化学習は、数学的モデルとしては確率推論に帰着する
コミュニティ全体で合意形成を行う手法に拡張できる

B：Emergent Communication in Humans

AIロボットの共創的学習法を人間に適用する
人間で実験したところ、相手の発言を全て信じると崩壊することがわかった
人間が実際に真と判断する基準とAIロボットに真と判断させる理論の比較を行う

C：Mixed Human Robotics

AIロボットに教える方法は4つ
1．教師あり学習
2．強化学習
3．教師なし学習
4．共創学習（ロボットがクラスにネーミング）

共創的学習により、人間の認識のアッパーリミットを超える
人とロボットで実験を行いたい

P社との共同研究では、サービスロボットにおいて、事前学習と実環境が合わない事例が頻発しています

そもそも、サービスロボットには、障害物が「机」だろうが「いす」だろうが、「走行に邪魔な物体」のラベリングでいいのです。
ロボットの行動との関連でクラス分けやラベリングを行えば、データセットは小さくなり、処理や通信の高速化が行えます。
人間はそのようにして有用な情報クラスタリングを行っていると考えられます

それを実現するためには、
「集合的な予測符号」や分散的なベイズ推論（集合的予測仮説）が必要だと考えています

D：大規模言語データをモデリングすることの人文社会科学的合理性

GPT-3(OpenAI),PaLM(Google),CLIP(OpenAI)などは、中間層を強化することにより推論能力が向上しました。

しかし、人類は言語の経時的変化、すなわち過去との会話とその制約と闘って社会を形成しているのではないのでしょうか
このような視点が今の人工知能研究から抜け落ちています

ムーンショット目標3：自ら学習・行動し人と共生するAIロボット

ムーンショットプロジェクトにも参加していて、人間とAIロボットの意図共有、Latent Space（潜在空間）を考えていきます

二つの研究講演会の紹介

最後に重要な二つの研究講演会を紹介します。
ぜひリアルで参加して討議の輪に加わって下さい

NLP2023@札幌で3月15日16時10分から17時10分に招待講演「社会における分散的ベイズ推論としての記号創発　～集合的予測符号化としての言語観～」を行います

JSAI2023＠熊本（6月6日～9日）でOS6「言語とコミュニケーションの創発～記号創発システムから共創的言語進化まで～」を企画しました

https://www.ai-gakkai.or.jp/jsai2023/

11:35 - 12:00QA（25分）

質問が大量に寄せられ、
谷口先生は「いいね」が3以上の質問について一つ一つ丁寧に答えられていた

Q1：接地シンボル以外の社会的機能の伝達はどのようにお考えですか
A1：抽象的概念は可能かもしれませんが、感情や「おっす」は難しいですね
Q2：動詞の生成は？
A2：動作的なものの伝達は狙っていきたい
Q3：社会的地位により承認確率が変わるし、行動も変わると思うのですが
A3：社会的地位や尊敬度などで変わりますが、それらの権力拘束が正に働くか負に働くかは今後の課題ですね
Q4：離散モデルを連続モデルに拡張できますか？
A4：MHネーミングにおいては連続にするのは大事だと考えています
Q5：P社は関西、関東、どちらですか
A5：関西の方ですが、ロボットが学習しているデータがロボットにとって意味のあるクラスタリング（ラベル付け）なのだろうかという疑問を持っています
学習データは以下の問題を含んでいます
前置詞や接続詞が入っていない
抽象的な概念も含んでいない

12:00 - 12:01クロージング

時間を超過したので、「いいね」が２個以下の質問は、後日回答をネット公開することで終了となった。
次回開催日は未定

おわりに

私の妄想だらけの「妄想版」もよろしければご覧ください

本noteは私の備忘録ですが、自由に読んでくださいサポートは、興味を持ったnote投稿の購読に使用させていただきます