見出し画像

JSAI2023 3日目メモ

人間と共生する対話知能

長期雑談対話システムの実現に向けた長期テキストチャットの収集と分析

長期テキストチャットのデータ収集
MSC で集めたデータの比較

雑談対話システムにおける伝聞体験を根拠とした共感発話の効果

対話システムが共感したと感じるとユーザーの要求を満足できる。
とくにリフレーズ+共感発話 効果の発表はある。
ロボットが「同じ体験をした」と話すと共感は表現できるが明らかにウソ -> そんな話を聞いたという「伝聞体験」を言うことで代わりになる?
スロットフィリング: 固有表現では弱い。BERT で学習

効果があった。

理化学研究所革新知能統合研究センターの取り組み

  • 理研AIPと関わる拠点
    文科省AIPプロジェクトの拠点
      理研AIPセンター
      JSTAIPネットワークラボ
    内閣府AI戦略2022
      産総研 AIRC
      NICT UCRI / CiNet

  • 理研の適し1917年にできる。渋沢栄一が設立に関わる。
     理研コンツェルンになる

AIP研究グループ
[1]汎用基盤技術 -> アルゴリズムとか数学
なぜDNNって良いのかを数学的に証明(予測性能・次元の呪いを受けない・大域最適化可能)

[2]目的指向基盤技術 -> 科学研究の加速&社会課題解決
科学研究
がん/ALSの早期診断とかスクリーニング
テキストマイニングで材料論文データベース
データ駆動科学 -> 昔は仮説が先・検定があと。今はデータが先仮説を出してから検定。その信頼性を出す。選択的推論(LASSO)だといい
社会課題
自然災害・高齢者ヘルスケア・リアルタイム論文評価

[3]社会におけるAI -> データ管理とか経営とか
倫理規定の策定・セキュリティとか

  • 信頼性向上
    外乱つき機械学習の信頼度向上
    ラベル付きデータ数Nが多いといいが、質の悪いラベルならいっぱいある分野でなんとかしたい。ということで色々方法を開発つしている。

A: 教師ラベルがない
[例1]正ラベルなし分類 (例:クリック予測)
正例の一部だけしかない -> きれいに解ける
[例2]正信頼度予測
正ラベル+信頼度があれば1クラスで識別可能
[例3]ラベルなし分類
異なる母集団だったらいける -> アノテーションが無くても、母集団ごとの比率情報があればいける
[例4]類似非類似
「だれと一緒で、誰と違うか」のペアがたくさんあればいける

B: 教師情報に雑音
ラベルの誤りがあると、分類性能が下がる
雑音遷移行列を使うといける。一致推定もできる。
入力依存雑音の場合は? -> まだ

C: データのバイアス
訓練時とテスト時に分布が違う場合。重要度推定から2段階でやるのが普通
-> 同時学習ができる方法をつくった。 Distribution shift

昔はモデルと学習法を別できた。
-> 最近の非凸では徐々に学習する(自己教師あり学習)
-> 学習方法を徐々に更新していくと性能が高くなる

他分野向けのMLの教育教材は

「データだけもらって解析はダメ。人と一緒に出さないと受けない」

当初の思いと違うところ

  • 企業では AI より DX が先だった

  • コミュニティの大きさがあんまり大きくない。研究者が増えてない。層が薄い

https://www.ieice.org/ess/sita/forum/article/2019/201903231310.pdf

AI応用:行動ログ活用Ⅰ

Twitterにおける語の使用回数推移を用いた機械学習による流行語定着予測

池内の5段階区分で流行は定義される
 潜在・初発・急騰・停滞・衰退
SNSの流行は1ヶ月。2年続いたら長期と判定する

マルチモーダル深層学習によるプレゼンテーショントレーニングシステム

2つの方法で評価

  • 音声
    言語情報 + 音声情報

  • スライド内容
      個別スライドの評価+チェックリストごとの評価 

提案型オンラインデーティングサービスにおける相手に対する満足度の因果探索

  • プロフィール検索型。

    • 5分間のビデオチャット -> OK だったら連絡先交換

  • 因果探索手法
    LiNGAM [Shimizu06] [Ikeuchi23 -> パッケージ]

この記事が気に入ったらサポートをしてみませんか?