JSAI2023 1日目メモ

Takeshi Mizumoto

2023年6月10日 11:49

[基調講演]機械に知能を与えるということはどういうことなのか？

拡張テンソルイメージング
--> MRI の次世代技術。神経繊維まで見える

脳内の資格の伝達経路はふたつある
--> where経路 (方向とか位置) / what経路 (形とか色)

運動野と言語野の接続は人のほうがサルより太い

前頭葉障害の例
* 遂行機能障害 http://www.oogunohp.com/kouzinou/k-ill03.html
* 時刻表的行動: 「ある時間にこれをしないといけないという強迫観念」

MSDマニュアルというのがあるらしい
https://www.msdmanuals.com/ja-jp/ホーム

記憶のしくみ
1. 逐語的記憶
2. 要点的記憶
3. スキーマ(大脳皮質)
-> スキーマから想起によって詳細記憶を構成 (LLM っぽい？)

報酬予測：基底核
脅威予測：扁桃体

感情と高次機能の研究ってある？
--> 研究はあんまりない。

画像音声メディア処理

野球中継における画像認識を用いた解説自動付与

解説音声とは
視覚がなくてもその番組を理解できるようにする音声
-> 従来はあとか作成していたので生中継の解説は困難。しかしスポーツ中継の解説付与はニーズがある
東京オリパラで人の解説音声入力支援アプリの実証をした。

今回は完全自動を目指す

画像から情報を自動切り取り、数値の読み取り、音声合成する
モデルはCNN + FFN
画像 + CNN+Relu + MaxPooling x3 + FC2x + Dropout + Softmax
Tesseract は汎用 OCR エンジンで、それと比較して性能改善
https://github.com/tesseract-ocr/tesseract

リサイクル支援システムのための画像認識を用いた資源物識別の検討

TrashNet というゴミ画像データベース
https://github.com/garythung/trashnet
GrabCut
Poweroint の背景画像除去みたいに、「どこを使ってどこを捨てるか」を指定することで背景除去ができる手法。OpenCV に実装されている
https://whitewell.sakura.ne.jp/OpenCV/py_tutorials/py_imgproc/py_grabcut/py_grabcut.html

エッシャー風メタモルフォーゼの自動生成について

エッシャーのような、異なる形状の画像を徐々に形を変えながら敷き詰めるタイリングを自動的に行いたい

[1] 入力画像に近い形でタイリング可能なものを作る --? プロクラステス距離を最小にする
[2] isohedral タイリングの制約で図形を限定

段階的に2つの画像を近づけながらタイリングを生成する

発話音声の音響特徴量を用いた抑うつ度推定手法

従来は音声＋感情推定＋うつ病または目の動きで有無の判定。

今回はBDI と音響特徴で自動推定する
BDI = 話者の抑うつ度を推定するテストで自己評価する
音響特徴はこれを使う
　eGeMAPSv02 (openSMILE)
　Sufboard (病気に関する音響特徴)

AI関連標準仕様を理解する

AIリスクに対処するための法や認証・認定の整備が進んでいる。おおきくわけると、ハードローアプローチとソフトローアプローチがある。

欧州はハードロー -> AI-ACT　(新法)を作る
日米はソフトロー -> 現行法を活用する
ISMS はガイドラインベースなのでこちら

JISで原案を作っているマネジメントガイドライン
https://itscj.ipsj.or.jp/committee-activities/report/jisQ38507-2022.html

AI には二重の外部性（環境経済学）がある

ソフトウェアライフサイクルプロセスのとの違い
AI開発とソフトウェア開発プロセスは似ているが、時間の経過とともに再学習するという点で違う。
ソフトウェアのプロセスの規格(ISO 12207, ISO 15288) は既にある。
これをベースに内容を更新するのが AI ソフトウェアライフサイクルプロセス　=> ISO 5338

EU-AI Act

AI システムについてリスク別のアプローチをとっている

禁止
規制をかけていく (New Legislative Framework: NLF)
開示義務
そのまま

NLF とは

規制内容を法律に書いていない。「整合規格」に決まる

オールドアプローチ：毎回法律改正がいる。大変
食品・化粧品・自動車
ニューアプローチ：別紙とする。変更が楽になる。
機械・建設製品・玩具とかがこっち
NLF はニューアプローチの次
技術仕様は整合規格に書く。玩具、レジャー用品、無線機器はこちらに移った。AI Act はここに入る

NLF の企業が採用するかは任意だが、実質は必須
「整合規格」欧州全体で整合するので「整合」
=> EU標準化機関(CCEN / ENELEC / ETS)が作る

欧州では適合性評価をした後、CEマークがついて販売可能になる

ISO 42001認証

国際スキーム(ISMSとか)は3段階の認証になっている
　　普通の組織 -> 認証機関 -> 認定機関

AI規程もそうなるかも。海外ビジネスではJISが出る前に気にしたほうがいい

音声画像メディア処理

静止画領域を含む動きの激しい広告動画におけるViNetを用いた顕著性マップ予測

広告代理店の動画製作
従来は確認と作成を繰り返してからリリースだが、確認と作成中は発注者・受注者の双方が不安
-> 顕著性マップで動画を評価している

UNISAL だと
https://www.jstage.jst.go.jp/article/fss/37/0/37_67/_article/-char/ja/
「動画の左上に小さいロゴがあると効果が高い」とかの heuristics が評価できない

ViNet を使って調べた

実運用に向けた一人称視点動画に対する機械学習手法の詳細分析と改善の試み

First Person View (FPV) 動画の識別は、 Third Person View (TPF) に比べて知見もデータも少ない。そこで色々な手法を評価した。

(感想) TPV/FPV で識別しやすさが違う？「床に寝る」は TPVだと明らかだがFPVだとよくわからん、みたいな

マルチアスペクト比Vision Transformerを用いたディスプレイ広告効果の予測

広告動画はアスペクト比が大きく、普通の ViT では分析効率が落ちる。
パディング方法を変更。従来よりクリック率予測精度が改善

ViT
https://nonbiri-tereka.hatenablog.com/entry/2020/08/26/084816

この記事が気に入ったらサポートをしてみませんか？