見出し画像

計測の『非』科学

はじめに

最近気に入ってるyoutubeチャンネルに積読チャンネルがあります.毎回面白そうな本を紹介していて読みたいなあ,と思いながら見ています.

20240702は「計測の科学」という回,で長らく理系の世界で生きてきた私にとってはとても面白いお話でした.

そんな話を受けて,私が昔「計測」というテーマと向き合った話をちょっと話そうかと思ってペンを取りました.


私の『計測』

学生の頃に黎明期のVirtual Realityを研究テーマとしてやっていました.
特にヒトの視覚と触覚(というか固有受容感覚)の統合について興味を持っていて,指先の位置感覚と視覚の位置推定感覚の間にどのような関係があるのか,そのモデル化について検討していたりしていました.

視覚の座標系

ヒトの視覚っていろいろ研究がなされているのですが,3次元空間をどのような座標系で捉えているのでしょうか?
この辺語ると好きな話題で本当に長くなるので,だいぶサラッと行きます.

初期視覚というのは不良設定(ill-posed)問題と呼ばれていて,そもそも単純に2枚の2次元網膜像から3次元を再構成しなければならず,隠蔽(オクルージョン)や情報の欠損などから,求めたい解(3次元空間情報)に対して方程式の数や入力パラメータが足りない問題というものがあります.

ヒトはそのような不良設定問題を幼い頃からの視覚情報の経験から学習を行い(特に距離感においては触覚による指先位置などの正解データが有効とも言われています)外界の3次元情報を推定(妄想)しているのです。
最近のstable diffusionや3D gaussion splattingなどの生成AI技術もこのようなヒト内部で獲得しているような知識が使えるようになって実現できた技術と言えるんじゃないかな、と思っています。

そんな中なんやかんやで獲得した外界の3次元情報、脳内ではどのように表現されているのでしょうか?

  • 網膜画像+奥行方向のいわゆる2.5次元?

  • CGなどと同じXYZ直交座標系(デカルト座標系)?

  • 半径と緯度・経度で表される極座標系?

  • 座標という概念ではなく,マインクラフトのような豆腐が積み上がったボクセル座標系?

  • それとももっと他の何か?

歪んだ直交座標系

この研究を離れて長いので最新の研究成果はわかりませんが「歪んだデカルト系」と言われています.つまり網膜画像に奥行きをプラスした座標系ではなく,XYZという直交した軸を持つ座標系である,と.
これってなかなか不自然なことであって,人間個体の感覚からすると「自分より近い〜遠い」極座標のような感覚や,網膜画像から考える中央付近の視野と周辺視野とで解像度が違ったり「網膜+奥行き」という違う尺度の単位を持っていたりする方が身体にとって自然です.
こうゆうのを身体性と呼んだりします.
直交座標系とは身体とは関係なしに空間を記述する方法なので,体が学習で獲得するにもこれで良いのか?と思ったりもします.

「歪んだ」というのは正確に均等な長さを持った直交座標系ではなく偏りのある曲がった座標系であるということです.
このあたりは心理学の分野でHelmholtzのホロプタや距離アレイ,並行アレイといった空間の歪みとして観測されています.
「人間の空間知覚特性 -ホロプタとアレイの知覚-」

いかん.
長くなって本題にいけなくなる...

触覚の座標系

触覚,というのはそもそも・・・・とかから始めるととても長くなるので,ひとまとめにしてざっくり話をします.
ここで扱う触覚とは専門的には固有受容感覚(propiosection)と呼ばれる関節や筋肉の中にあるセンサから自分の姿勢や指先の位置がどこにあるか,をセンシングする感覚のことです.
触れた/触れないのセンサや,温度センサ,ツルツル/ザラザラなどの表面感覚(tactile)とは区別して考えます.

ヒトには約260個の関節があると言われており,それぞれにセンサが配置されているので総合的にいま自分がどんな姿勢なのか,を捉えることができます.

単純に右腕の関節の数だけでも4つ(胸鎖関節,上腕肩甲関節,肘関節,手関節)あると言われ,指先の関節数に至っては14関節あるとされています.実際にはもっと細かく見ると肩鎖関節,肩甲胸郭関節など,ほぼ骨の数だけ関節があると言っても過言ではない状態です.
ここで何が言いたいかというと

超冗長座標系

「XYZの3次元直交座標系を表現するのに関節の数が多すぎる」ということです.3次元を表すのに必要な自由度は当然3つ.しかし関節の数はざっとみて20自由度以上.
この関節を動かす筋肉で考えたなら一つの関節あたりに最低2本(伸ばす/縮める)必要になるので40次元以上の筋肉で指先の位置を定位する必要があります.
さらにさらにこの運動を実行するために脳内からの命令として必要な次元は神経パルスにまで遡らなければならないかもしれません.
しかもおそらく関節「角度」なので極座標に近い多重リンク機構をベースにした座標系になるのが自然,ということになります.

あまりにも視覚と違うと思いませんか?
でもヒトは目で見た場所に指先を伸ばすことができる(reaching)など,視覚と触覚を連動して運動することは得意なのです.
こうゆうのをマルチモーダル問題と呼び,近年の生成AIの技術でもコアになる技術です.複数の異なる感覚を統合して同じ座標系で扱うための考え方です.

例えばStable Diffusionは自然言語生成AIと画像生成AIをリンクするCLIPという手法を用いて二つの生成AIを繋げることでtext2imageを実現することができる,といったところです.
さしずめ今回の場合は,vision2proprioception,proprioception2visionといったところでしょうか.

この辺の話もどこかで書きたいですね.

『非』科学的計測

ようやく本題に近くなってきました.
では,視覚と触覚の空間にはどのようなズレがあるのか? そのズレに法則性はあるのか? ということを考えたくなります.
視覚はXYZ直交座標系
触覚は関節を元にしたリンク機構座標系
と考えたとすると,二つには大きな違いが1つ存在します.

独立成分座標系

要するに視覚は直交座標系を持つために各成分X,Y,Zが独立した成分を持ちます.つまりXを変えたときY,Zは変化しない,ということです.

対してリンク機構座標系の場合は冗長座標系ということもあって,1つの関節の変化が他のリンクに影響してしまうという性質があります.

この違いはとても大きく,直交座標系は各座標をベクトル化することで演算することができるようになります.
この演算が単純な四則演算に置き換えることができるのが直交座標系の最大のメリットです.従属座標系では単純に四則演算では計算できません.ましてや冗長座標系になれば一つの空間位置を表現する方法が無限に存在してしまうことになり演算不能に陥ります.
その2つの感覚空間の特性を調べてみるときに扱うのが虚点(imaginary point)です.現実には存在しないけれども定義できる点.
そこで私が注目したのが『中点』です.

中点

非常に幾何的な点です.2点 $${P_1, P_2}$$ が存在した場合,その中点Cは
     $${C = (P_1 + P_2)/2}$$
で表すことができます.
おそらく目で見ても中点というのはなんとなくわかるでしょう.

対して,触覚で中点を示す場合,どのようになるでしょうか?中点をどのようにイメージする?
視覚のような直交座標系で簡単に求めた後に関節の座標系に変換するのか?関節座標系の中で計算するのか?

これを視覚で入力した2点の中点を自分の指が見えない状態(自分の触覚による位置感覚のみ)で中点を指し示すことでどのようなズレの傾向を持つのかを解析しようとしていました.
実験としてはあるテーブルの上にレーザーポインタやプロジェクタなどで画面上側から視覚的に2点を提示します.

  • 視覚→視覚:最初はトラックボールなどで視覚的にポインタで中点を指し示す実験

  • 視覚→触覚:視覚的に呈示した2点に対してテーブルの下から(指先が見えない状況で)中点を指し示す実験

  • 触覚→視覚:テーブル下で左右の指先を誘導してポイントして,その指先の中点をトラックボールなどで視覚的に中点として指し示す実験

などを行いました.
こうすることで視覚・触覚相互の空間位置の変換モデルを作ろうとしていたのでした.

やっと本題

その時に気になったのが「そもそも中点の精度ってどれくらい??」
ということ.

世の中には「目分量」というものがあり,ヒトはおおよその単位をモノサシの目盛が無いところでもある程度読むことができます.
私は昔設計事務所で働いていたことがあり,その時には建築士の人たちはかなりの精度で例えば10cmの線を目分量で引くことができていました.図面上でよく使う長さだからですね.
例えば大工さんのような現実の家を建てる人の場合には「1間(約180cm)」が多く間取りに使われているため,とても高い精度で1間や半間を目分量で見積もっていたりしました.

その中で「中点」というのはとても特殊な長さなのだということがわかってきました.
上の10cmや1間はいわゆる「絶対値」で経験によって獲得する絶対音感のようなものですが,中点は相対感覚なのです.なんらかの計算が必要.

目分量の科学

ではこの「中点」どれくらいの精度を持っているのでしょうか?
これを調べている文献がありました.

国立の研究所で2001年には産総研に統合されてしました.

ここでいわゆる「目分量」について論じているものがあり,大変興味深く読みました.

目測の精度に関する実験的研究」(リンクでpdfに飛べます)

その時に中点の精度がバカ高いという結果が出ており,

さらにこんな論文が出ています.(リンクでpdfに飛べます)
尺度の目測認識特性に関する実験的評価
これによると

上記論文から引用

これは,2つの視標の間を10分割して,そこを何回か指示した時の点のばらつきを示しています.
0と10は表示されている視標の位置なので良いとして,中点だけは他の点と比較して優位に明確に示すことができてることがわかります.


上記論文から引用

こちらは期待値からの偏りを示しており,中点の偏りがほとんどないのがわかります.
このように,ヒトの目測における中点の性能は非常に高くほぼ実在する点と変わらないレベルであることがわかるのでした.

こんな結果からも視覚においては,直交3次元座標系を使っていてもおかしくないなあ.という知見が得られたりします.
(計算しているのなら1/4点など他の点も精度が欲しかったりしますが..)

日本製品の精度

かつて日本が技術立国であった時代,アメリカや他の国と比べて圧倒的に高い精度を誇っていた原因は,アメリカ人が目盛単位でしか読まなかったのに対して,日本人は目盛の中間まで読んでいたお陰で一桁精度が違った,という逸話があったりします.

もちろん日本人とアメリカ人で中点の読み精度が違うことはおそらくないでしょうがそのような国民性や文化の違いがあったのだ,ということのようです.

実際このように「目盛の1/10まで読むべし」と書かれていたりして当たり前のように一桁上の単位まで読んでいるようです.

さいごに

「積読チャンネル」の「計測の科学」の回を観て,昔やっていた研究の際に調査した「中点の目分量」という「科学的ではない計測」の話を思い出したので語ってみました.

この辺りの話って最近の画像系生成AIや3D Gaussian Splattingなど技術の進歩によって実現されてきている機能に関連してくるお話だなあと改めて思いました.
また色々勉強しようと思った積読チャンネル感想文でした.

この記事が気に入ったらサポートをしてみませんか?