見出し画像

人間の認知プロセスの再現

Translated Landscape

物体検出(object detection)技術を用いて、渋谷の街並みを文字の風景へと変換しました。 特定したオブジェクトの名称は、漢字を中心とする日本語文字へと変換。文字の大きさは検出した物体のサイズを反映しています。
こうして作り出された光景は、現状のAIに見えている世界でもあり、我々の頭の中で起きているミリセカンド単位の認知のプロセスの表象でもあり、漢字のような象形文字が生まれる「形→図像→文字」の長い歴史の再演でもあります。
本作は文字の持つ物質性や具体性に着目した「視覚詩」や「コンクリート・ポエトリー」と呼ばれる実験詩、またVR・XR領域での言語表現のリサーチから着想を得て制作したものです。機械の高速かつ不確かな世界認識を通して、世界と言葉の循環する関係性を提示した作品になっています。

人間の認知プロセスの再演

我々は、物体を認知している際に、視覚から物体の輪郭を検知し、そのものが何かを抽象化し、概念化し、物体を認知している。実際の認知は、もともと自分が認知したことがある引き出しから照らし合わせ、ある閾値とともにそのものを断定しています。断定された後、映像は概念(文字)とのひも付きがなされています。
今回は、COCOというデータセットから学習された約30の物体のみが検知されます。人間などは男女や年齢問わず、すべて「人」と判定されたり、自動車も車種によらず「車」と判定されます。
本来であれば、人によって、また状況によって認識できる境目や概念化するまとまりは異なります。ある意味人の認知はこの物体検知のカテゴリを学習することに対応するのではというのが私の一つの仮説です。

幼少期における認知プロセスの学習

幼児の言葉の概念獲得が記された本を読むと、幼児は歯がないために、「マママ」という言葉が話されながら、最初に「ママ」という身近にいる人の概念と、「マンマ」というご飯の概念を身につけるそうです。大人にとっては、全く違う概念ですが、大人によって、概念の区別を教え込まれることによって、徐々に物体の概念を獲得するようです。
機械学習においても、二値分類を学習する際は、例えば犬と猫の写真にそれぞれ犬と猫というラベルがついており、この画像は猫でこの画像は犬であることを学習します。

物体検知技術:YOLACT

物体検知技術として、YOLACTというロジックを活用しました。物体検知ロジックとしてメジャーなロジックとしては、YOLOや、mask R-CNNなどが有名ですが、今回はYOLOの派生系であるYOLACTというロジックを活用しました。こちらは、通常のロジックでは物体がどこにあるか正方形の範囲内でしかわからないところ、その物体の輪郭まで把握できるというロジックです。
今回は物体の輪郭に合わせて、文字の大きさを表現したかったため、YOLACTを使いました。


この記事が気に入ったらサポートをしてみませんか?