見出し画像

なぜ言語化できないのか?

はじめに

こんにちは.cvpaper.challengeアドカレ2023の10日目を担当します,舘野将寿と申します.私は東京大学情報理工学系研究科の修士2年生で,産総研のRAとして今年からcvpaper.challengeグループにjoinしました.現在は修士課程の単位を取り終わり,また研究室の佐藤洋一教授のご理解もあって,大学のラボから遠く離れた筑波の産総研で研究メンバーと共に毎日を過ごしています.

産総研では,常勤職員である八木さんがメンターとしてついてくださっていて,オフラインで頻繁にやり取りを行いながら研究を進めています.八木さんのスタイルや,筑波の環境のお陰で,伸び伸びとかつ集中して研究ができています.

さて,本記事ではコンピュータビジョン分野で近年目覚ましい発展を遂げている,映像と言語の融合分野において,「言語化するとはどういうことか?」について深掘ってみたいと思います.また,研究における「言語化」の重要性や,cvpaper.challengeに入ることで得られた「言語化」に対するポジティブな側面を紹介したいと思います.


映像を言語化することの限界

突然ですが,あなたは次の画像をどのように言語化して説明しますか?

[1]より引用.

「二人の人間が草の上に乗りながら馬を操作している.」といったところでしょうか.実はこの画像は COCO Caption Dataset という画像キャプショニングのためのデータセットのサンプルで,この画像に対するキャプションの正解(Ground Truth)も収録されています.それは,

“A horse carrying a large load of hay and two people sitting on it.”(馬が大量の干し草を運んでおり,2人の人間がその上に座っている.)

この説明は画像内に中心的に写っている被写体を的確に表現していて,間違いなく正解です.しかしながら,上画像のすべてを伝えることはできていません.少なくともこの説明を聞いただけでは完璧にこの情景を思い浮かべることができないでしょう.馬が運んでいる干し草の少し不気味な感じ,それとは対照的な背景の草原や空の美しさ,夕暮れ時を感じさせる日の当たり方から,干し草の上に乗っている2人の表情まで,画像から読み取れることは無限に存在します.

このように映像から言語への変換について具体例をいくつか考えてみると,言語化しやすい概念とそうでない概念があることがなんとなくわかってきます.映像内の物体とその位置関係や,人間・動物の行動に関しては言語化しやすいのに対し,物体の状態(干し草の状態)や人間の表情,映像の雰囲気などを言語化するときには言葉に詰まります

映像と言語はモダリティが異なるのだから,完璧に映像を言語に写し取ることはできなくて当たり前,と思われるかもしれません.しかし,状況や雰囲気を完璧に記述することできない不完全なツールなのにも関わらず,なぜ人間は言語を用いて問題なく生活できてるのだろうかと不思議に思います.

(ちなみに私の研究では,言語化しにくい例の一つである「物体状態」について映像から認識するということに取り組んでいます.そもそも物体状態とはなんなのか,ということから考え始めるととても奥が深いです.が,本記事では言語/言語化について焦点を当てていきたいと思います.)

そもそも言語とは何者なのか,言語化するとはどういうことなのか.少し深掘って考えてみます.興味が無い方は研究における言語化の重要性に飛んでいただき,興味がある方は次章で一緒に考えてもらえたら嬉しいです.

そもそも言語とは

予め断っておきますが,この場では「言語とは何か」についての正解を示すわけではありません.「うまく言語化できない」という事象について自分なりに納得する説明をするための準備として言語のもつ性質を俯瞰していきます.

私たち人間は生まれてから1歳半ごろには何らかの言葉を発し始め,小学校1年生になる頃にはある程度まとまったストーリーを順序立てて話せるようになってきます.この頃はまだ「言語」というものを自らの体験・記憶・身体性などと切り離して,コミュニケーションの「ツール」とか,「記号」というふうに捉えることはできていないでしょう.小学校で文字を書くことを覚えたり,場合によっては外国語を習う中で,いつのまにか言語を「暗記すべき記号」や「習熟すべきツール」のように捉えられるようになる気がします.

このように人間にとっての言語は年齢や視点によって捉え方が変わります.心理学・言語学でも言語の意味について様々な角度から捉えられてきました.今回は「信号、記号、そして言語へ ―コミュニケーションが紡ぐ意味の体系―」[2]で導入されている言語の意味に関しての分類を紹介しようと思います.[2]では言語の意味に対する捉え方が,指示説と使用説に分けられるとしています.

指示説では,言語がもつ意味を辞書的に捉えており,言語が指し示すものが社会的に共有された体系的な知の構造の中に位置づけられるとしています.また,辞書では言葉の意味が別の言葉の組み合わせで説明されているように,言語の意味は自律的であり言語の中で閉じているものといえます.ここで,言語がどのような文脈で使用されるかという運用上の問題は,言語の意味表現には含まれないとしています.このような言語に対する視点のもと,指示説において言語を習得するというのは辞書的に言語を登録していく作業として考えられます.

一方使用説では,言語の意味には必ずしも辞書的なものを必要とせず,むしろ言語が人間の生活や社会的な慣習の中で意味付けられるものであり,文脈や意図などに依存するものとしています.したがって,言語を習得するとはある目的を達成するための社会的に適切な言語の運用方法を学ぶことであるという立場を取っています.

指示説と使用説は対立する立場を示しますが,言語はどちらの性質も持っていると考えられます.そして言語は時と場合により対立する性質を行ったり来たりするために,それが表象する意味は必然的に不確定的となります.このような意味の不確定さに気がつくこと,それが言語を学習するということであると[2]では述べられています.また,コミュニケーションを取るということは,相手との共通理解を探り合いつつ,不確定な言語の性質を利用し,文脈の中で言語の意味を新たに創造したり調整したりする作業を行うことだと言えます.

スパッと言語化できない「モヤモヤ」

では,逆に言語化できない時というのは何が起きているのでしょうか

私はこの間,Everything Everywhere All At Onceというアカデミー賞を受賞した映画を見ました.この映画はカオスそのもので,まったく理解できませんでした.表面的な内容は,マルチバース,すなわち同時に存在する別の世界から夫がやってきて,妻とともにマルチバースを行き来しながら,世界の巨悪の正体である娘を倒すべく奮闘するという内容なのですが,その中でわけがわからない設定が次々に登場する(例えば娘がベーグルを崇め奉っていたり,急に娘と母親が石になってしまったりする)ので,頭の中は大混乱になります.私はこの映画が表現しているものを全く咀嚼できず,ましてや言語化することもできませんでした映画を見た後に残ったのは何かモヤモヤした気持ち悪さだけでした.

Everything Everywhere All At Onceに登場する家族.[3]より引用.

言語化こそできないものの,映画を見た後に何かモヤモヤしたものが心に残ったということは,映像を通して私は何かしらの情報は受信したのだろうと思いました.そこで,受け取った情報を言語化できない理由について,前章の言語の意味の視点から考えてみると,なんとなく説明がつくことがわかりました.それは,映像で表現されていたものが,社会的に共有された構造的な知でもなく文脈上に表れる意図でもなかったために,受け取った情報を言語を用いてデコードすることができなかったと説明できます.

ただ,この映画の例は非常に特殊です.普段我々が生活しているなかでは,このようなぶっ飛んだ情報を受信することはほぼ無いと思います.そう考えると,普段の生活あるいは研究などにおいて,モヤモヤを言語化することが難しいというときは,やはり辞書的な語彙や知識が足りないか,その場の状況・文脈に慣れていない場合がほとんどなのではないかという気がしてきます.

研究における言語化の重要性

研究においても概念を言語化することを求められることがしばしばあります.論文を書くということがその最たる例ですが,とても簡単なことではないと感じます.これまでの議論から考えると,研究においてその内容や課題を言語化できるようになるには,きちんと知識を構造化できており,説明をするときに用いる言語がその文脈において何を意味するのかということを把握できている必要があります.そしてこれらの能力を伸ばすには,知識のインプットはもちろんのこと,やはり言語化に励むことが重要なのかなと思います.

cvpaper.challengeに所属して得られたポジティブな側面は,研究の言語化を行う機会が増えたことです.例えば,他のメンバーとの雑談の中で,自分の研究内容やモヤモヤしていることを話したり,日立製作所とのコラボ企画で研究発表をしたりする機会がありました.また,メンターの八木さんも研究の議論の中で,きちんとした言語化を促してくださって,会話をしていくと思考の整理がされます.

自分の研究をよく知っている人,あまり知らない人,前提知識すらなさそうな人,様々な人に対して粒度を変えながら言語化して説明する中で,自分の研究に対する理解も深まっていきます.ときには新しいアイデアがひらめく時もあります.時間はかかりますが,これがすんなりとできるようになったとき,論文もスラスラと書けるようになるのかなと想像しました.

今後も自分の研究においてモヤモヤの言語化を継続し,成果に繋げていきたいと思います.もし読者の方の中にもモヤモヤしたものを心に秘めている方がいたら,それは完璧でなくとも言語化できる可能性が高いと思いますので,言葉をひねり出してみてはいかがでしょうか

参考文献

[1] X. Chen, et al. Microsoft coco captions: Data collection and evaluation server. arXiv paperprint arXiv:1504.00325, 2015.
[2] 佐治伸郎. 信号、記号、そして言語へ ーコミュニケーションが紡ぐ意味の体系ー.共立出版,東京,2020.
[3] https://gaga.ne.jp/eeaao/about/ .


この記事が気に入ったらサポートをしてみませんか?