八か月の子供が初めて認識した単語が「Alexa」だった件を科学的に検証する

じゃぐ

2024年9月6日 18:13

背景（background）

可愛すぎて幼少期の橋本環奈を彷彿とさせるレベルのうちの子も、生まれてからまもなく九か月になろうしています。

ハイハイしたり、つかまり立ちしたり、体が成長して目が離せないお年頃になってきたわけですが、どうも言語の発達、つまりこちらの話す単語も理解するくらいの月齢でもあるそうな。

そんな折、とある重大な現象に妻が気付きます。

「なんか、アレクサが喋ってる時に必ずアレクサの方を見てる」

ふむふむ、確かに音が鳴る方はよく見てるし、会話に興味を持ち始めたのかもな。

と、思ったのも生束の間。

「私がアレクサを呼んだら、アレクサが話し始める前からそっちを見ている気がする」

・・ということは、「アレクサ」という単語を理解して、かつあの円柱型の黒くて無機質な筐体をアレクサと認識しているということか？？

いや、普通パパとかママとか、あるいは自分の名前とかから認識しない？物事には順序ってものがあるんだよ、ベイビー。

しかし、単語（アレクサ）を認識しているのでは？という仮説が立てられたからには検証するほかあるまい。

そんな、か細い真実を手繰り寄せるべく、アレクサ認識の大科学実験の幕は切って落とされたのでした。

方法（material&method）

材料はいたったシンプル。

私、妻、子供（8ヶ月齢）、そしてAlexa（Amazon製）

本当に我が子があの筐体をアレクサだと認識しているのか、まだまだ信じるにはデータが足りません。

そこで、
・アレクサという単語を理解しているか？
・単語と筐体を紐付けで認識しているか？
・視覚情報ではなくて聴覚情報を認識しているか？
・誰の声でも認識できるのか？
・体がたまたまそちらに向きやすいのではないか？

など、比較対照群を丁寧にデザインし、バイアスの可能性を潰すこととしました。

アウトカム（評価方法）はアレクサの方を向くかどうか。非常にシンプル。

本来試行回数のデザインや有意差検定（χ二乗検定か）が必要ですが、さすがにそこまではしません。とりあえず5回ずつくらい試しました。

結果（result）

視覚情報ではなく聴覚情報を認識しているのか？

まずは普通に妻が「アレクサ」と呼ぶと、子供はアレクサの方を向きます。

しかし、アレクサ嬢は呼ばれるとまず光ります。

つまり耳からではなく目の情報から認識している可能性があるので、まず体を逆側に向けて「アレクサ」呼びました。

結果妻の声にのみ反応してアレクサの方を見るので、どうも光（視覚）は関係なさそうです。

アレクサという単語を理解しているか

しかしアレクサを呼ぶと彼女は話し始めるので、その声に反応してそっちを向いている可能性は否定できません。

そこで、妻が「アレクサ」と呼んだ後に、用件を言わずに待つ、すなわちアレクサが話出さない状況をあえて作りました。

この状態でも子供はアレクサの方を向いたため、アレクサが話し始めたからそちらを向くのではなく、アレクサという単語を認識して首を動かしていることがわかりました。

続いて「アレクサ」以外の単語を試みました。

「お父さん」「お母さん」という離れた単語から「オトクサ」「オカクサ」という似ている単語まで色々調べた結果、やはり「アレクサ」にだけ反応しました。

誰の声でも認識するのか？

もしかしたら妻の「アレクサ」に反応しているかもしれない。

試しに私が「アレクサ」と呼んでも、やはり反応しました。

やはり「アレクサ」という言葉の並びに意味を見出しているようです。

単語と筐体を紐付けで認識しているか

アレクサという単語を理解しているのは分かりましたが、その単語とあの筐体を紐づけているのか？

ただ首を回しているだけかもしれないので、体の向きを180度回転させるなど様々な向きに変えて「アレクサ」と呼びましたが、やはり必ずアレクサの方を向きます。

このとき、図らずも子供に空間把握能力も備わっていることも判明しました。つまりただ右や左を向くのではなく周りの景色から空間を把握し、アレクサの方向を見ることができる、と。

最後に、アレクサの住処を多少移動させて検証しましたが、一瞬探したもののやはりアレクサの方を見ました。
つまり、その場所ではなくあの黒い筐体をアレクサと認識していたわけです。

考察（discussion）

ここまでの結果から、あの黒い筐体をアレクサと認識していることを否定する要素を限りなく排除できたため、子供は言葉を認識できるようになったと結論づけられます。

ここから考察に入りますが、なぜよりにもよって初めて覚えた言葉がアレクサなのでしょうか？？親としてはショックです。

ところで、人は学習する時に複数の情報がインプットされる、つまりマルチモーダルに学習する方が効率が良いとされています。

最近のAI研究でも、赤ちゃんの頭に取り付けたカメラからの画像情報と言語情報という複数情報から比較的少ないデータ量でも学習を進められるという論文も出てきています(1)

この際に着目したいこととして、
・我々が「アレクサ」を呼ぶ回数が多い
・呼ばれると筐体が光る、という強い視覚情報
・その後話し始めるという追加の聴覚情報がある

これらが合わさることで極めて強い学習効果が働き、言語と物体の認識につながったと考えられます。

また、古典的な心理学において「オペラント条件付け」というものがあり、何か行動をした際に報酬（あるいは罰）を与えることにより学習することができるというもので、動物実験でも用いられる概念です（2）

子供が言語を覚えることもおそらくこの「報酬」がポイントになったと考えられます。ここでいう報酬とは褒めるとかよしよしするとかそんなのではありません。

アレクサの方を向くと光る、そして喋る。

これが報酬であり刺激です。

そしてその報酬がアレクサと呼ばれた時にそこを見ることでのみ得られるので、それに対する学習が進むわけです。

将来の展望（future plan）

さて、単語の認識ができるようになったので、次はパパとかママとか自分の名前を覚えてもらいましょう。

しかし、前述の通りアレクサからの報酬は非常に強力です。

このままだと何が起こるか想像するに、初めて発する意味のある単語が「アレクサ」になる危険性が高いということです。

聞くことだけでなく話すことも初めてがアレクサになるということです。

これは由々しき自体なので、それを避けるためアレクサの見た目を変えるなど工夫が必要かもしれません。

限界（limitation）

今回「アレクサ」という単語が生まれて初めて認識した単語であったかはどうかまでは証明できませんでした。

今回の評価基準が「アレクサの方を向く」という、子供の現在の身体機能上比較的容易な行動であったため検証可能でした。

もしかしたら他の単語も認識できたているけど、それを自ら表現できない（返答する、頷くなど）だけかもしれません。

ちなみに、子供の名前を後ろから呼んでも確かに振り向いてくれますが、単純に何か呼びかけるとどんな単語でも全て振り向いてくれるので、これは検証できませんでした。

そういう意味ではアレクサの検証しやすさは素晴らしいと言わざるを得ません。

結論（conclusion）

うちの子は橋本環奈並に可愛いが、このままでは初めて発する単語がアレクサになりかねないので、早急な対策を打つべきである。

参考文献（reference）

0）橋本環奈の幼少期

1）This AI learnt language by seeing the world through a baby's eyes

2）オペラント条件づけ学習

この記事が気に入ったらサポートをしてみませんか？