見出し画像

不要なデータは、取る必要ない。

こんにちは、チームDACOVAです。
本日は、中の人のつぶやきということで、
チームDACOVAの中の人(私)視点で記事を書かせていただきます。

物書きのプロではないので乱文になってしまうと思いますが、
大目に見ていただけると幸いです。
今回、私視点で書かせていただくのが初めてなので、まずはじめに簡単に
自己紹介をさせていただきます。

私がテクニカへ入社したのは約2か月前の2021年6月です。前職では異業種のメーカーで開発、設計、生産技術等を約8年間担当していました。
そんな技術者の端くれとしてキャリアを少しは積んできたであろう私と話をした社長は、「AIの技術営業をやってほしい」と面接で言い残し、
今に至ります。
※今に至るまでの話については長いので省略します。。。


そんなAI初心者の私ですが、約2か月の間、業務を通じてAIについて知識を少々蓄えた結果、「何をするにもデータ取得って重要だよね」と
考えるようになりました。

データ取得の立ち位置とは?

「データ取得」というと、「データを取り忘れると後で大変なことになるから」といって片っ端からデータを取ってみたり、「あのデータってあるんだっけ?じゃあ大丈夫だね」と言ってデータまとめをしないで放置してしまうといったことは、技術者の方は特に経験があるのではないでしょうか。(私も自分で書いていてとても耳が痛いのですが。)

確かにデータを取得することは重要で、データがなければ実験をしても結果をエビデンスとして示すことができません。そのため大概の場合、上司や先輩は口をそろえて「データは取れるだけとっておいて」といいます。

では、それは片っ端からデータを取得すればいいという意味かと聞かれると、そうではありません。データは「いつ何をしたときに取得したどの種類のデータ」であるかラベル付けされ、かつ偏らずまんべんなく取得される必要があり、それらを適切な方法で解析する等して活用されるべきものです。

例えば、ある装置の内部の温度の挙動を知るためにデータを取得したとしても、そのデータにラベル付けがされていなければ「何をしたときの温度」なのか、「どの場所の温度」なのかわからなくなり、本当に欲しいデータとして使えなくなってしまいます。また、ラベル付けが正しく行われていた場合、装置中央部温度データのみをたくさん取得しても、装置端部の温度データが取得されていなければ装置内部全体の温度挙動を確認することはできません。

AIとデータ取得の関係

AIを活用する場合でもデータに対する考え方は同じです。AIに学習させるためにたくさんデータを取得したとしても、そのデータが正しくラベル付けされていなかったり、偏っていればそのデータは使い物にならなくなります。AIを「異常検知」に使用したい場合も、良品か不良品かわからないデータをたくさん学習させても、誤検知ばかりするAIに育ってしまいます。

まとめ

社会人1年目の夏、当時の指導員だった先輩から「不要なデータは、取る必要ない。」と言われたのを私は今でもよく覚えています。理由は、「データは取り忘れると、取れなくなるから、抜け漏れがないようにしっかりデータを取っておかないとだめ。」というようなことを口酸っぱく言われていたためで、この一言は当時の私にはかなり衝撃的でした。

ただ、この一言は裏を返せば「適切にデータを適切な量取得し、かつラベル付けしなければ、取得したデータは不要と判断され、手間や工数も無駄となる」ということだったのかな、と今になってやっと理解できるようになりました。

私もこれまで散々失敗を繰り返してきて今に至っているので、あまり大きいことは言えませんが、この記事の執筆を機に、もう一度データの取得について見直していきたいなと考えています。