AIリテラシーを向上しよう!⑥

こんにちは。
都内でAIエンジニアとして働いておりますpanyasanです。


今回は、

・”アノテーション"って何?

といった点についてお話していきます。

”アノテーション"って何?

AIは人間が行うタスクを自動化します。

それは、パターン認識の要領で行われ、
AIはトライ&エラーを繰り返しながら最適化されます。

その際に必要不可欠なのが "学習データ"であり、
AIを作ろうとすると少なくとも1000単位の
データが必要となります。

精度の良いAIを作るのに必要となるデータ量は途方もなく、
貴重なはずのデータを無慈悲に食い尽くすAIは
データを食する一種の怪物なのでは?
とさえ感じさせます。

ともあれ、AI精度に関する議論には
"学習データの数"が欠かせません。
データの数だけAIは成長し、仕事の質が向上します。

しかし、今どきデータなんて
ネットを利用すればいくらでも得られます。

私たち人間が情報を得ようとするとき、
多くの場合はまず"ネット検索"をすると思います。
言葉の解説も、画像を使ったものも
最近では動画のものすら、

ネット上には人間の脳限界を遥かに超えた情報量が存在します。

著作権などの問題はともかく、
AIの学習データは作ろうと思えばいくらでも作れる気がします。

しかし、AI開発では必ずといっていいほど
"データ不足問題"が起こります。
それは何故でしょうか?

実はAI開発には素材データでは不十分で
更に"アノテーション作業"が必要なのです。

"アノテーション"とは"対象データ"と"その意味"を紐付けする作業で、
"ラベル付け"とも呼ばれます。

例えば、"りんご" を識別するAIを作るとします。
材料として、ネットから"りんご画像"を大量に集めます。

それらのデータをただ渡すだけでは、
AIは学習を行うことができません。

AIは一種の"関数"ですので、
まずインプットに対するアウトプットの"型"を
こちらで指定しなければなりません。

そしてそれは多くの場合、機械が扱いやすい"数値データ"になります。

りんご検出ではまず
"りんご"を 1
"その他"を 0 
のように"番号"を指定します。

そして、AIがそれらを認識できるように、
画像データに"1"か"0"の番号をラベル付けしてあげます。

そうすれば、AIは
"画像のRGBデータを入力として、ラベルの数字を出力する関数"
として学習することができます。

これが"アノテーション"と呼ばれる作業であり、
AI開発に高い費用がかかる主な原因でもあります。

逆に言えば、我慢して"アノテーション"をしてしまえば、
小型なAIであれば個人でも作ることができます。

Googleの無料サービスであるColaboratoryでは
ディープラーニングに不可欠なGPU(Graphics Processing Unit)
を使うことができるので、
5000枚程度までの画像データを使用したAIなら使用制限内で学習が完了できます。

しかしながら、それが数十万枚にもなると…

"アノテーション"も"AIモデル学習"も気楽には行えなくなります。

因みに、画像データなどの素材だけで行う学習を
"教師なし学習"と呼びます。

アノテーションなしでデータからAIが勝手に学習できる"教師なし学習"が発展すれば、
AIはデータ量に縛られることなく、どこまでも賢くられるのかもしれません。

最後まで読んでいただきありがとうございます。
興味があれば次回も読んでいただけると幸いです。

前回記事はこちらになります。

この記事は「世界一カンタンで実践的な文系のための人工知能の教科書」
参考にしています。

この記事が気に入ったらサポートをしてみませんか?