動画を使って物体検知AIをつくる｜第2回：AIの精度を改善してみる

株式会社ヒューマノーム研究所【AI部】

2024年1月25日 09:45

こんにちは！ヒューマノーム研究所・インターンの塩谷です。

この連載では、アメフトの試合動画を学習データとした物体検知AIを、当社が開発する初心者向けのノーコードAIツール「Humanome Eyes」（以下Eyes）を用いて作成する流れをご紹介しています。

前回の記事ではアメフトの試合動画の中からボールを検知するAIを作成しましたが、正答率は10％にも及びませんでした。そこで今回は精度が上がらなかった原因を考察し、精度の高いモデルの作成を試みます。

前回の記事をまだお読みでない方はこちらからぜひお読みください！

1. 前回のモデルの概要

前回のモデルでは数秒のアメフトの試合動画を学習データとして画像の中からボールを検知するモデルを作成しました（図1）。

その結果、学習回数が十分であった場合でも正答率は10%にも届きませんでした（図2）。

2. 物体検知の仕組みとピクセル

先ほどのAIモデルは、人の目であれば簡単に判別できるような物体を、なぜ検知できなかったのでしょうか。その理由は物体検知の仕組みにあります。

そもそも、コンピュータは人間のように画像を全体のまとまりとして見ることができません。画像はピクセルという小さな四角い点の集合で構成されており、「どこのピクセルが何色であるか」という情報をコンピュータは受け取っています（図3）。

物体検知は図4のように各ピクセルの色の数値に対して計算を行い、判別を行っています。なので、ピクセル数が多い画像ほど特徴を捉えやすくなり,
（その分時間はかかりますが）精度が高くなる傾向があります。

今回用いた画像は1920 × 1080のピクセルで構成されており、画像全体のピクセル数は十分といえます。一方で、今回検知の対象にしているボールは画像の中で小さく、ボールの色の情報が含まれたピクセル数自体は約80×60と少ないです。（図5）。

したがって、今回のモデルで精度が出なかったのは、検知対象である物体のピクセル数が少なく、特徴量を十分に抽出できなかったと考えられます。

3. 新しいモデルの作成と精度の検証

前項の考察を踏まえて、画像の中で占めるサイズが大きい物体に対して物体検知を行ってみます。

今回はパイロンと呼ばれる、ゴールラインを示す標識を検知対象とします（図6）。これなら画像内で占めるサイズが大きく、ピクセル数が十分なため、高い精度が得られるはずです。

学習データと学習回数は前回から変えずに学習を行いました。図7に結果を示します。Precisionが約65%、Recallが約72%と比較的高い精度が出ていることがわかります。

また、検知結果（図8）を見ても十分な精度でパイロンを検知できていることがわかります。

4. まとめ

今回の記事では、前回作成したボールを検知するモデルの精度が上がらなかった理由を考察しました。

考察を踏まえて、検出対象を画像内でのサイズが大きいパイロンにし、精度を検証した結果、65％以上の正答率を得ることができました。精度向上のためには画像の中に占める検出対象の物体の大きさ（ピクセル数）が重要なことがわかりました。

もしボールのように画像内でのサイズが小さい物体を検知したい場合は、ピクセル数が多いカメラを使用する必要がありそうです。（とはいえ、ピクセル数の多い動画は、その分学習時間がかかるので注意が必要です。）

ここまでお読みいただき、ありがとうございました！

※ 筆者紹介
塩谷明日香（慶應義塾大学環境情報学部3年）：VRを使ったスポーツトレーニングに興味があります。大学ではタッチフットボールに熱中しています。機械学習やプログラミングは一昨年から学び始めました。
---
私たちはワークショップのTA目線でのレポートや、機械学習ツールの使い方の紹介記事を執筆しています。今後も、AI構築の実際についてご紹介していきますので、お読みいただけると嬉しいです！

表データを利用したAI学習テキスト（Humanome CatData）

画像・動画を利用したAI学習テキスト（Humanome Eyes）

AI・DX・データサイエンスについてのご質問・共同研究等についてはお気軽にお問い合わせ下さい！

この記事が気に入ったらサポートをしてみませんか？