YOLOv10について

  • NMSフリートレーニング: YOLOv10では、従来のNMS(非最大抑制)を使用せずに、各オブジェクトに対して1つのバウンディングボックスを割り当てる手法が導入されました。NMSは検出されたオブジェクトの重複バウンディングボックスを削除するための後処理ステップですが、計算コストが高くなります。NMSフリートレーニングでは、一貫したデュアルアサインメントを用いることで、トレーニングと推論の両方で各オブジェクトに一意のバウンディングボックスを割り当てます。この手法により、NMSの後処理ステップを省略でき、推論時間が短縮されます。

  • 空間チャネル分離ダウンサンプリング: 標準的なYOLOモデルでは、3x3の畳み込み層を用いて空間次元とチャネル次元を同時に調整しますが、これには高い計算コストが伴います。YOLOv10では、空間次元とチャネル次元の操作を分離し、効率的なダウンサンプリングを実現しています。具体的には、1x1のポイントワイズ畳み込みを用いてチャネル次元を調整し、3x3のデプスワイズ畳み込みを用いて空間次元を縮小します。この方法により、計算効率が向上し、リアルタイムアプリケーションに適したモデルとなります。

  • ランク誘導ブロック設計: YOLOv10では、ネットワークの各ステージでの冗長情報を減らすために、ランク誘導ブロック設計が導入されました。各ステージの最終畳み込み層の内在ランクを分析し、冗長性が高いステージにはコンパクトインバーテッドブロック(CIB)を使用します。これにより、無駄な情報を減らし、モデルの効率と性能が向上します。

  • 軽量化された分類ヘッド: YOLOv10の分類ヘッドは軽量化され、計算負担を減らしながら精度を維持しています。分類ヘッドは、検出されたオブジェクトにラベルを割り当てる最終レイヤーであり、この軽量化により、全体的な推論時間が短縮されます。

  • リアルタイム適用性の向上: 上記の新機能により、YOLOv10はリアルタイムアプリケーションに適した高速かつ効率的なオブジェクト検出モデルとなっています。これにより、推論時間が短縮され、計算資源が効率的に使用されるため、パフォーマンスが向上しています。

この記事が気に入ったらサポートをしてみませんか?