見出し画像

画像認識AI YOLOの歴史

YOLOとは

AIの力で画像内の映っているものを分類し、それが何かを類推することが出来る技術です。YOLOは"You Only Look Once"を意味し、「一度見れば何が映っているか分かるよ」というメッセージの略となっています。

元々、YOLOは "You only live once"「人生は一度きり」という意味のワードでもあります。下画像は米ドラマ The Office のワンシーンより。今は亡きスティーブ・ジョブスのiPhoneのお披露目プレゼンで「動画も見れるんだぜ!」と言って再生したのもThe Officeのオープニングでしたね。

The Office

物体検出のライブラリとしてはYOLOしかない…というわけではなく、Meta社のDetectron2など様々なライブラリがあります。


改めてYOLOの歴史 (2024.3)

2015年に米ワシントン大学のチームが研究論文を発表、ライブラリとして公開しました。
https://arxiv.org/abs/1506.02640
https://pjreddie.com/darknet/yolov1/

軍事利用を懸念した開発者がVersion3で開発停止

Version2、Version3とリリースがあった後、
開発のリーダーをしていた Joseph Redmon氏 (当時アカデミックな環境にいた模様) が、軍事利用およびプライバシー侵害に懸念を示し離れることになったようです。


「Pytorch版 YOLO version3」を実装をしていたGlenn Jocher氏がYOLO version5、YOLOv8をリリース

いきなりversion 8まで飛んでしまうのですが、実質的に2024年時点のYOLO界のキーパーソンの一人と言えるであろうGlenn Jocher氏がMeta社のAIフレームワークである Pytorchを使って「Pytorch版 YOLO version3」をリリースしたということがありました。
当時はversion3、現在は最新版となるYOLOv8系をリリースしており、商用利用を見据えた利用ワークフローも提案しており、ビジネスユースを見据えたものとなっています。
Ultralyticsという組織を立ち上げており、スペインとアメリカにオフィスがあるとのこと。

https://docs.ultralytics.com/integrations/

ライセンスとして企業向けの「エンタープライズ・ライセンス」と、学生や研究者向けの「AGPL-3.0」を設定しています。

オリジナルYOLO系のアップデート版である YOLOv4 をAlexey Bochkovskiy氏がリリース

元インテルのAlexey氏が、アップデート版ともいえるversion4をリリース。さらに、研究論文として Version7 を公開。実装は Kin-Yiu, Wong氏が行ったものがGithubで公開されています。

v4のAlexey氏がversion7を発表、さらにその実装を行っていた台湾研究者がYOLOv9をリリース

台湾の国立研究機関である中央研究院によってVersion9が発表されており、上述Version7を実装した Kin-Yiu, Wong氏によるものがGithubで公開されています。(Kin-Yiu, Wong氏も中央研究院所属の模様)

https://github.com/WongKinYiu/yolov9
ライセンスは GPL-3.0 license となっています。

中国のECサイト・口コミサイトの運営企業である美団がYOLOv6をリリース

ここまでv1~5、v7,8,9と数えてきましたが、v6は中国企業がリリースしました。商品の分類などに利用されているようで、2024年6月時点で Version4までリリースされておりYOLOv6 4.0 というバージョニングになっています。ライセンスはGPL-3.0 licenseです。
https://github.com/meituan/YOLOv6/releases/tag/0.4.0

https://github.com/meituan/YOLOv6


日本進出済みの中国系「顔認証サービス」企業のMegvii TechnologyがYOLOXをリリース

街中のいたるところで顔認証をする機器が置かれていることが多くなりましたが、Face++でおなじみのMegvii Technologyが、Apache-2.0 license でYOLOXをリリースしました。

https://github.com/Megvii-BaseDetection/YOLOX

残念なことに Megvii Technologyのチーフ・サイエンティストだった孙剑氏が2022年に亡くなっており、YOLOXも新たなリリースがない状態です。
同社の上場関係の資料にもバイネームで記載があったほどの主要研究者だった模様。

https://static.sse.com.cn/stock/information/c/202103/bab29f856dc5431d931548cd27304d80.pdf


Megvii Technologyは米国商務省産業安全保障局の取引制限リスト(下記の記事では「ブラックリスト」)に入っており、また国防総省の中国軍事企業リストにも入っています。



中国IT界の巨人、テンセントがYOLO-Worldをリリース

YOLOXの他に中国でいえば「百度」系のPP-YOLO、テンセントの YOLO-Worldがあります。

YOLO-WorldのライセンスはGPL-3.0 license となっています。

中国華中科技大学の YOLOS

日本の複数の大学と協定を結んでいるので比較的有名かも知れません。YOLOSに限らず、コンピュータービジョン系の研究成果も多い大学です。
MIT license で、現在は Hugging Faceにて公開されています。


YOLOの関係者のカンケイ

2023年9月、Google支援でUltralytics による「YOLO VISION 2023」というイベントがあり、YOLOv6の美団から Bo Zhang氏、YOLO-NAS(Neural Architecture Search)という物体検出において精度向上したYOLOをリリースしたDeci社よりJonatan Geifman氏が参加しました。

また Hugging Face より、Merve Noyan氏が参加しており、Transformer モデルに関する発表を行いました。

その前年の2022年のイベントでは、百度のディープラーニングOSSであるPaddlePaddleを使用しているPP-YOLOの研究者も参加したようです。


ライセンス・商用利用に関して

GPL-3.0 や AGPL-3.0、MIT、Apache-2.0が設定してあります。
ライセンスとは何ぞやという方は下記リンクを参照ください。
https://www.tohoho-web.com/ex/license.html

$$
\begin{array}{|l|c|l|} \hline \text{YOLO} & \text{HOME} & \text{ライセンス} \\ \hline \text{YOLOv8} & \text{スペイン・アメリカ} & \text{商用ライセンス or AGPL-3.0} \\ \text{YOLOS} & \text{中国(HUST)} & \text{MIT} \\ \text{YOLO-World} & \text{中国(テンセント)} & \text{GPL-3.0} \\ \text{YOLOv6系} & \text{中国 (美団)} & \text{GPL-3.0} \\ \text{YOLOv9} & \text{台湾 (中央研究院)} & \text{GPL-3.0} \\ \text{YOLOX} & \text{中国(Megvii )} & \text{Apache-2.0} \\ \hline \end{array}
$$

この記事作成時点で最新:YOLOv10

中国の清華大学のチームにより、version10がリリースされています。
ライセンスはAGPL-3.0 license となっており、githubに公開されています。

Ultralyticsが PyPI ( pip install ultralytics) で使えるように取り組み中らしいですが2024年6月時点ではまだのようなので、yolov10リポジトリをクローンし、そこから ultralytics をpip install することで使えます。

wget https://github.com/THU-MIG/yolov10/releases/download/v1.1/yolov10x.pt

git clone https://github.com/THU-MIG/yolov10.git
cd yolov10
pip install .


画像認識AIの活用でお悩みのかた

ありがたいことに画像認識AI技術を使った映像分析の案件を続けて発注いただいております。
もし画像や映像の分析をご希望の方がいらっしゃいましたらお気軽にご相談ください。


この記事が気に入ったらサポートをしてみませんか?