スタンフォード大学 コンピュータビジョン 01

*本noteはぼくのメモ書きです。


■Chap 00シラバスとかコースの概要とか

画像認識のお勉強を始めます。このnoteはメモがわりです。勉強の対象はこちらのスタンフォード大学の講義になります。http://cs231n.stanford.edu/syllabus.html
まず、Lectureの中身を入っていく前に、ざっとシラバスを見たりしていきます。
この講座は、Lecture 1 ~ 18くらいまであってhttp://cs231n.stanford.edu/syllabus.html、一週間にだいたい2回授業があります。内容はタイトルだけ見ると畳み込みニューラルネットを使った画像認識なのですが、もう少し詳しく見たいところです。

次にコース概要を見ます。以下まるまる引用します。

Course Description

Computer Vision has become ubiquitous in our society, with applications in search, image understanding, apps, mapping, medicine, drones, and self-driving cars. Core to many of these applications are visual recognition tasks such as image classification, localization and detection. Recent developments in neural network (aka “deep learning”) approaches have greatly advanced the performance of these state-of-the-art visual recognition systems. This course is a deep dive into details of the deep learning architectures with a focus on learning end-to-end models for these tasks, particularly image classification. During the 10-week course, students will learn to implement, train and debug their own neural networks and gain a detailed understanding of cutting-edge research in computer vision. The final assignment will involve training a multi-million parameter convolutional neural network and applying it on the largest image classification dataset (ImageNet). We will focus on teaching how to set up the problem of image recognition, the learning algorithms (e.g. backpropagation), practical engineering tricks for training and fine-tuning the networks and guide the students through hands-on assignments and a final course project. Much of the background and materials of this course will be drawn from the ImageNet Challenge.

日本語訳すると、


・背景:画像認識は様々な分野で使われるようになりました。(アプリ、マップ、医学、検索、ドローン、自動運転など)
 これら中核となる技術は画像の分類(image classification)、位置特定(localization)、検出(detection)などの、画像認識タスク(visual recognition tasks)です。*日本語訳で適切な言葉があって、この翻訳が間違っていればすみません。
・内容:画像分類のエンドツーエンドモデルの学習に重点を置いて、ディープラーニングアーキテクチャを説明。10週間で、自分のニューラルネットワークを実装したり訓練したり、デバッグすることや、最先端の研究についても学びます。
・宿題:最終課題には、数百マンのパラメータの畳み込みニューラルネットワークの訓練と、画像分類のデータセットへの適用が含まれます。

ということで、たったの10週間で結構なことを学ぶようです。
ぼくはついていけるかわかりません。(多分無理だろうな〜🌀)

Syllabus

さて、シラバスに戻ります。
大事なところだけ言うと、

・image classification 画像分類
・loss functions and optimization 損失関数と最適化
・neural networks and backprobagation ニューラルネット逆伝播法
・CNN 畳み込みニューラルネット
・Deeplearning, Hardware and Software 深層学習 ハード
・Training Neural Networks I , II ニューラルネットの訓練
・CNN アーキテクチャ
・RNN
・Generative 生成モデル
・Detection and Segmentation
・Visualizing and Understanding
・Fairness Accountability Transparency and Ethics in AI
・Human - Centered Artificial Intelligence 人間中心のAI
・Deep Reinforcement Learning
・Scene Graphs

だそうです。これを10週間で・・・。しかも、書いていませんが適宜テストがあったり、提出するものがあったりします。大変ですね。
さて、日本語書いていないところはあまりわからなかったので調べます。

・Detection and Segmentation
 Segmentationは領域分割と言う意味で、画像を入力としてピクセルレベルで領域を分割しラベルを付けていくタスクとのこと。もう少しいうと、画像上の全てのピクセルをクラスに分類するSemantic Segmentation、物体ごとの領域を分割し、かつ物体の種類を認識する、Instance Segmentation、それらの組み合わせのPanoptic Segmentationというタスクに大分されるとのことです。なるほどーむずかしいなー。Detectionはあまり調べてもでてこなかったので、まあ画像をみつける、と言うような多分間違った理解だけど、要はやりたいことはこの分割だろうので、こんなところまでの理解に留めておくよー🔥


 
・Fairness Accountability Transparency and Ethics in AI
 もはや、英語しか出てこなかったけど、この文章が意味するものは頭文字を取って、FATEと呼ぶらしいよー。AIや機械学習を使うに当たって、システムの透明性、説明責任、公平性をクリアにしていく必要があって、その取り組み意味、意義はもちろん、その具体的な事例を紹介するのかなー。

・Deep Reinforcement Learning:深層強化学習
 これの理解には強化学習が必要です。
 *強化学習とはシステム自身が試行錯誤しながら、最適なシステム制御を実現する。自律的な制御を可能にする。
 深層学習は自律的な特徴抽出を可能にします。それを組み合わせるので、自律的な特徴抽出と自律制御を組み合わせたものが深層強化学習と言えるのではないかなと。まあわかったような、わからないようなだけど、まずはこのくらいで許して欲しいな〜🔥

・Scene Graphs
 これも日本語がないよー。ウィキペディアによると、general data structure commonly used by vector-based graphics editing applications and modern computer games,・・・とあるので、まあ一般的に広く使われているデータ構造ということかな。なにに使われているかと言うとアプリケーションとか、ゲームとか、だと思うなあ🔥

以上がシラバスだよー!
まとめると、一般的なコンピュータビジョンは授業で学びつつ、関連する課題などを提出するという話だったね。まあそりゃそうかー。続いて早速レクチャーに入るね!

■Lecture 01①CNN for 画像認識

・コースのTAとか、インストラクターの紹介。
・事例の紹介
・問題の紹介
オブジェクトの検出、画像のキャプション、セマンティックセグメンテーション、視覚的な質問応答、視覚的な指示ナビゲーション、シーングラフの生成など、画像の分類に関連する多くの視覚認識の問題があります。

・認識の種類
 object detection - 車を認識したり 
 action recognition bicycling - 時系列
 Visual relationship detection - 人がもっている、ハンマーを

・コアアイデアの歴史
 1957 : 20 20 400ぴくせつのカメラで画像認識 
 1998:10^6
 2012:10^9
・様々な出来事
 scene graphs
 segmentation 2D, 3D generation
・授業の運営
 slackとか、pizza とか

■Lecture 01②コンピュータビジョンの歴史

・コンピュータビジョンはいろんなことが関係している
 学問の分野:ニューロサイエンス、コグにティブサイエンス、グラフィクアルゴリズムサイエンス、システムアーキテクチャ、DL, MLロボット、NLP
 コンピュータビジョンの分野:Object detection, Object classification, Scene understanding (シーンの理解) Semantic scene segmentation、・・・などなど

画像

http://cs231n.stanford.edu/slides/2020/lecture_1_feifei.pdf

・進化の歴史:
 カメラも進化の一つ。これらはどこからきたのか?
 →Neuroscience inspired AI 
「問題の単なる定式化は、その解決策よりもはるかに重要であることが多く、創造的な想像力を必要とし、科学の真の進歩を示します。
・進化の過程
 input image まずは写真をinput
 edge image 外径線をスケッチ
 2 1/2 - D 1sketch 物体だけ取り除く、
 3D model そして3-Dモデルへ
・事例
 顔認識
 single object recognition
・Image net
・深層学習革命の紹介
・AI の伸びの紹介

まあこんなところでおしまい🔥

当「大予想」がお役にたちましたら、サポートして頂けますとモチベーションに繋がる上に、凄く嬉しいです。 ご購入者様に、お役立て出来ます様に、精一杯頑張らせて頂きますのでよろしくお願いします。