いろんなモデル

2021年1月7日 16:38

MobileNet

モデルサイズが小さく計算量が少ない
通常のConvolutionの場合、入力チャンネル3から出力チャンネルを10とする場合、最終的にパラメータが270となるところ(3×3×3×10)、MobileNetで使われるDepthwise Separable Convolutionの場合は2段階のConvolutionを行ってパラメータ数を抑えることができる（表現力は下がる）

①depthwise convolution
　3枚の入力チャネルに対して、3枚のフィルタのみを用意して、3枚の画像が生み出される（重みは3×3×3）
②pointwise convolution
　上記画像に対して、チャンネル数10の画像を生み出すために、1×1×3のフィルタを10セット用意してチャンネル数10の画像を生み出す（重みは1×1×3×10）
結果としてチャンネル数は10となったものの、重みの数は57

DenseNet

ResNetに類似しているが、後に続くすべてのブロックにかかっていく（複数のショートカットコネクションがある）
▼成長率（Growth rate）
　ハイパーパラメータkという、各ブロック毎にk個ずつチャネル数が増加していく
▼勾配消失の削減
▼特徴伝達の強化

Pix2Pix

スタイル変換を行う手法（生成モデル）
Conditional-GAN（学習する際にラベルも考慮）の一種
▼画像から画像を作成
　inputで使った画像を生成器（ジェネレーター）を通した後にfakeとrealそれぞれのペアにして分類器（ディスクリミネータ）に掛ける
▼生成器（ジェネレーター）ではU-Netを使う

WaveNet

WaveNet：Convolutionを用いた音声生成（音声：時系列データ）
音声波形をx = {x₁、x₂、…、xt}とすると、
　　　　　　　T
結合確率P(x) = ΠP(xt | x₁、x₂、…、xt-₁)
　　　　　　　t=1
※後半部は、前の時点の全てのサンプルに条件づけられるという意味
▼Causal Convolution
▼Dilated Causal Convolution(WaveNetではこっちが使われる)
　Dilation1は全てDilation2は2つに1つ、Dilation4は4つに1つ利用していく

この記事が気に入ったらサポートをしてみませんか？