見出し画像

LSTM

一見すると、RNNは時系列データを分析するのに十分と思えるのですが、実はいくつか厄介な問題を抱えている。
1つ目、通常のニューラルネットワークでもあった勾配消失問題。
RNNは時間軸を展開すると深いニューラルネットワークになるので、誤差を逆伝播する際、過去に遡るに従って、勾配が消えてしまうという問題が生じる。

また、時系列データを扱う上で、固有の問題も発生する。

リカレントニューラルネットワークのBPTTでは、過去の出力に遡って重みを更新するため、勾配消失が起こりやすいという問題が生じる。

また、過去の出力が「現時点のデータへの影響は小さい(重み→小)」が、「本来のデータに与える影響は大きい(重み→大)」という場合、重みの設定に矛盾が生じる(重み衝突)。

こうした問題を回避するために考案されたのが、LSTM(Long Short Term Memory)。

LSTMでは、隠れ層のユニットにLSTMブロックと呼ばれる機構を導入し、時系列情報を保持する。

CEC(Constant Error Carousel)は、セルとも呼ばれ、誤差を内部にとどめて勾配消失を防ぐ。また、入力ゲートと出力ゲートはそれぞれ入力重み衝突に対応し、忘却ゲートは過剰な誤差をリセットする役割を持つ。

ディープラーニングの手法

■カプセルネットワーク従来のニューラルネットワークが全体をその大きさで見ていたのに対して、カプセルネットワークでは特徴ごとにベクトルで見る。「カプセル」とは、オブジェクトの情報を意味していて、どんな形でどの位置に存在するのかを示す。カプセルネットワークは、動的ルーティングという手法を使い、「このカプセルの情報は次のレイヤーのどのカプセルに受け渡すべきか」ということを決める。カプセルネットワークは、画像認識におけるCNNの、プーリング処理のため、特徴の位置関係の情報を捉えられない、という課題を解決することなどを目指して開発された。カプセルネットワークは、ニューラルネットワークの技術を超える新技術なのではないかと期待されている。ディープラーニングの第一人者である、ジェフリー・ヒントンによって提案された。
■AutoML(AutomatedMachineLearning、自動化された機械学習)
機械学習のプロセス自動化することを目的とした技術であり、データの取得、前処理、ハイパーパラメータチューニング、特徴抽出から予測モデルの作成といった、あらゆるプロセスを自動化している。
■NAS(NeuralArchitectureSearch、構造自動探索)
ニューラルネットワークのネットワーク構造の設計や、ハイパーパラメータの最適化を自動でする手法。AutoMLでも活用されている。
■NASNet
NASを強化した手法であり、CNNの畳み込みやプーリングをCNNセルと定義し、アーキテクチャを探索し、最適化する。
■MnasNet
モバイル向けの機械学習モデルを自動設計する手法。モバイル向けの機械学習モデルは、モデルサイズを小さくしつつも高速かつ高精度なものが求められるため、自動設計のニーズが高い。■BRNN(BidirectionalRNN、BidirectionalRecurrentNeuralNetwork)
中間層の出力を、未来への順伝播と過去への逆伝播の両方向で伝播するネットワーク。(通常のRNNは、中間層の出力を順伝播のみするネットワーク)
■BLSTM(BidirectionalLSTM、BidirectionalLongShortTermMemory、双方向LSTM)
中間層の出力を、未来への順伝播と過去への逆伝播の両方向で伝播するネットワーク。(通常のLSTMは、中間層の出力を順伝播のみするネットワーク)同様の動作をするBRNNに比べ、長期記憶ができるという特徴がある。
■GRU(GatedRecurrentUnit、ゲート付き回帰型ユニット)
LSTMをシンプルにしたモデルで、入力ゲートと出力ゲートをひとつにまとめ、かつメモリセルの廃止し、その代わりに、更新ゲートとリセットゲートという2種類のゲートで構成している。
更新ゲート:過去の情報をどれだけ取り込むかを決定する
リセットゲート:過去の情報をどれだけ捨てるかを決定する
ゲートの数を削減したことで、計算コストの削減を実現している。
■Depthwise畳み込み(DepthwiseConvoLution)
ニューラルネットワークの計算量を削減するために考案された、レイヤー方向の次元を削減する手法。各層ごとにチャネルごとに空間方向の畳み込みを行う。
■Dilationconvolution(DilatedConvolution)
隙間の空いた歯抜けのフィルタで畳み込む手法。Dilationconvolutionを使うことで、プーリング層を使わずに畳み込むことができるため、画像のサイズが小さくならない。DeepLabではAtrousconvolutionと呼ばれている。
■DeepLab
Googleが公開した、画像をピクセル単位で意味的に分割する、セマンティックセグメンテーション手法。
■UNet
物体の局所的特徴と、全体的位置情報の、両方を統合して学習させるために開発された、U字型のニューラルネットワーク。UNetは、エンコーダとデコーダの間にスキップコネクションを備えている。
■スキップコネクション(SkipConnection、スキップ結合、スキップ接続、ショートカット接続)2つの層と層とを層を飛び越えて結合させることで、層が多重になりすぎることによる性能の低下や、誤差の逆伝播がしにくくなるといった問題を回避した。
■Attention層
RNN層で時間関係を学習する際に、時系列パターンの重要度を加味する層。
■TD学習(時間的差分学習、TemporalDifferenceLearning)
強化学習の1つであり、モンテカルロ法と動的計画法(DP)の考え方を組み合わせた手法。
■アクタークリティック法(ActorCritic法)
強化学習の1つであり、アクター(Actor、戦略担当)とクリティック(Critic、価値評価担当)を相互に更新して学習する手法。記録されたアクターの行動から、クリティックが最適な方策を求める。
■A3C(AsynchronousAdvantageActorCritic)
2016年に発表された強化学習のアルゴリズムであり、DQNの発展系の手法と、並列化の流れとを合わせた手法。A3CはDQNの次の世代の手法として注目を浴びている。
■エンコーダ
データを一定の規則に基づいて特定の符号(コード)に変換する、装置やソフトウェアのこと。
■デコーダ
エンコーダとは逆に、一定の規則や方式に基づいて符号(コード)の集まりに変換されたデータに対し、符号化時とは逆方向の変換を行い、元のデータを復元する装置やソフトウェアのこと。
■モメンタム
重みの修正量に、前回の重みの修正量のいくらかを加算することで、収束性能を向上する方法。
■Earlystopping
学習が進んで精度の向上がこれ以上見込めないとなったら、そこで学習を止める手法。過学習を防止できる。シンプルな手法であり汎用性が高い。
■pix2pix
パラメータからいきなり画像を生成するのではなく、画像から画像を生成する手法。この手法によって、白黒画像からカラー画像を生成したり、航空写真から地図を生成したり、輪郭だけの画像に色を付けたりできる。
■DCGAN(DeepConvolutionalGAN)
ランダムな数値の入力値を元に、DeepCNNを介して画像を生成する手法。画像生成を目的としたあらゆるGANのベースとなっている。
■cGAN(ConditionalGAN)
入力する画像と共にラベル情報を追加することで、任意の条件の画像を生成できるGAN。
■InfoGAN
生成画像の中で利用価値の高い特徴を勝手に学習するGAN。cGANのようにラベル付けをしたデータの準備は不要。
■CycleGAN
GANでスタイル変換(ウマの画像をシマウマのように変換するなど、画像データの見た目の特徴を変換)する手法。pix2pixでは綺麗に輪郭が揃っているペア画像のみが変換可能だったが、CycleGANでは形状や位置が不揃いでも変換が可能である。ただし、データセットとして大量のペア画像(形状や位置はバラバラでよい)を用意する必要がある。
■正規分布
左右対称の連続型の確率分布のこと。ガウス分布とも呼ばれる。
平均をμ,分散をσ2>0とする正規分布とは、確率密度関数が以下の式で与えられる確率分布のことである。以下の式で定義される。

ここから先は

2,363字 / 1ファイル

¥ 100

期間限定 PayPay支払いすると抽選でお得に!

この記事が気に入ったらサポートをしてみませんか?