☆コラムです！ver4.0☆ディープラーニングの歴史（前編）

2020年10月15日 20:29

みんな！ありがとう。ここまで読んでくれてありがとう！

感謝の意味を込めて、ありがとうっていうくらいなら

何か記事にしたほうがいいかなぁって思ってますよっと。

で、お勧めなのはディープラーニングの歴史。

これにしようと思います。

1943年、人間の脳を模したモデルが提唱されはじめ、1957年に、米国の心理学者フランク・ローゼンブラット氏により、人間の視覚や脳の機能を模した「パーセプトロン」が開発され、1回目のブームとなりました。しかし、1960年代に、マービン・ミンスキー氏により「*線形分離不可能な問題を学習できない」弱点を指摘されます。さらに、米国政府が機械学習に対する研究費用を打ち切ったことにより、人工知能への失望感が広がりました。

これにより、1回目のAIブームは急速に勢いを失い、冬の時代を迎えます。

1986年、米国の心理学者デビット・ラメルハートらにより正解データとの誤差の傾斜を計測するアルゴリズム「誤差逆伝播法」が開発され、2回目のブームが起きます。しかし、インターネット登場以前の当時は、機械学習に利用可能なデータが少なかったため、**多層ニューラルネットワークの学習精度がなかなか向上せず、ブームはまた下火に向かいました。

2012年、世界的な画像認識コンペティション「ILSVRC」において、東京大学やオックスフォード大学など名だたる研究機関を抑え、トロント大学が開発した「Super Vision」が圧倒的な精度で勝利を飾り、人工知能研究界に激震を与えました。

トロント大学のジェフリー・ヒントン教授らが開発した「***オートエンコーダ」という技術により、ニューラルネットワーク自身で特徴を捉えることが可能になりました。「Super Vision」にも用いられた、この多層ニューラルネットワークを用いた学習方法は「ディープラーニング」と呼ばれ、3回目のブームのブレイクスルーとなりました。

*ふたつの集合が二次元平面上にあるとき、それらの集合を一本の直線では分離できない場合
**「入力層」「隠れ層（中間層）」「出力層」で構成されるニューラルネットワーク
***ニューラルネットワークの出力層の値が入力層と同じになるように、重みのパラメータを調整する手法

「Pre-train & Fine-tune」は、事前に一般の画像情報を学習させ、それを専門分野の画像に転移して学習させることで、高度な解析を可能にする学習方法です。

「マルチモーダル学習」とは、複数の種類のデータを使ってAIが学習する仕組みのことです。

――山崎
「たとえば、画像と音声とテキストを持ってきます。まず画像は画像で、音声は音声で、テキストはテキストで学習させます。その後、一度学習を止め、それぞれ学習した3つの学習結果をつなげ、再び学習し直し、全体に学習結果（ロス）を返します。
つまり、画像、音声、テキストを、個別・全体両方で学習させる方法です。ディープラーニングは認識精度が高くなっただけでなく、画像や音声、言語といったこれまでの分野間の垣根を取っ払い、自由に行き来することを可能にしたことも大きな貢献だと思います」

参考：https://webtan.impress.co.jp/e/2020/02/20/35332#:~:text=%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%81%AE%E6%AD%B4%E5%8F%B2,-%E7%8F%BE%E5%9C%A8%E3%81%AF%E3%80%81AI&text=%E3%81%93%E3%81%AE3%E5%9B%9E%E7%9B%AE%E3%81%AE%E3%83%96%E3%83%BC%E3%83%A0,%E3%81%AE%E3%83%96%E3%83%BC%E3%83%A0%E3%81%A8%E3%81%AA%E3%82%8A%E3%81%BE%E3%81%97%E3%81%9F%E3%80%82

この記事が気に入ったらサポートをしてみませんか？