ディープラーニング(深層学習)とは？AI・機械学習との違いを簡単に解説

2023年1月16日 12:20

ディープラーニング、AI、機械学習。誰しも、テレビや本で一度は耳にしたことがあると思います。ですがこれらが何を指しているのか、なぜ注目を集めているのか知っている方は少ないのではないでしょうか。本記事ではAIを学んだことがない方向けに、ディープラーニングとは何なのかを簡単に解説します。ディープラーニングと機械学習の違いがわからない方や、ディープラーニングの活用事例を知りたい方も必見です。

ディープラーニングとは？機械学習との違い

ディープラーニングと共によく聞く言葉として、「機械学習」や「AI」などが挙げられます。
AIがどんなものかはなんとなく知っていても、機械学習とディープラーニングの違いを説明できる人は少ないのではないでしょうか。
ここでは、AI・ディープラーニング・機械学習の3つの違いを簡単にわかりやすく解説していきます。

AI・機械学習との違い
AI・機械学習・ディープラーニングの違いを理解するには、まず3つの関係性を知るのが手っ取り早いです。図で表現すると、AI（人工知能）の中に機械学習、その中にディープラーニングが含まれているという関係になります。

AI（人工知能）は、人間の脳の仕組みを再現したシステムのことです。学習したり、情報の中から法則性を見つけ出したりといった脳の動きを、機械を使って再現しようとする技術や取り組みのことをいいます。

AI（人工知能）が人間の脳と同じ動きをするために学習することを、「機械学習」と呼びます。
機械学習では、データの中から特徴をつかんで法則化します。例えば、大量の犬の画像をAIに機械学習させた場合、画像の中から犬の特徴をつかんで法則化するのです。犬の特徴を機械学習したAIは、新しい画像を学習した際、法則にのっとって画像が犬かどうか判断できるようになります。これが機械学習です。

一口に機械学習といっても法則性を導き出す方法はいくつもあり、機械学習の中にも様々な手法があります。ディープラーニングは、機械学習の学習手法の内の1つです。ディープラーニングがどのような学習手法なのか、仕組みを見ていきましょう。

ディープラーニングの仕組み

ディープラーニングとは、ニューロンと呼ばれる脳の神経細胞の構造をモデルにした学習方法のことをいいます。このニューロン（脳の神経細胞）の構造を、ニューラル・ネットワークと呼びます。
ニューラル・ネットワークでは、ニューロン（脳の神経細胞）同士が電気信号を使って情報を伝達します。情報は、入力層→中間層→出力層という順番で処理されています。

他の機械学習とディープラーニングが違う点は、機械学習で必須となる「特徴量」をAI自身が見つけ出せる点です。
特徴量とは、AIが物事を認識・判断するための特徴のことをいいます。
先述の犬の例でいえば、犬を犬として認識するため、耳の有無や鼻の形を特徴量として指定する必要があります。犬の中でも犬種を判別したい場合は、耳の有無や鼻の形ではなく、体の大きさや毛の色を特徴量にするかもしれません。

こうした特徴量の指定を必要とせず、AI自身がどの特徴量を参考にすればいいのか判断できるのがディープラーニングです。特徴量の指定という作業が不要になるため、人の作業負担を減らせるメリットがあります。

ディープラーニングの代表アルゴリズム

ディープラーニングには、いくつものアルゴリズムが存在します。
アルゴリズムとは、「どのようなパターンや特徴を発見して学習するか」という計算方法・やり方のことです。代表的な7つのアルゴリズムをご紹介します。

畳み込みニューラルネットワーク（CNN）
畳み込みニューラルネットワーク（CNN）は、画像の中から特徴を見つけ出すのに特化したアルゴリズムです。人間の視覚を元に考案されたため、神経細胞の動きを真似して対象を認識するようになっています。畳み込みニューラルネットワークでは、「畳み込み層」と「プーリング層」といった層を使って学習を進めます。

「畳み込み層」は画像を特徴ごとに分け、その特徴を強調する層のことです。画像の中から、対象を認識するために必要な特徴ごとに切り分けます。「プーリング層」はダウンサンプリングとも呼ばれ、特徴量を圧縮して不要な計算を減らす層のことです。この2つの処理を繰り返し、AIは画像認識を行っています。

再帰型ニューラルネットワーク（RNN）
再帰型ニューラルネットワーク（RNN）は、時系列データを扱えるようにした機械学習モデルのことです。時系列データとは、時間の経過とともに値が変化するデータをいいます。店舗の売上やWebサイトのアクセス数などが代表例です。

ディープラーニングの他の学習モデルと同じように、再帰型ニューラルネットワークでも入力層・中間層・出力層の3つの層を通して学習を進めます。通常、学習の流れは入力層→中間層→出力層の順に行われます。ですが再帰型ニューラルネットワークでは、入力層→中間層→出力層の順に演算結果を伝えるだけでなく、演算結果を自分自身（中間層）にも入力して再演算を行う特徴があります。

LSTM（Long Short Term Memory）
再帰型ニューラルネットワーク（RNN）には、時系列データが長くなると演算結果がうまく伝達できない弱点があります。この弱点を克服すべく生まれたのが、LSTMです。LSTMは「入力ゲート」「出力ゲート」「忘却ゲート」という3つのゲートを使って学習を進めます。各ゲートが情報量の制御を行うことで、LSTMではある程度長い時系列データも処理できるようになっています。

敵対的生成ネットワーク（GAN）
敵対的生成ネットワーク（GAN）はデータから特徴を抽出して学習し、実在しないデータを生成できる学習モデルです。話題になった、実在しない人物の顔写真を作成できるサイトや、写真を有名画家の画風に似せた絵に変換できるサービスにも利用されています。敵対的生成ネットワーク（GAN）は、「Generator」と「Discriminator」という2つの層で構成されています。この2つは、「紙幣の偽造者」と「警官」の役割に例えるとわかりやすいかもしれません。「紙幣の偽造者（Generator）」は紙幣の特徴を学習し、本物に近い偽札を作ります。一方の「警官（Discriminator）」は偽札を偽物であると見抜き、それによって「紙幣の偽造者（Generator）」はさらに精巧な偽札を作り出します。これを繰り返し行い、敵対的生成ネットワーク（GAN）はより本物に近い偽物（実在しないデータ）を作り出せるという仕組みです。

Dropout
Dropoutとは、ニューラル・ネットワークの「過学習」を防ぐ手法のことです。
過学習とは、ニューラル・ネットワークの構造が複雑化し、汎用性の低い学習モデルを作ってしまうことをいいます。簡単に言うと、情報を丸暗記して出力するような状態が過学習です。
当たり前ですが、丸暗記では同じ問題には正解できても、違った問題が出された時に対応できなくなってしまいます。この過学習の状態を解決するための手法がDropoutです。
Dropoutでは、一定の確率でランダムにニューロンを無視して学習を進めます。
これにより、抜けたニューロンの穴を埋めるようにAIが学習を進め、丸暗記ではない法則性を持った特徴を導き出せるようになります。

ディープラーニングでできること

ディープラーニングを使うと、具体的にはどのようなことができるのでしょうか。
ディープラーニングを活用した最新のAI技術をご紹介します。

画像認識
画像認識とは、画像の中から対象人物や文字を認識する技術のことです。
対象を認識・抽出できるようになれば、Aを含む画像・含まない画像といった振り分けをしたり、Aと似た商品を画像の中から探すこともできます。

画像認識はAIに大量の画像を学習させ、特徴を学ぶという流れで行われます。
例えば、AIに犬の画像を判別させたい場合、AIに大量の犬の画像を学習させます。
ディープラーニング以外の機械学習の場合、人間が犬の特徴を入力した上で学習させるという手間があります。一方ディープラーニングでは、AI自身が特徴を学習するため、特徴を入力する必要がありません。
画像認識は、画像検索や自動運転、工場での製品検査などに活用されています。

音声認識
音声認識とは、人が話した言葉をAIが聞き取って理解する技術のことです。AIは、4つの過程を経て音声を認識します。
（1）音響分析
（2）音響モデル
（3）発音辞書
（4）言語モデル
音響分析とは、音の強弱や周波数などから音の特徴量を抽出し、コンピュータが認識しやすいデータに変換することをいいます。特徴量とは、対象の特徴が数値化されたもののことです。

次に音響モデルでは、音響分析で抽出された特徴量を元にどの音に近いか一致率を計算します。
「ありがとう」と言った場合、「A/R/I/G/A/T/O/U」というように音声を文字とマッチングしていきます。音の最小単位である「音素」に分解するともいいます。

音響モデルで音素に分解したら、データベースから音の組み合わせを「単語化」して音声モデルと言語モデルを結びつけます。

最後に言語モデルで、データベースから単語のつながりを予測し、正確な文章を組み立てます。以上が、音声認識の仕組みです。

自然言語処理
自然言語処理とは、コンピューターを使って人の言葉（テキストデータ）を分析する技術のことをいいます。
言葉は文脈でニュアンスが変わったり、語順によって文章の意味が変わるため、複雑な分析を得意とするディープラーニングの技術が使われているのです。自然言語処理では、文を品詞に要素分解したり、要素をもとに単語同士の関係性を判断するといった手法がとられています。大きく4つの流れに分類できます。
（1）形態素解析＝文を動詞や名詞などの品詞に分解する。
（2）構文解析＝文を主語・述語・目的語にカテゴライズする。
（3）意味解析＝（2）構文解析をもとに、単語同士の関係性を判断する。
（4）文脈解析＝前後の文章においても（1）形態素解析や（3）意味解析を行う。

AIがテキストデータを理解することで、翻訳や文字起こしなど従来の機械学習では難しかった分野でもAIの活用が進んでいます。

ディープラーニングの活用事例

続きは以下、MatrixFlow記事をご覧ください（無料で閲覧できます）。

MatrixFlowでは、世界をつくるAIプラットフォームを一緒につくりあげる仲間を募集しています！！

【会社概要】
株式会社MatrixFlowは、「テクノロジーで世界をつくる」をミッションとするAIベンチャーです。大人から子供、ビジネスマンから学生、デザイナーからサイエンティストに至るまで、様々な人々がAIを活用し、素晴らしい着想を得たり、あっと言わせるクールな活動をすることを支援したいと考えています。その実現に向けた第一歩として、プログラミング不要のクラウド型AI構築プラットフォーム「MatrixFlow」を開発しております。また、様々な会社でのAI活用を推進するためにAIの受託開発・コンサルティング事業も行っております。

【会社情報】
設立：2018年10月
本社：東京都台東区
URL：https://www.matrixflow.net/
事業内容：ビジネスのためのAI活用プラットフォーム「MatrixFlow」の運営、および、AIの受託開発・コンサルティング

この記事が気に入ったらサポートをしてみませんか？