見出し画像

G検定トレーニング

## AI(人工知能)とは(人工知能の定義)

■ダートマス会議(DartmouthConference)

1956年7月から8月にかけて開催された、AI(人工知能)という学術研究分野を確立した会議。AI(ArtificialIntelligence、人工知能)とは、ダートマス会議にて、AIの研究者であるジョン・マッカーシーが初めて使用した用語。

■AI効果

AIの原理がわかってしまうと、「これは単純な自動化であり知能とは関係ない」と結論付けてしまうこと。

■ロジック・セオリスト(LogicTheorist、ロジックセオリスト)

1955年から1956年にかけて開発された、人間の問題解決能力を真似するように設計された世界初のプログラムであり、「世界初の人工知能プログラム」と称された。数学の基礎に関する著作であるプリンキピア・マテマティカの冒頭の52の定理のうち38を証明し、さらに一部の定理についてはより洗練された証明方法を発見した。

■第五世代コンピュータ

日本が1982年から1992年にかけて進めた国家プロジェクト。AI(人工知能)コンピュータの開発を目的としており、「非ノイマン型計算ハードウェア」、「知識情報処理ソフトウェア」、「並行論理プログラミング言語」を三本柱としていた。プロジェクトの成果は芳しくなかったものの、情報工学の後進育成に寄与したという意見もある。なお、第五世代より前の世代については、それぞれ第一世代(真空管)、第二世代(トランジスタ)、第三世代(集積回路)、第四世代(大規模集積回路)で作られたコンピュータを指す。

■ビッグデータ

一般的なデータ管理・処理ソフトウェアでは扱うのが困難なほど、大容量かつ複雑なデジタルデータ集合のこと。ビッグデータは、ビジネスや医療、自動運転、気象予報、犯罪予防など、世の中のありとあらゆる用途で活用できる。用途の多様性に比例するように、情報の収集、取捨選択、保管、検索、共有、転送、解析、可視化など、ビッグデータには様々な課題がある。なお、どのくらいのデータ量からビッグデータと呼ぶかという明確な定義はありません。2020年時点では数十テラ~ペタオーダが目安とされていますが、技術が進歩するにつれてこの目安も変わっていくと考えられます。

## AIをめぐる動向

■ノーフリーランチ定理

あらゆる問題において、高性能を発揮する汎用最適化戦略は、理論上不可能という定理。

■みにくいアヒルの子定理

客観的な立場からは、どんなものを比較しても、同程度に似ているだろうという定理。醜いアヒルの子を含むn匹のアヒルがいるとした時、醜いアヒルの子と普通のアヒルの子の類似性は、任意の2匹の普通のアヒルの子の間の類似性と同じであると、日本の理論物理学者、情報科学者である渡辺慧が証明した。

■グルーのパラドクス(グルーのパラドックス)

帰納法にまつわるパラドクス(背理、逆理、逆説)。ある法則や命題の正しさを確証するため、データや事例を枚挙し、それを証拠とする帰納法を破綻させるパラドクスのこと。

■QuestionAnswering(質問応答システム)

ユーザから自然言語で質問を受けつけ、その解答を自然言語で返すようなコンピュータソフトウェア。IBMが開発したワトソンが有名。

■MobileNet

スマートフォンなどの小型端末にも乗せられるよう、計算量削減を目的としたモデルであり、DepthwiseSeparableConvolutionを用いることで、通常のCNNと比べて軽いネットワークを構築することができる。

■DepthwiseSeparableConvolution

通常の畳み込み(Convolution)を空間方向の畳み込み(DepthwiseConvolution)と、チャネル方向の畳み込み(PointwiseConvolution)の2つに分けることで、パラメータ数を削減したもの。

■ミニマックス法(Minimax)

相手が自分にとって損害が最大の手を選択してもその損害が最小になる手を選択する手法。自分と相手の双方が最善を尽くしたとして、それでも自分にとって最も有利になる手を選ぶ。この手法ではゲーム木を使用する。○×ゲームやチェス、オセロなどのボードゲームで活用できる。本手法の探索量をできるだけ減らす手法に、アルファ・ベータ法がある。

■アルファ・ベータ法(Alpha–betapruning,αβ法)

基本的にミニマックス法と同じであり、同じ計算結果が得られるが、ゲーム木において、計算しなくても同じ計算結果になる部分を枝刈りすることで、探索量をできるだけ減らす手法。

■ゲーム木

現在の局面から出現するすべての局面を、木構造で表現したもの。

■意味ネットワーク

人間が意味を記憶する時の構造を表すためのモデル。単語同士の意味関係(例えば、isa関係やpartof関係)をグラフ構造で表したもの。第2次AIブームではいかにコンピュータに知識を与えるかが課題となり、この意味ネットワークが提案されたが、作成には膨大な労力が必要になることが課題であった。

■データマイニング

膨大なデータに対して、統計学、パターン認識、AIなどのデータ解析技術を駆使することで、知識をマイニング(採掘)する技術のこと。マイニングした知識は、経営やマーケティングなどに活用できる。近年ビッグデータが注目されているが、ビッグデータを有効活用する方法として、データマイニングにも注目が集まっている。

■ウェブマイニング

ウェブ上のデータやコンテンツ、テキストの情報をマイニングには膨大なデータが必要となるが、ウェブ上にはテキストや動画など、マイニングに使えるビッグデータが多くあるため、ウェブマイニングと相性が良い。ウェブマイニングによって商品の評判を調査したり、新たなニーズの発見などに活用できる。

■スパムフィルター

受信した電子メールを解析し、スパムメール(迷惑メール)であるかどうかを判定する仕組みのこと。スパムメールと判定されたメールは通常の受信フォルダには振り分けられず、迷惑メールフォルダに振り分けるなど、メーラーの設定に応じて処理をすることができる。

ことができる。スパムメールかどうかの判断は、本文や送信元IPアドレスなどの情報からコンピュータが自動で判断してくれる。AIが活躍している分野の1つである。

■アナログデジタル変換(AD変換)

アナログ信号をデジタル信号に変換する処理。<変換するデータの例>音声電圧重さ時間

■パルス符号変調(PulseCodeModulation、PCM、パルス符号変調器)

音声などのアナログ信号をデジタル信号に変換する方式の一種で、アナログ信号に対して標本化および量子化を行い、数列として出力することでデジタル信号にする。サンプリング周波数が高く、量子化ビット数が多いほど変換前に近い音質(高音質)となる。

■サンプリング周波数

アナログ信号からデジタル信号に変換する際、単位時間あたりに何個のデータ(標本)を抽出(サンプリング)するかを表す数値。単位はヘルツ[Hz]。サンプリング周波数の大きさによって、変換した音声データの音質が決まる。

CD(コンパクトディスク)のサンプリング周波数は44.1[kHz]で、これは1秒間に4万4100個のデータを処理していることを表す。この周波数より高い96[kHz]や192[kHz]などの音源は「ハイレゾリューション」とよばれる。デジタル信号は、サンプリング周波数の2分の1まで再現できる(これをサンプリング定理という)ため、その数値が高いほど音質は良くなる。

■サンプリング定理(標本化定理)

アナログ信号をデジタル信号に変換する際、元の信号の最大周波数の2倍のサンプリング周波数で標本化すれば、デジタル信号からアナログ信号に完全に復元できることを示した定理。

■ナイキスト周波数

アナログ信号をデジタル信号に変換する際のサンプリング周波数の、1/2の周波数のこと。デジタル信号をアナログ信号に復号する際、ナイキスト周波数以下の周波数成分は忠実に復元できる。

■フーリエ解析

フーリエ級数、フーリエ変換(フーリエ積分)などを活用して、複雑な関数を周波数成分に分解してより簡単に記述する手法・概念。

■高速フーリエ変換(FastFourierTransform、FFT)

時系列に並んだデジタル信号の標本列を周波数成分の集合で表す離散フーリエ変換(DiscreteFourierTransform、DFT)を、コンピュータで高速に計算する手法。画像や音声、映像など、様々な処理で多用されている。

■スペクトル包絡

音声スペクトル(信号の波を成分に分解し、成分ごとの大小(強度)を視覚的にわかりやすく配列したもの)の大まかな形を表す包絡線のこと。基本周波数よりもフォルマント周波数の方が顕著に形が表れる。

■音響特徴量

音の波形から、大きさ、高さ、音色などの情報を定量化したもの。

■音素

音声の意味の識別に関わる最小の単位。言語ごとに音素は異なる。

■音素系列

母音や子音の系列。

■インセプションモジュール(InceptionModule、Inceptionモジュール)

DNNの応用例の1つであり、複数の畳み込み層を並列に接続(並列構造)し、それぞれの畳み込み計算の結果を最後に連結したモジュール。

■EfficientNet

画像認識において高い精度を出した、精度と実行速度のトレードオフを上手く調整した手法。ネットワークの幅・深さ、入力画像の解像度の最適化を、単一パラメータによって同時調整する。EfficientNetは、従来のモデルよりもパラメータ数を1/8ほど減らした。また、転移学習にも適している。

■WideResNet

ResNetを発展させたものであり、ネットワークの層の深さを浅くする代わりに、フィルタ数を増やし、ネットワークの幅も広げることで、性能を向上させる手法。

■DenseNet

ResNetを発展させたものであり、ResNetはスキップコネクションにより2つの層だけを結合したのに対し、DenseNetは前方の各層からの出力すべてを後方の層への入力として用いることで、精度を向上させた手法。

■SENet

SENetというネットワークがある訳ではなく、ResNetなどの既存のネットワークにSEブロック(SqueezeandExcitationbloc)というモジュールを導入することで、明示的にチャンネル間の相互作用をモデル化し、性能を向上させる手法。

■推移律

集合の要素x、y、zに対して、ある関係Rが定められていて、xRyかつyRzならばxRzであるという法則。

## AI分野の問題

■ディープ・ブルー(DeepBlue、ディープブルー)

IBMが開発した、チェス専用のスーパーコンピュータ。1997年5月、当時チェスの世界チャンピオンだったゲイリー・カスパロフと対戦し、勝利した。

■ボナンザ(Bonanza)

日本人が開発した、将棋を指すプログラム。2005年6月にver.1.0が公開され、公開直後から棋力

の高さが話題となった。

■ボンクラーズ(Bonkras)

日本人が開発した、将棋を指すプログラム。ボナンザをベースに、6台のサーバを並列処理させることで、高速演算を実現した。2012年1月に、永世棋聖と対戦し、勝利した。2012年5月に、プエラ・アルファ(Puellaα)に名称を変更した。

■ポナンザ(Ponanza)

日本人が開発した、将棋を指すプログラム。評価関数の学習手法にBonanzaを参考としている。

2013年に、コンピュータとして初めてプロ棋士に平手で勝利した。

■東ロボくん

2011年から始まった「AIは東大に入れるか」を検証しているプロジェクト。2015年6月の進研模試で偏差値57.8をマークしたが、ビッグデータと深層学習を利用した統計的学習という、現在のAI理論ではこれ以上の成績向上は不可能と判断されたが、開発は今も進められており、2021年度に東京大学に合格できるだけの能力を身につける事を目標としている。

■シリアスゲーム(シリアス・ゲーム)

娯楽性のみを目的とせず、教育や経営、医療、環境問題、災害といった、知識獲得や社会課題の理解・解決を、ゲームを通して学ぶことを目的としているゲームのこと。シリアスゲームには以下のような特徴がある。学習/社会課題について考えさせる要素がある明確なルールが定められている対話など、双方向性がある競争・チャレンジをする要素がある娯楽の面も備えている

■ブルートフォース

「力任せ」という意味。

■モラベックスのパラドクス(モラベックスのパラドックス、モラベックのパラドクス、モラベックのパラドックス)

動物にとっては簡単なこと(例:餌を食べる、敵を認識する)が、機械にとっては難しい。逆に、複雑な方程式の計算は機械にとって易しい。この矛盾のこと。

■ローブナーコンテスト

1991年から毎年開催されている、チューリングテストに合格する会話ソフトウェアの開発を目指すコンテスト。

■ローブナー賞

AIとして最も人間に近いと判定された会話ボットに対して毎年授与される賞。競技の形式は標準的なチューリングテストである。

■ニューラルチューリングマシン

チューリングマシンをニューラルネットワークで実現する試み。

■知識獲得のボトルネック

コンピュータに知識を学習させる時に、いかに知識を獲得し、いかにコンピュータに入力するかがボトルネックになること。

■ボトルネック

コンピュータやネットワークの高速化などの、性能向上を阻む要因。

■STRIPS

プラニング(ロボットの行動計画)の技法の1つ。「前提条件」「行動」「結果」の3つの組み合わせで記述する。

■SHRDLU

1968年から1970年にかけて、テリー・ウィノグラードによって開発された、自然言語処理を行う初期のプログラム。ユーザはSHRDLUに指示を出し、画面の中の「積み木の世界」に存在する様々な物体(ブロック、円錐、球など)を動かすことができる。

■分類問題の性能指標

正答率サンプル全体のうち、予測が正解したサンプル数の比。

再現率(真陽性率)陽性のみでみた正答率。

特異度(真陰性率)陰性のみでみた正答率。

適合率陽性と分類された中で、実際に陽性である確率。

偽陽性率陰性に対して陽性と分類される確率。⇔適合率偽陽性は、第一種の過誤とも呼ばれる。

偽陰性率陽性に対して陰性と分類される確率。⇔再現率偽陰性は、第二種の過誤とも呼ばれる。

F値再現率と適合率の調和平均。

■混同行列

各テストデータに対するモデルの予測結果(正解/不正解)を、以下の4つの観点で分類し、それぞれに当てはまる予測結果の個数をまとめた表のこと。

真陽性(TruePositive)真陰性(TrueNegative)偽陽性(FalsePositive)偽陰性(FalseNegative)「真か偽」は予測が的中したかどうか、「陽性か陰性」は予測されたクラスをそれぞれ示しており、まとめると次のようになる。

真陽性は陽性クラスと予測され結果も陽性クラスであった個数

真陰性は陰性クラスと予測され結果も陰性クラスであった個数

偽陽性は陽性クラスと予測されたが結果は陰性クラスであった個数

偽陰性は陰性クラスと予測されたが結果は陽性クラスであった個数

つまり、1.真陽性と2.真陰性は機械学習モデルが正解し、3.偽陽性と4.偽陰性は機械学習モデルが不正解したということを示す。

<混同行列>

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/02b40289-c59f-4ac4-871a-8b04a529c438/Untitled.png)

## 機械学習の具体的手法

■アソシエーション分析<教師なし学習>

教師なし学習の1つであり、膨大なデータの中から関連性を表すルール(法則性)を見出す手法。商品Aが売れるときは、商品Bが一緒に売れるケースが多い、などのルールを見出すことができるため、マーケティング分野で重宝される。

■ポアソン回帰分析(Poissonregressionanalysis)

稀にしか起こらない現象について、その現象が一定時間内に起きた回数(カウントデータ)を回帰分析するための手法であり、その時の回数が近似的にポアソン分布(Poissondistribution)になるという性質を利用している。分析対象例:サッカーの得点数、地震の発生件数、交通事故の発生件数■特異値分解(SingularValueDecomposition、SVD)

線形代数学における、複素数ないしは実数を成分とする行列に対する行列分解の手法。高次元データの特徴抽出(次元削減)ができる。

■多次元尺度構成法(MultiDimensionalScaling、MDS)

分析対象間の関連性や類似性の強さをマップ上の点と点の距離に置き換え、分析対象同士の相対的な関係性を視覚化する手法。名称に多次元と入っているが、実際には視覚的な見やすさから二次元で表現されることが多い。例えば、各社で発売しているペットボトルのお茶について、似ているブランドは近くに、似ていないブラントは遠くにプロットしていくことで、最終的にそれぞれのブランドの関係性(競合ブランドなど)を視覚化することができる。こうして得られた情報をマーケティングに活かす。

<多次元尺度構成法>

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/e181bd27-ce91-46a7-a6f3-dec9461f4bb3/Untitled.png)

<多次元尺度構成法の活用例>

実施内容が主成分分析と似ているが、主成分分析はユークリッド距離をなるべく保ちながら低次元に落とす手法なのに対し、多次元尺度構成法はユークリッド距離だけでなく、他の距離や類似度を使うことができる手法である。

■自己回帰モデル(ARモデル)

ある時刻tの値を、tよりも古いデータを使って回帰するモデル。時系列データ解析できるため、毎日の株価予想や毎月の電気料金予想、毎年の出生数予想などに活用できる。その特性から経済・経営の分野で多く用いられていている。

■ベクトル自己回帰モデル(VARモデル)

時系列分析に用いられる統計モデルで、自己回帰モデルの変数を2つ以上に拡張したもの。複数の変数を用いることで予測精度の向上が期待できる。また、変数間の関係を分析することもできる。■価値反復法

<強化学習>

状態sから最適な行動をとり続けた時の期待利得(利得の平均値)を計算する学習方法。期待利得がわかれば、現在の状態sから将来にわたって得られる価値がわかるので、その価値を最大化するような行動を選択していく。名前に価値とつくが、ここでいう価値とは報酬のことであり、より多くの報酬を得られるように学習をしていく。例えば、迷路でゴールした時や、囲碁で勝利した時に報酬を与える。また、早くゴール/勝利をした時には、より多くの報酬を与える。価値反復法では、起点(求めたい状態価値関数)と次の状態のみについて考え、次の状態の状態価値関数には、適当な値(全て0にする場合が多い)を初期値として設定する。状態価値を適当に決めた後、反復的に更新させていく。

■方策勾配法

<強化学習>

方策の中にパラメータを入れておき、そのパラメータの中で累積報酬を最も増加させる方策の勾配を求めることで、最適な方策のパラメータを学習する手法。学習を進めていくことで期待報酬を高めるような行動は出やすく低くするような行動は出にくくなっていく。方策勾配法では、関数近似によって方策を表現する。方策勾配法のアルゴリズムの1つに、REINFORCEがある。

■SARSA

<強化学習>

State(状態),Action(行動),Reward(報酬),State(next),Action(next)の頭文字を取った学習方法。実際に行動してみたらどうなったかを使い、期待値の見積もりを置き換える。SARSAでは、行動に一定のランダム性を織り込む。

■モンテカルロ法

<強化学習>

強化学習の1つであり、何らかの報酬が得られるまで行動をし、その報酬値を知ってから、辿ってきた状態と行動に対して、その報酬を分配する手法。エピソードに従いエージェントに行動を取らせ報酬を得たのちに、各状態に対して取られた報酬の平均をとることで期待値を求める。ランダム法とも呼ばれる。

■εgreedy法

<強化学習>εの確率ではランダムに行動し、それ以外の確率(1ε)では最も期待値の高い行動を選択する手法。

■UCB方策(UpperConfidenceBoundpolicies)

<強化学習>

報酬最大化のために期待値の高い選択肢を優先的に選んでいくが、この方法だと真に最適な期待値に収束しない可能性がある。そこで、一定確率で施行数が少ない選択肢も選ぶようにする方策。

■状態価値関数

<強化学習>

強化学習において、状態価値関数Vπ(s):状態sにある時、方策πに従った時の価値を返す関数。

■行動価値関数

<強化学習>

強化学習において、行動価値関数Qπ(s,a):状態sにある時、行動aを取った後に、方策πに従った時の価値を返す関数。

ある状態sにおいて、ある行動aをすることに対する、報酬の期待値(効用値)を返す。

■Kaggle

データ解析のコンペティション(競争)や、データサイエンティストによる討論がおこなわれるプラットフォーム。

■GoogleScholar

論文の検索ができるプラットフォーム。

■Coursera

オンライン上で、世界中の大学の講義を受講できるプラットフォーム。

■arXiv

論文の公開や閲覧ができるプラットフォーム。

■GitHub

ソフトウェアの実装コードが公開できるプラットフォーム。

■OpenAI

Gym強化学習用アルゴリズムのシミュレーションができるプラットフォーム。非営利団体である、OpenAIが提供している。

■ホールドアウト法

データを一方向の方法で学習データとテストデータに分割し、その平均を用いて検証を行う方法。■交差検証法(交差確認法、クロスバリデーション法)

データを複数の方法で学習データとテストデータに分割し、その平均を用いて検証を行う方法。学習モデルの汎化性能を評価できる。

■k分割交差検証(k分割交差検証)

交差検証法の中でも、k個に分割したデータを用いて、学習をk回おこなう手法。ホールドアウト法と比較して、データが少なくても信頼できる精度が得られる。

■Akaike'sInformationCriterion(AIC、赤池情報量規準)

統計モデルの良さを評価するための指標であり、「モデルの複雑さと、データとの適合度とのバランスを取る」ために使用される。例えば、ある測定データを統計的に説明するモデルを作成することを考える場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、ノイズなどの偶発的な変動にも無理にあわせてしまうため、同種のデータには合わなくなる過学習の状態になる。これを避けるためには、モデル化のパラメータ数を抑える必要があるが、どのくらいの数にするかの判断が難しい。この際、AICが最小のモデルを選択することで、多くの場合に良いモデルを選択することができる。AICは、統計学の世界では非常に有名な指標であり、多くの統計ソフトに備わっている。元統計数理研究所所長の赤池弘次が1971年に考案し、1973年に発表した。AICの公式は次のとおりである。

`-2{(最大対数尤度)-(最尤推定したパラメータ数)}`

■情報量(エントロピー)

情報量は情報の珍しさを示す尺度。任意の事象の生起確率を対数変換し、その値に1をかけた形で表現される。

■自己情報量(自己エントロピー、選択情報量)

ある事象が発生する確率の逆数の対数をとったもの。確率が大きくなれば自己情報量は少なくなる。情報の珍しさを表しており、事象の確率に対して対数関数に1を掛けることで求められる。

■相互情報量

2つの確率変数の相互依存度を表す量。2つの離散確率変数をXとYとしたとき、相互情報量は以下の式で定義される。

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/09d18bcb-3177-45ed-92cc-d5dbba3e66a7/Untitled.png)

また、次の特徴を持つ。

- XとYが独立の場合、値は0となる。
- 負の値にはならない。
- 対称性がある。

■OpenCV

画像処理・画像解析および機械学習等の機能を持つ、オープンソースのライブラリ。OpenCVでできることの一部を下記にまとめる。

- グレースケール化

画像の色をモノクロにする処理。色情報が減らせる分、画像を使った処理の計算量が削減できる。

- 平滑化

細かいノイズを除去する処理。

- ヒストグラム平坦化

画素ごとの明るさをスケーリングする処理。

■特徴点抽出(FeatureDetection)

画像の中から特徴的なポイントを抽出するアルゴリズム。抽出対象となる特徴としては、角や、輝度の勾配などがある。特徴点抽出の手法には以下のものがある。

- SIFT
- SURF
- FAST

■モデル圧縮

作成したモデルを、計算コストを下げるなどして、精度を保ちながら処理速度を向上させること。圧縮によって、処理を高速化させたり、低スペックなデバイスでの運用を可能にしたりする。

代表的なモデル圧縮の手法に以下の3つがある。

1. プルーニング(Pruning、枝刈り)※[343応用]で解説
2. 量子化(Quantize、クオンタイズ)
3. 蒸留(Distillation、ディスティレーション)

■量子化(Quantize、クオンタイズ)

重みなどのパラーメータをより小さいビットで表現することで、モデル圧縮する手法。ネットワークの構造を変えずにメモリ使用量を削減することが可能。

■蒸留(Distillation、ディスティレーション)

既存の学習済みモデル(教師モデル)を再利用して、より小さくてシンプルなモデル(生徒モデル)を学習させることで、モデル圧縮する手法。学習時の情報量を増やすという観点でモデルを軽量化することが大きな特徴。ニューラルネットワークにおける蒸留(Distillation)という単語は、ジェフリー・ヒントンらの論文「DistillingtheKnowledgeinaNeuralNetwork」で初めて使用された。本論文では、出力層の活性化関数に温度付きソフトマックスを使った、多クラス分類のモデルを蒸留する手法が提案されている。

■tSNE(TdistributedStochasticNeighborEmbedding、t分布型確率的近傍埋め込み法)

高次元データを2次元または3次元に変換して可視化する、データの視覚化、次元削減の手法。ディープラーニングの第一人者である、ジェフリー・ヒントンによって開発された。それぞれの文字の意味は下記のとおり。

- t:t分布
- S:確率的
- N:隣接(項目)
- E:埋込み

■相関係数

2種類のデータの相関の程度を示す指標。

■偏相関係数

別の因子による影響を取り除いた相関の程度を表す指標。

■分散

データの散らばりの度合いを表す値であり、偏差(それぞれの数値と平均値の差)を二乗し、平均を取った値。

■共分散

平均値からの偏差積の平均値。

■決定係数

回帰分析や重回帰分析のモデルによって求められた目的変数の予測値が、実際の目的変数の値とどのくらい一致しているかを表す指標。

■XGBoost

分布の頻度が少数のクラスのデータ量を増やす手法。データ拡張で活用される。

■データリーケージ(Dataleakage)

モデルを作成するときに、本来使う予定ではなかったり、知らないはずの情報を意図せずに使ったりしてしまうこと。データリーケージが発生すると、手元のデータでは高い精度が出たのに、本番環境ではまったく精度が出ない、といった事態になり得る。

■独立成分分析(IndependentComponentAnalysis、ICA)

多くの変数から構成されている変数を、少数または同数の、正規分布に従わない互いに独立した成分に次元削除する手法。主成分分析(PCA)でもデータの低次元化ができるが、独立成分分析(ICA)では互いに独立な成分を計算できる。

■疑似相関

ある2つの事象が因果関係がないにも関わらず、見えない要因(潜伏変数)によって因果関係があるかのように推測されること。見せかけだけの相関とも呼ばれる。例えば、事象Aを「アイスが多く売れた」、事象Bを「ビールが多く売れた」としたとき、『アイスが多く売れる日はビールも多く売れる』という結果が観測されたとする。このとき、両者の間に直接の因果関係があるかのように推測されるが実際には間違いで、AとBに影響を与えていた本当の要因は「気温が高い」だった、というケースである。

■デンドログラム(樹形図)

クラスタ分析において、各データが似た集まり(クラスタ)にまとめられていく途中過程を、木の枝のような線の形で表したもののこと。

■コールドスタート

問題レコメンダシステムにおいて、新規ユーザや新規商品が増えた際に、評価データが集まるまでレコメンド(おすすめ)できない問題である。問題の解決方法には以下のようなものがある。

新規ユーザの場合:新規ユーザの特徴と類似しているユーザを見つけ、その類似ユーザが高い評価をした商品を、新規ユーザにおすすめする。

新規商品の場合:新規商品の特徴と類似している商品を見つけ、その類似商品に対し高い評価をしたユーザに、新規商品をおすすめする。

■協力ゲーム

複数のプレイヤーで行うゲームで、プレイヤー間で話し合いをし、その結果到達した合意に拘束力があるゲーム。協力ゲームを扱う理論を、協力ゲーム理論と呼ぶ。

■LIME(LocalInterpretableModelagnosticExplanations)

モデル解釈ツールの1つであり、大局的には非線形なモデルを、局所的に線形なモデルを使って近似することで、予測結果の解釈を試みる手法。説明可能なAIの実現のために活用される。

■SHAP(SHapleyAdditiveexPlanations)

モデル解釈ツールの1つであり、協力ゲーム理論にもとづいて機械学習モデルを解釈する手法。説明可能なAIの実現のために活用される。

■オッカムの剃刀「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」という指針。14世紀の哲学者・神学者である、イングランドのオッカム出身のウィリアムが多用したことで有名となった。(オッカムは人名ではなく地名)

問い

・複数の説明変数から目的変数を予測する回帰分析の手法であり、例えば、今日の気温、湿度、降水量から、ジュースの売上げを予測したい時に使うものとして、最も適切な選択肢を1つ選べ。

→重回帰分析:複数の説明変数から目的変数を予測する手法。例えば、今日の気温、湿度、降水量から、ジュースの売上高を予測したい時に使う。重回帰分析をする際は、多重共線性に注意する必要がある。

式:y=b1x1+b2x2+b3x3+…+b0データから算出された回帰式が統計的に意味のあるものか(説明変数が目的変数を説明しているか)を検定した結果のことを、回帰式の有意性と呼ぶ。帰無仮説(統計的仮説検定の際にひとまず立てる仮説)は「回帰変動は0である(偏回帰係数はすべて0である)」である。

・重回帰分析において、データから算出された回帰式が統計的に意味のあるものか(説明変数が目的変数を説明しているか)を検定した結果のことを、回帰式の有意性と呼ぶ。帰無仮説(統計的仮説検定の際にひとまず立てる仮説)は「偏回帰係数はすべて()である」です。

→0

・技術者を支援する無償のプラットフォームが多く提供されている。以下にその一例を示す。(Google Scholar)…論文の検索ができるプラットフォーム。

(Kaggle)…データ解析のコンペティション(競争)や、データサイエンティストによる討論がおこなわれるプラットフォーム。

(arXiv)…論文の公開や閲覧ができるプラットフォーム。

(Open AI Gym)…強化学習用アルゴリズムのシミュレーションができるプラットフォーム。

(Coursera)…オンライン上で、世界中の大学の講義を受講できるプラットフォーム。

(Github)…ソフトウェアの実装コードが公開できるプラットフォーム。

・既存の学習済みモデル(教師モデル)を再利用して、より小さくてシンプルなモデル(生徒モデル)を学習させる手法として、最も適切な選択肢を1つ選べ。

→蒸留:既存の学習済みモデル(教師モデル)を再利用して、より小さくてシンプルなモデル(生徒モデル)を学習させる手法。学習時の情報量を増やすという観点でモデルを軽量化することが大きな特徴。ニューラルネットワークにおける蒸留(Distillation)という単語は、ジェフリー・ヒントンらの論文「DistillingtheKnowledgeinaNeuralNetwork」で初めて使用された。本論文では、出力層の活性化関数に温度付きソフトマックスを使った、多クラス分類のモデルを蒸留する手法が提案されている。

・データを複数の方法で学習データとテストデータに分割し、その平均を用いて検証を行う手法として、最も適切な選択肢を1つ選べ。

→交差検証法(クロスバリデーション法):データを複数の方法で学習データとテストデータに分割し、その平均を用いて検証を行う手法。学習モデルの汎化性能を評価できる。

・情報の珍しさを示す尺度として、最も適切な選択肢を1つ選べ。

→情報量(エントロピー):情報量は情報の珍しさを示す尺度。任意の事象の生起確率を対数変換し、その値に1をかけた形で表現される。

・ある事象が発生する確率の逆数の対数をとったものの名称として、最も適切な選択肢を1つ選べ。

→自己情報量(自己エントロピー、選択情報量):ある事象が発生する確率の逆数の対数をとったもの。確率が大きくなれば自己情報量は少なくなる。情報の珍しさを表しており、事象の確率に対して対数関数に1を掛けることで求められる。

・2つの確率変数の相互依存度を表す量の名称として、最も適切な選択肢を1つ選べ。

→相互情報量:2つの確率変数の相互依存度を表す量。2つの離散確率変数をXとYとしたとき、相互情報量は以下の式で定義される。

## ディープラーニングの概要

■ディープラーニングのフレームワーク

ディープラーニングは多数のフレームワークが存在している。一覧と概要を下記にまとめる。

- Tensorflow

機械学習に関する計算を行うフレームワーク。Googleによって開発された。

- Keras

ディープラーニングに特化したTensorflowのラッパー。Kerasの登場によってディープラーニングの入門がしやすくなった。

- NumPy

線形代数の計算を行うフレームワーク。

- scikitlearn

機械学習全般に対応するフレームワーク。

- Theano

Pythonによるディープラーニング開発黎明期に流行ったフレームワーク。

- ChainerDefineby

Runという形式を採用しているフレームワーク。日本企業のPreferredNetworksにより開発された。

- Pytorch

Chainerから派生したフレームワーク。Facebookにより開発された。

- MXNet

Tensorflowのようにも、Chainerのようにも書けるフレームワーク。

- Dynet

自然言語処理に適したフレームワーク。

- Caffe

Python向けのフレームワーク。BVLCが中心となって開発している。

■フレームワーク

ソフトウェアを開発するための、標準構造を実装するために使われる、ライブラリの集まり。フレームワークを使用することで、開発の手間を大幅に減らすことが可能。

■ライブラリ

ある特定の機能を持ったプログラムを、他のプログラムから呼び出して利用できるように部品化し、そのようなプログラム部品を複数集めて1つのファイルにまとめたもの。

■ラッパー

ソフトウェアやプログラム部品などが提供するクラスや関数、データ型などを本来とは異なる環境や方法で利用できるようにしたもの。

■二重降下現象(DoubleDescent)

深層学習の際、学習当初は性能が上がり、学習を続けていると次第に性能が悪化していくが、モデルサイズ、データサイズ、訓練時間を増やすと再び性能が向上する現象のこと。CNN、ResNet、Transformerといった深層学習モデルは、多くの場合早期終了や正則化によって二重降下現象が回避できる。

## ディープラーニングの手法

■カプセルネットワーク従来のニューラルネットワークが全体をその大きさで見ていたのに対して、カプセルネットワークでは特徴ごとにベクトルで見る。「カプセル」とは、オブジェクトの情報を意味していて、どんな形でどの位置に存在するのかを示す。カプセルネットワークは、動的ルーティングという手法を使い、「このカプセルの情報は次のレイヤーのどのカプセルに受け渡すべきか」ということを決める。カプセルネットワークは、画像認識におけるCNNの、プーリング処理のため、特徴の位置関係の情報を捉えられない、という課題を解決することなどを目指して開発された。カプセルネットワークは、ニューラルネットワークの技術を超える新技術なのではないかと期待されている。ディープラーニングの第一人者である、ジェフリー・ヒントンによって提案された。

■AutoML(AutomatedMachineLearning、自動化された機械学習)

機械学習のプロセス自動化することを目的とした技術であり、データの取得、前処理、ハイパーパラメータチューニング、特徴抽出から予測モデルの作成といった、あらゆるプロセスを自動化している。

■NAS(NeuralArchitectureSearch、構造自動探索)

ニューラルネットワークのネットワーク構造の設計や、ハイパーパラメータの最適化を自動でする手法。AutoMLでも活用されている。

■NASNet

NASを強化した手法であり、CNNの畳み込みやプーリングをCNNセルと定義し、アーキテクチャを探索し、最適化する。

■MnasNet

モバイル向けの機械学習モデルを自動設計する手法。モバイル向けの機械学習モデルは、モデルサイズを小さくしつつも高速かつ高精度なものが求められるため、自動設計のニーズが高い。■BRNN(BidirectionalRNN、BidirectionalRecurrentNeuralNetwork)

中間層の出力を、未来への順伝播と過去への逆伝播の両方向で伝播するネットワーク。(通常のRNNは、中間層の出力を順伝播のみするネットワーク)

■BLSTM(BidirectionalLSTM、BidirectionalLongShortTermMemory、双方向LSTM)

中間層の出力を、未来への順伝播と過去への逆伝播の両方向で伝播するネットワーク。(通常のLSTMは、中間層の出力を順伝播のみするネットワーク)同様の動作をするBRNNに比べ、長期記憶ができるという特徴がある。

■GRU(GatedRecurrentUnit、ゲート付き回帰型ユニット)

LSTMをシンプルにしたモデルで、入力ゲートと出力ゲートをひとつにまとめ、かつメモリセルの廃止し、その代わりに、更新ゲートとリセットゲートという2種類のゲートで構成している。

更新ゲート:過去の情報をどれだけ取り込むかを決定する

リセットゲート:過去の情報をどれだけ捨てるかを決定する

ゲートの数を削減したことで、計算コストの削減を実現している。

■Depthwise畳み込み(DepthwiseConvoLution)

ニューラルネットワークの計算量を削減するために考案された、レイヤー方向の次元を削減する手法。各層ごとにチャネルごとに空間方向の畳み込みを行う。

■Dilationconvolution(DilatedConvolution)

隙間の空いた歯抜けのフィルタで畳み込む手法。Dilationconvolutionを使うことで、プーリング層を使わずに畳み込むことができるため、画像のサイズが小さくならない。DeepLabではAtrousconvolutionと呼ばれている。

■DeepLab

Googleが公開した、画像をピクセル単位で意味的に分割する、セマンティックセグメンテーション手法。

■UNet

物体の局所的特徴と、全体的位置情報の、両方を統合して学習させるために開発された、U字型のニューラルネットワーク。UNetは、エンコーダとデコーダの間にスキップコネクションを備えている。

■スキップコネクション(SkipConnection、スキップ結合、スキップ接続、ショートカット接続)2つの層と層とを層を飛び越えて結合させることで、層が多重になりすぎることによる性能の低下や、誤差の逆伝播がしにくくなるといった問題を回避した。

■Attention層

RNN層で時間関係を学習する際に、時系列パターンの重要度を加味する層。

■TD学習(時間的差分学習、TemporalDifferenceLearning)

強化学習の1つであり、モンテカルロ法と動的計画法(DP)の考え方を組み合わせた手法。

■アクタークリティック法(ActorCritic法)

強化学習の1つであり、アクター(Actor、戦略担当)とクリティック(Critic、価値評価担当)を相互に更新して学習する手法。記録されたアクターの行動から、クリティックが最適な方策を求める。

■A3C(AsynchronousAdvantageActorCritic)

2016年に発表された強化学習のアルゴリズムであり、DQNの発展系の手法と、並列化の流れとを合わせた手法。A3CはDQNの次の世代の手法として注目を浴びている。

■エンコーダ

データを一定の規則に基づいて特定の符号(コード)に変換する、装置やソフトウェアのこと。

■デコーダ

エンコーダとは逆に、一定の規則や方式に基づいて符号(コード)の集まりに変換されたデータに対し、符号化時とは逆方向の変換を行い、元のデータを復元する装置やソフトウェアのこと。

■モメンタム

重みの修正量に、前回の重みの修正量のいくらかを加算することで、収束性能を向上する方法。

■Earlystopping

学習が進んで精度の向上がこれ以上見込めないとなったら、そこで学習を止める手法。過学習を防止できる。シンプルな手法であり汎用性が高い。

■pix2pix

パラメータからいきなり画像を生成するのではなく、画像から画像を生成する手法。この手法によって、白黒画像からカラー画像を生成したり、航空写真から地図を生成したり、輪郭だけの画像に色を付けたりできる。

■DCGAN(DeepConvolutionalGAN)

ランダムな数値の入力値を元に、DeepCNNを介して画像を生成する手法。画像生成を目的としたあらゆるGANのベースとなっている。

■cGAN(ConditionalGAN)

入力する画像と共にラベル情報を追加することで、任意の条件の画像を生成できるGAN。■InfoGAN

生成画像の中で利用価値の高い特徴を勝手に学習するGAN。cGANのようにラベル付けをしたデータの準備は不要。

■CycleGAN

GANでスタイル変換(ウマの画像をシマウマのように変換するなど、画像データの見た目の特徴を変換)する手法。pix2pixでは綺麗に輪郭が揃っているペア画像のみが変換可能だったが、CycleGANでは形状や位置が不揃いでも変換が可能である。ただし、データセットとして大量のペア画像(形状や位置はバラバラでよい)を用意する必要がある。

■正規分布

左右対称の連続型の確率分布のこと。ガウス分布とも呼ばれる。

平均をμ,分散をσ2>0とする正規分布とは、確率密度関数が以下の式で与えられる確率分布のことである。以下の式で定義される。

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/b8a14383-5db7-4d59-a3cc-15a32b58a998/Untitled.png)

■誤差関数(ガウスの誤差関数)

シグモイド形状の特殊関数(非初等関数)の一種で、確率論、統計学、物質科学、偏微分方程式などで使われる。以下の式で定義される。

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/21c2ba1e-89e1-4bf1-9f5b-e99a20652c38/Untitled.png)

■GAP(GlobalAveragePooling、グローバルアベレージプーリング、全体平均プーリング)

画像処理の、特にCNNに関係する技術であり、各チャンネルで特徴マップの値を平均した値を出力する手法。GAPを活用することで、過学習を防ぎつつ、モデルのパラメータ数を減らすことができる。

■Randomerasing

ランダムな大きさの矩形領域で画像をマスクする手法。矩形領域はRGB(0~255)のランダムな値で埋められる。データ拡張に活用される。

■Cutout

Randomerasingをシンプルにした手法で、画像に対してランダムな位置を中心に辺の長さが固定の正方形領域を、固定値0でマスクする。データ拡張に活用される。

■Mixup

2つの訓練データとなる画像のペアを混合し、新たな訓練データを作成する手法。

データ拡張に活用される。

■CutMix

CutoutとMixupを組み合わせた手法。マスクされる矩形領域が固定値0ではなく、ペアとなる画像の一部を切り取ったものが入る。データ拡張に活用される。

■CAM(ClassActivationMap)

CNNの最後の畳み込み層により抽出された特徴量に着目し、機械学習が画像のどの部分を注目しているのかを可視化する手法。画像認識の際に判断根拠となった部分を可視化することができる。CAMには、CNNの最終層にGAPを適用しなければならないという制約がある。

■GradCAM(GradientweightedClassActivationMapping)

CAMを拡張した手法であり、CAMと同様、CNNの最後の畳み込み層により抽出された特徴量に着目し、機械学習が画像のどの部分を注目しているのかを可視化する手法。CAMにあったCNNの最終層にGAPを適用しなければならないという制約が解消され、GAPを適用しないネットワークにおいても判断根拠となった部分を可視化することが可能。

■RoIプーリング(RegionofInterestPooling、RoIPooling、ROIプーリング)

物体の候補領域が一定の大きさになるようにプーリングの小領域のサイズを決め、小領域のごとの最大値(or平均値)プーリングを行い、スケーリングする手法。RoIプーリングは以下の処理で行われる。候補領域を同じサイズの小領域に分割する小領域ごとで最大値(or平均値)を見つける見つけた値を出力バッファにコピーする上記の処理を全ての小領域に実行することで、スケーリングが完了する

<RoIプーリング>

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/1cb140b2-d09a-4fa5-9c89-a054160d8c9b/Untitled.png)

■計算グラフ

計算の過程をグラフとして視覚化して表したもの。計算グラフは、複数のノードとエッジによって表現される。

<計算グラフ>

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/89a20631-4b34-4acf-8a07-3cf3754df583/Untitled.png)

この図は、順伝播(青色部分)の場合、入力:xで、関数:f(x)を通すと、出力:yになる、ということを、示している。また、逆伝播(赤色部分)の場合、入力:Eで、Eに関数f(x)の微分を行った結果を乗じたものが、出力:E(∂y/∂x)になる、ということを示している。例えば、上流からの入力値を二乗した値を下流に出力する計算グラフである場合、この計算グラフを逆伝播すると、下流からの入力値を2倍して上流に出力する。

■define-and-run(Define-and-Run)

計算グラフを構築した後にデータを流し処理を実行する、静的方式。

■define-by-run(Define-by-Run)

計算グラフの構築と順伝播処理の実行を同時に行う、動的方式。

■StackedAutoencoder(積層オートエンコーダ)

オートエンコーダの一種で、通常、誤差逆伝播法(バックプロパゲーション)では中間層が2層以上あると極小解に収束してしまう。そこで、中間層を1層だけ作ったオートエンコーダで学習させ、次に中間層を入力層とみなしてもう一層積み上げる構造で、これを繰り返して多層化したオートエンコーダをつくる手法。1層ずつ学習していくことで、初期値を最適解に近づけることができる。

他の手法で積層オートエンコーダのメリットをカバーできるようになったため、現在はあまり使われていない。

■DenoisingAutoEncoder(DAE)

入力層のデータにノイズを付加させて学習させたもの。誤差関数にはノイズ付加前のデータを使用することで、ノイズを取り除くように学習される。画像や音声のノイズ除去に活用できる。制約付きボルツマンマシンと結果がほぼ同じになる。

■Rainbow

深層強化学習のアルゴリズムであり、DQN以降の7つの深層強化学習アルゴリズムを混合することで、高い性能を実現した。

<Rainbowを構成しているアルゴリズム>

1. DQN(DeepQnetwork)
2. DoubleQ-learning
3. Prioritized Experience Replay(PrioritizedDDQN)
4. Dueling-network
5. Noisy-network
6. Multi-step learning
7. Categorical DQN(C51orDistributionalDQN)

■GLUE(General Language Understanding Evaluation)

英語圏における自然言語処理の標準ベンチマークのこと。様々な言語に関するテストデータが含まれており、このテストデータを使って性能のスコアを算出する。英語圏の自然言語処理におけるデファクトスタンダードとなっており、自然言語処理に関する論文を発表する際はGLUEスコアを掲載することが一般的になっている。

## ディープラーニングの研究分野

■BNN(Binarized Neural Network)

浮動小数点を使わない、2値化したCNN。ニューラルネットワークの重みと、活性化関数の出力の両方を1ビットにしている。

2値化したことにより、CNNと比べて演算の規模が大幅に減り、単位消費電力あたりの推論性能がCNNに比べて非常に高いという特徴がある。

ただし、2値化したことで推論精度は下がってしまうが、対応策も開発されている。FPGAの実装に用いられることが多い。

■FPGA(FieldProgrammableGateArray)

製造後に購入者や設計者が構成を設定できる集積回路。論理回路設計を間違えてもハードウェア言語で修正することができる。

■AdversarialExample(AdversarialExamples、adversarialexample、アドバーサリアル・エグザンプル、敵対的サンプル)

分類器に対する脆弱性攻撃であり、画像に対して微小なノイズを加えることで、作為的にモデルの誤認識を引き起こさせる攻撃。

実際に、パンダの画像に対してノイズを加えることで、人間の目にはパンダのままにしか見えないが、分類器はテナガザルだと誤識別したという実験結果がある。画像分類モデルだけでなく、音声認識モデルや自然言語処理モデルに対しても適用可能である。深層学習における重要な課題の1つである。Adversarialattacks(敵対的攻擊)とも呼ばれる。

■TrainingSetPoisoning(trainingsetpoisoning、トレーニングセット・ポイズニング)

機械学習の学習モデルの訓練時を狙った攻撃であり、教師データに誤ったタグを付与したデータを紛れ込ませることで、誤った判断をさせる攻撃。

セキュリティ対策ソフトの教師データに誤ったデータを混入させられ、マルウェアを検出できなくさせる攻撃をされる可能性が指摘されている。

■ドルフィンアタック

人間には聞こえない周波数でAIスピーカーを操作する技術。悪意ある操作が可能であることから、GoogleHomeやSiriなどのサービスを提供している各社が対応を求められている。

■セマンティック・ウェブ

ウェブ上の情報は、コンピュータ的には単なる文字の羅列であり、「なかに何が書いてあるか」「どういったことに使える情報なのか」ということの判断が難しい。そこで、ウェブ内の情報リソースが「何の情報に関するものか」などの情報を、「メタデータ」と呼ばれる情報として付記して、コンピュータがそれを元に、自動で処理できるようにするための仕組み。セマンティック・ウェブによって、高度な意味処理が実現できる。

■Seq2Seq(SequencetoSequence)

EncoderとDecoderを備えたEncoderDecoderモデルであり、系列データを別の系列データに変換するモデル。Seq2Seqによって、可変長文字列を別の可変長文字列に変換することができ、翻訳や対話モデル作成などに活用される。

■インスタンスセグメンテーション

画像認識に使われるアルゴリズムの1つであり、画像上全てのピクセル(画素)に対してクラスラベルは振られないが、画像上の物体の認識をピクセルレベルで実施する手法。ディープラーニングによって成果を上げている、画像認識に関する研究分野の1つ。

■セマンティックセグメンテーション

画像認識に使われるアルゴリズムの1つであり、画像上全てのピクセル(画素)に対してクラスラベルを振るが、物体の認識は行わない手法。

ディープラーニングによって成果を上げている、画像認識に関する研究分野の1つ。

■パノプティックセグメンテーション

画像認識に使われるアルゴリズムの1つであり、画像上全てのピクセル(画素)に対してクラスラベルが振られ、その中で数えることができると判断されたクラスは物体として認識する手法。インスタンスセグメンテーションとセマンティックセグメンテーションの両方のアプローチを行う。ディープラーニングによって成果を上げている、画像認識に関する研究分野の1つ。

■SegNet

画像認識に使われるセマンティックセグメンテーションの手法の1つであり、与えられた画像をピクセル単位で複数のクラスへと画像を分割する。エンコーダとデコーダ両方の仕組みを持つ。■PSPNet(PyramidSceneParsingNetwork)

画像認識に使われるセマンティックセグメンテーションの手法の1つであり、FCNをベースとしたモデルにあった、「クラス関係のミスマッチ(物体周辺の海などを見ないため、車とクルーザを見間違う)」、「クラスカテゴリの混乱(普通のビルと高層ビルとを上手く区別できない)」、「画像中の小さい物体は大きい物体と比べて特徴を捉えにくい」といった問題を、空間ピラミッドプーリングの導入によって改善した。

画像認識に使われるセマンティックセグメンテーションの手法の1つであり、与えられた画像をピクセル単位で複数のクラスへと画像を分割する。エンコーダとデコーダ両方の仕組みを持つ。

・画像認識に使われるアルゴリズムにはいくつかの手法がある。(**パノプティックセグメンテーション**)は、画像上全てのピクセル(画素)に対してクラスラベルは振られないが、画像上の物体の認識をピクセルレベルで実施する手法である。(イ)は、画像上全てのピクセル(画素)に対してクラスラベルが振られるが、物体の認識は行わない手法である。(ウ)は、画像上全てのピクセル(画素)に対してクラスラベルが振られ、その中で数えることができると判断されたクラスは物体として認識する手法である。

答え

■パノプティックセグメンテーション:画像認識に使われるアルゴリズムの1つであり、画像上全てのピクセル(画素)に対してクラスラベルが振られ、その中で数えることができると判断されたクラスは物体として認識する手法。インスタンスセグメンテーションとセマンティックセグメンテーションの両方のアプローチを行う。ディープラーニングによって成果を上げている、画像認識に関する研究分野の1つ。

・ウェブ上の情報は、コンピュータ的には単なる文字の羅列であり、「なかに何が書いてあるか」「どういったことに使える情報なのか」ということの判断が難しい。そこで、ウェブ内の情報リソースが「何の情報に関するものか」などの情報を、「メタデータ」と呼ばれる情報として付記して、コンピュータがそれを元に、自動で処理できるようにするための仕組みとして、最も適切な選択肢を1つ選べ。

→セマンティックウェブ

■AdversarialExample(AdversarialExamples、adversarialexample、アドバーサリアル・エグザンプル、敵対的サンプル)分類器に対する脆弱性攻撃であり、画像に対して微小なノイズを加えることで、作為的にモデルの誤認識を引き起こさせる攻撃。

実際に、パンダの画像に対してノイズを加えることで、人間の目にはパンダのままにしか見えないが、分類器はテナガザルだと誤識別したという実験結果がある。画像分類モデルだけでなく、音声認識モデルや自然言語処理モデルに対しても適用可能である。深層学習における重要な課題の1つである。Adversarialattacks(敵対的攻擊)とも呼ばれる。

・AdversarialExample(Adversarialattacks)で攻撃対象となり得るモデルとして、最も適切な選択肢を1つ選べ。

→画像認識・音声認識・自然言語処理全て該当しない

・文章中に出てきた単語のそれぞれの数をカウントし、出現回数を対応する単語のインデックスに割り当てることで、文書をベクトル化する手法として、最も適切な選択肢を1つ選べ。

→BoW

■BoW(BagofWords)ベクトル表現の一種。文章中に出てきた単語のそれぞれの数をカウントし、出現回数を対応する単語のインデックスに割り当てることで、文書をベクトル化する。文章にどの単語がいくつ含まれているかどうかのみを識別し、熟語や、単語の出現の順番などは考慮しない。

・周囲の単語が与えられた時に、中心となる単語を予測する手法として、最も適切な選択肢を1つ選べ。

→CBoW

■CBoW(ContinuousBagofWord)スキップグラムとは逆に、周囲の単語が与えられた時に、中心となる単語を予測する手法。

・文章をベクトル化した後に、ベクトルの類似度を計算する手法であり、2つのベクトルがどれだけ同じ方向を向いているかという類似度を測るもので、類似度は1~1(低~高)の範囲をとる手法として、最も適切な選択肢を1つ選べ。

→コサイン類似度:

■コサイン類似度:文章をベクトル化した後に、ベクトルの類似度を計算する手法であり、2つのベクトルがどれだけ同じ方向を向いているかという類似度を測る手法。類似度は1~1(低~高)の範囲をとる。

・文章として与えられた文字列に対して文字の窓を設定し、1文字ずつずらしながら単語を生成していく手法として、最も適切な選択肢を1つ選べ。

→n-gram

■n-gram:文章として与えられた文字列に対してn文字の窓を設定し、1文字ずつずらしながら単語を生成していく手法。

・文書から有用な情報を抽出するために、多くの手法が考案されている。文章に込められた感情を分析する(センチメント分析)は、文章を「肯定的」「中立」「否定的」の3パターンに分類する。(談話構造解析)は、文と文との間の意味的な関係性を推定する。(含意関係認識)は、与えられた2つの文章の間に、含意関係が成り立つかどうかを判別する。

■センチメント分析:文章に込められた感情を分析すること。文章を「肯定的」「中立」「否定的」の3パターンに分類する。ネガポジ分析とも呼ぶ。例えば、SNSや商品レビューから、商品に対する世間の意見を測るのに活用する。

■談話構造解析文と文との間の意味的な関係性を推定する処理のこと。文章での話の流れを解析できるようになり、文脈の把握ができる。

■含意関係認識:与えられた2つの文章の間に、含意関係が成り立つかどうかを判別すること。例えば、AとBという2つのテキストが与えられたとき、AがBを含意するか、つまりBが持つ文章の意味を、Aが含み得るかを判定する。

・人工知能の開発において、シンギュラリティという脅威が存在する。この脅威に対して、イーロンマスク氏は、「人工知能にはかなり慎重に取り組む必要がある。結果的に悪魔を呼び出していることになるからだ」と述べている。

・人工知能の開発において、シンギュラリティという脅威が存在する。この脅威に対して、スティーブン・ホーキング氏は、「完全な人工知能を開発できたら、それは人類の終焉を意味するかもしれない」と述べている。

・人工知能の開発において、シンギュラリティという脅威が存在する。この脅威に対して、ビル・ゲイツ氏は、「人工知能に懸念を抱く側になる一人だ」と述べている。

・シンボルクラウディング問題に関して、

フレーム問題と同様、人工知能の難問の一つとされている。

「記号(文字)」と「それが意味するもの」を結びつけるのは難しい。

・人工知能を作る際に重要とされている性質がある。それは、獲得すべき行動を機械に直接指令として書き込むのではなく、外部環境から社会性、機械自身の身体を通して身体性、情報を取得し解釈していく能力適応性と、自ら一連の流れを処理できる自律性という性質である。

・学習においては特徴量設計がモデルの精度向上の重要なファクターになる。特徴量設計(特徴量の選択)の問題に関して、

機械学習自身に特徴量を発見させるアプローチは、特徴表現学習と呼ばれる。

ディープラーニングは、ブラックボックス化されているため、自動的に抽出された特徴量の意味を人間が理解することは難しい。

・機械学習の手法には様々な方法がある。例えば、入力データが多く、一部のみ人間などの手でラベル付けされているものがある。それらを機械が学習し、データセットに対する応答値の予測を行うモデルを構築する手法を半教師あり学習という。

・ロボティクス分野でもディープラーニングの活用は盛んに行われており、画像・音声・テキストなどの複数種類のデータ

・転移学習は、公開されている学習ずみモデルの出力層を変更し、その重みを新しい学習データで調整する。

・2018年にGoogleが発表したBERTは、複数のタスクで人間を上回ったとして自然言語処理におけるブレークスルーとなった。このモデルは事前学習モデルであり、ファインチューニングによって様々なタスクに高い精度で適用できる。

・個々の訓練サンプルを、なるべく少ない数の中間層ユニットを使って再現するように、誤差関数に制約をかける項を追加することをスパース正則化と呼ぶ。例えば、中間層のうち、少数のユニットが出力値として0でない値をとり、残りの出力値は0を取るようにする。

・AI技術の発展により、処理可能なデータの種類や量が増え、データの取り扱いに注目されるようになった。

・情報量の単位はビットやバイトで表され、8ビット(=1バイト)では、256個の異なる値を表現することができる。バイト単位で表現したデータを小さい順に並べると

メガ、ギガ、テラ、ベタ、エクサ、ゼッタ、ヨタ

・教師なし学習は、K-means法と主成分分析

・次元削減を用いることで、データセットの次元数を減らすことができる。これは、複数の観測変数をそれぞれに適切な重みづけをした上で融合し、一つの潜在変数にまとめるという手法である。この手法を用いる際には、変数統合後に潜在変数の意味の解釈が主観的であり、客観的に一意に定まるものではないこと。

・機械学習において、適切な学習と評価を行えるように、データセットを活用しなければならない。データセットとは、訓練データから検証データを切り出し、学習時に検証データでモデルの評価とパラメータ更新を行う。

・自己回帰モデルが有効な分析対象の具体例:気温予測

・クラスタリングの手法として、トップダウン型とボトムアップ型がある。

トップダウン型のクラスタリングは、k-means法。

全てのデータ点を一つのクラスタとして分類し、その中で距離が長くなるように分割していくアプローチ。

ボトムアップ型はのクラスタリングは、階層的クラスタリング。

全ての点を別々のクラスタに分類し、その上でそれらのデータ点の距離が短くなるようにデータ点をまとめていくアプローチ。



決定木は与えられたデータに対して、枝分かれする木のようなモデルを作成するアルゴリズム。枝分かれの基準は、情報利得の最大化である。

現在も研究が行われているディープラーニングに関して、オンラインで提供されているサービスを利用し、常に最新の情報をキャッチすることが重要になる。arXivは、最新の研究論文の保存・公開用のWebサイトである。

深層学習(ディープラーニング)の学習やモデル
・ディープラーニングは特徴量そのものを学習によって得ることができる
・ディープラーニングのモデルの構成は人手で決めるため、一種の職人芸である。

AIを用いたサービスにおいて、個別性と社会性、透明性とセキュリティなど、様々な価値や目標間のトレードオフが問題となることがある。こうした問題について取り組む研究領域やコミュニティも存在し、公平性・説明責任・透明性という意味でFATと呼ばれる。

勾配降下法によるニューラルネットワークの学習において、一度に値を更新する度合いを決めるパラメータを学習率という。

事前学習済みのネットワークに新たに出力層を付け足し、ネットワーク全体を再び学習することを、ファインチューニングという。

2020年6月に成立した個人情報保護法の改正法において新設された、「他の情報と照合しない限り特定の個人を識別できない」ように加工した個人情報を仮名加工情報という。

AlphaGoの研究においては、過去の将棋データや自己対戦データを用いながら、次の手を選択・評価するための畳み込みニューラルネットワークであるpolicy network や、局面を評価するためのvalue networkを構築する。

OpenCVのようなライブラリで画像に前処理を施すことで、データを水増ししたり、学習の精度を高めることができる。平滑化によって、エッジやノイズなどの高周波成分を消すことができる。

リクルートホールディングスは、2つのベース手法を用いることで、校閲AIを構築・開発した。アルゴリズムとしてBidirectional RNNを用いることで、時系列データも扱うことができる。
Bidirectional RNNは、過去から未来、未来から過去の双方向からの学習が可能なモデルです。

有名な活性化関数にtanh関数がある。シグモイド関数は0から1の値をとるが、tanh関数は-1から1の値をとる。

ニューラルネットワークのパラメータ更新手法である誤差逆伝播法では、予測値と正解の誤差をネットワークの出力側から入力側に逆伝播して行き、重みの値を更新する。

セルゲイ・レウェン氏らは、ロボットの視野画像から次の関節の位置をCNNで求め、特定の動作を行わせるという手法をPR2を使用して提案している。

強化学習において、状態・行動の空間内での軌跡が与えられ、遅延した報酬が与えられたとき、過去のどの時点のどの範囲の行動を強化すれば良いのかという問題はクレジット割り当て問題と呼ばれている。

RPA(ロボティックプロセスオートメーション)とは、人間がコンピュータ操作により行う作業をソフトウェアロボットにより自動化する技術である。

深層強化学習はロボットの制御ソフトウェアを開発する手法として注目を集めている。2018年6月、エヌビディアはロボットへの組み込みを意識したモジュールやシミュレーション環境からなる新たな開発基盤「Isaas」(アイザック)を発表した。

Fast R-CNNでは、物体候補領域の大きさに関わらず固定サイズの特徴マップを抽出するROIプーリングを行うことで、R-CNNよりも高速な物体検出が可能となった。

最近、ディープラーニングは様々な分野に応用されている。その一つとして、音声サービスがある。音声認識・対話関して、
Appleの「Siri」やGoogleの「GoogleAssistant」、NTTドコモの「しゃべってコンシェルジュ」のように生活の中で利用されている。

Amazonの「Alexa」、Microsoftの「GoogleAssistant」、NTTドコモの「しゃべってコンシェルジュ」、LINEの「Clova」のように生活の中で利用されている。

AIは一般的に万能であり、どんなものにも適用できると思われる傾向がある。しかし、実際にはいくつかの条件が満たされていなければ利用しても十分な効果を得ることはできない。企業がAIを利用するために気をつけるべきこと。
・AIには何ができて、何ができないかを理解しておく
・自社で抱えている課題はAIで解決するのが最善の策か検討する
・AIの学習に用いるデータが十分に用意されているか検討する
・社内で継続的にデータが蓄積される仕組み作りをし、各部門と連携する
・適切な規模の予算を検討しておく

ニューラルネットワークにおけるパラメータの更新は勾配降下法を用いる。勾配降下法のアルゴリズムは複数あるが、最も一般的なのは確率的勾配降下法(SGD)である。そのほかに、AdaGradというアルゴリズムがある。このアルゴリズムが進むにつれて急速に学習率が低下するという問題を解決したRMSpropというアルゴリズムがある。

ディープラーニングにおいては、鞍点問題等過学習への対策が考案されていました。1990年代に考案されたのがモメンタムで、そこから、効率的手法がAdagrad、Adadelta、RMSprop、Adamといった具合に次々に考案され、新しいものほど効率化が進んでいます。

目標間のトレードオフに関して、アルゴリズムが発生することにより透明性は高まるという利点が得られるがセキュリティは低下するといった問題が発生する。

現在最も研究が活発に行われているディープラーニングに関して、オンラインで提供されているサービスを利用し、常に最新の情報をキャッチすることが重要になる。Kaggleは、企業などがデータを提供し、コンペティションへの参加をする、予測モデルおよび分析手法関連プラットフォームである。

ディープラーニングを用いて問題を解決するとき、ニューラルネットが学習する特徴量は問題を解くために必要な処理に役立つ情報として抽出されている。しかし、学習した特徴量を人が理解することは難しいことから、ディープラーニングはブラックボックスとされている。

エキスパートシステムが抱える問題点に関して
・システムに入力するために専門家たちから知識を取り出す作業は大変な労力が必要である。
・知識の数が増えるにつれ、定式・ルールの数が膨大になり、これを適切に維持・管理する必要が発生する。
・膨大な量の専門分野データをシステムに入力するための形で記述することは莫大な労力を要する。

RNNでは、入力データと前回の隠れ状態から出力を計算する。

機械学習は与えられた情報を元に学習し、自律的に法則やルールを見つけ出す手法やプログラムである。学習の手法として様々なものがあるが、教師あり学習は、「正解が分からないデータに対して正解を予測するモデルを生成する」
→教師あり学習は、与えられた元に、そのデータがどんなパターンになるかを識別、予測する手法

良いモデル作成には、ハイパーパラメータの適切な調整が不可欠である。ハイパーパラメータの例として、多層パーセプトロンにおける学習率などが挙げられる。
→主なハイパーパラメータとしては、隠れ層、活性化関数、バッチサイズ、イテレーション数、エポック数、学習率、ドロップアウト数、正則化、などがある。

開発プロセスは、①アセスメント②Poc3️⃣開発、④追加学習
経済産業省による「AI・データの


誤差逆伝播の発明がきっかけとなって広がった第二次人工知能ブームは、誤差逆伝播が

強化学習にディープラーニングを取り入れた深層強化学習
→自己対局のみで学習をするAlphaGoという碁のプログラムが高い成果を上げた。
AlphaGo:大量のプロの将棋データ、AlphaGoZero:囲碁のルールのみ
AlphaGoが世界で初めて囲碁のプロを破ったことでAIブームはさらに加速した。AlphaGoZeroはAlphaGoの後継であり、将棋なしでAlphaGoを凌駕する性能を持つ。

<ディープラーニングの概要>

オートエンコーダーは、AIアートや言葉から画像を生成する技術の裏にあるアルゴリズムである。さらに、オートエンコーダーは入力と正解が同じ、つまり出力結果が入力と同じに近づくように学習する教師なし学習のアルゴリズムを用いている。

ニューラルネットワークでは、誤差逆伝播法によってパラメータの更新を行う。このようなネットワークでは、層が深い時に誤差が最後まで正しく伝わらない勾配消失問題が発生することがある。

他のタスクの学習結果を利用したり、学習方法を学習したりすることで新しいタスクの学習効率を向上されることをメタ学習という。メタ学習の一種であるMAML(Model-Agnostic-Meta-Learning)
従来より少ない勾配法の学習ステップで良い性能のモデルを得る。
従来より少ないデータ数で良い性能のモデルが得られる。
様々なモデルに適用することが可能である。

確率的勾配効果法の一種として、N個の訓練データの中から一部、n個を取り出し、パラメータの更新をする手法をミニバッチ学習という。ミニバッチ学習は、同じ確率的勾配効果法の一種である逐次学習より正しい解に収束しやすい傾向がある。

ディープラーニングの学習の際、エポックごとにランダムにニューロンを不活性化させる手法をドロップアウトという。ドロップアウトは、過学習を抑制する目的で使用される。

勾配に関する学習が上手く進まなくなる問題
→勾配消失によって、計算コストは増大するが、学習の精度は向上する。

過学習は、訓練データの不足に起因していることがほとんんどである。

ニューラルネットワークのモデルが学習を行う際、事前に各ユニットの重みの値を初期化しなければならない。重みの初期化では、ニューラルネットワークの重みの初期値として、乱数にネットワークの大きさに合わせた係数をかけた値を与えることで、入力データを正規化・標準化した効果が失われにくくなる。

良いモデル作成にはハイパーパラメータの適切な調整が不可欠である。ハイパーパラメータとは、人間が事前に決める必要があるパラメータである。

ニューラルネットワークの活性化関数の中で、ReLU関数の派生形であるLeaky  ReLU関数は、入力をxとしたときx<0 の領域でわずかな傾きを持った直線になっていることが特徴である。さらに、Randomized ReLUは、この傾きをランダムに変化させる。

重みの自由度を制限する手法として、重み減衰がある。学習時にはより小さい重みが選ばれ、誤差の更新式は重みの大きさに比例した速さで減衰する

トランスフォーマー(transformer)は、2018年に登場以来、有用な自然言語処理モデルとして良く用いられるようになった。トランスフォーマーと深い関係があるのは、多頭注意、マスク化言語モデル、クエリ、キー、値である。

人間の脳内の神経回路網を模擬した学習アルゴリズムをニューラルネットワークという。このニューラルネットワークのネットワーク層を増やしていくと、最適化すべきパラメーターは増える。学習の過程における計算量は増える

ディープニューラルネットワークにおけるハイパーパラメータとして、隠れ層の数が挙げられる。

学習済みモデルから得られる入力と出力のペアを使って新しいネットワークの学習を行い、同様のタスクを処理する別のモデルを作成することを蒸溜という。

大量のデータセットの学習やネットワークが複雑なモデルの学習には、莫大な時間がかかるが、これらのような問題に対して有効な学習手法にファインチューニングがある。ファインチューニングとは、既存の学習ずみモデルの重みを一部再学習させ、特徴量抽出器として利用する手法である。

正則化に関して、重みの上限を制限する重み上限がある。これは各ユニットの重みの二乗和に上限を与える手法である。制約を満たしていない場合、重みに1以下の定数をかける等の処理を行う。


<法律>

AI技術の発展により、取り扱うデータの種類に応じて量が増え、AIのデータに関する著作権が注目されるようになった。
AIを用いて創作された小説は著作物にならないことがある。

学習済みモデルのプログラムやパラメータは必ず著作物で保護されると言い切ることはできない。
ある創作物に関して、それがAIによる創作か、または人間がAIを利用して生み出した創作物であるかが明確に定まらない事例が存在する。
















この記事が気に入ったらサポートをしてみませんか?