見出し画像

AIを活用する前に知っておきたい前提知識

こんにちは、よじまるです。

先日経産省から出た「AI・データの利用に関する契約ガイドライン」の概要に関する解説記事を書きました。

AIを活用するために知っておくべき前提知識やどのようなプロジェクトの進め方がいいかなどについて書いてありますのでぜひご一読ください。

ありがたいことに弁護士の方々など、様々な方から良い反響をいただきました。


これからの記事では、ガイドラインの詳細な内容について触れていきます。AI・データの利用に関する契約ガイドラインの全体は、こちらのマガジンにまとめています。


今回はガイドライン第二章の内容から。


AIの活用する前に知っておきたい前提知識について


です。

目次
1. AIとは

2. 機械学習の手法について
 2.1 教師あり学習
 2.2 教師なし学習
 2.3 Deep Learning

3. AI活用の段階とそれぞれに関連する用語
 3.0 AI活用における二つの段階
 3.1 学習段階
  3.1.1 学習用データセットの生成段階
  3.1.2 学習済みモデルの生成段階
 3.2 利用段階

--------------

1. AIとは


AIという言葉は、実は定義がよく定まっていません。そこで、今回はガイドラインの定義を基本とすることにします。ガイドラインでは、以下のように機械学習とAIを定義しています。


ガイドラインによるAI(機械学習)の定義:


「あるデータの中から一定の規則を発見し、その規則に基づいて未知のデータに対する推測・予測などを実現する学習手法の一つ」


簡単に図で考えてみましょう。

例えば、体操競技の写真データがあるとします。

体操競技の種目別画像データ



これらのデータから学習し、新しい画像に対してそれがどの競技種目かを予測するようなものをAIと呼ぶ、ということを意味します。


競技種目予測の例


2. 機械学習の手法について

次に、機械学習にはどのような手法があるのかについておさえておきましょう。

2.1 教師あり学習


教師あり学習とは、正解をもつデータを使って学習する学習手法です。

先ほどの体操競技の種目で考えてみましょう。

まず、それぞれの画像に対して正解との対応をつけます。鉄棒や平行棒、跳馬、と言った具合に画像と正解(これをラベル付け、と言います)と対応させていきます。

次にそのデータを学習し、未知のデータに対して正解が何であるかを予測します。


教師あり学習におけるデータセット
(正解と紐づいたデータ)

データセットを使って学習を行った後で
未知データを与えると・・・?

未知のデータに対して種目を予測する


2.2 教師なし学習

教師なし学習とは先ほどとは違って、正解情報のないデータから学習する手法です。

正解情報のないデータから特徴を学習して、それらを似たグループの集団に分ける(クラスタリングと言います)ようなのが主な例です。

散らばっているデータを・・・

近い(特徴が似ている)もの同士でグルーピング


2.3 Deep Learning

次はDeep Learningについて。まずは誤解が生まれやすいところについて最初に1番大事なことを述べておきます。

Deep Learningは機械学習の学習手法の1つです。


そのため本来は特別Deep Learningだけを取り出さなくても良いのですが、近年のAIブームはDeep Learningによる認識技術の画期的な進歩によるものが大きく、そのため分けて説明しています。


Deep Learningはニューラルネットワークという人の脳の神経回路を参考としたモデルを用いた学習手法です。


Deep Learningは特に画像認識と自然言語処理の二つにおいて高い性能を発揮することから注目されています。

1. 画像認識


2. 自然言語処理(文章の翻訳など)

google 翻訳における日英翻訳

3. AI活用の段階とそれぞれに関連する用語 

3.0 AI活用における二つの段階

AIの活用には、以下の二つの段階があります。学習段階でデータを学習し、利用段階で未知のデータに対してAIを適用するという流れです。

1. 学習段階
2. 利用段階

3.1 学習段階

AIの学習段階の中にも、さらに二つの段階があります。学習用データセットの生成段階と学習済みモデルの生成段階です。

1. 学習用データセットの生成段階
2. 学習済みモデルの先生段階


簡単には、

・データを学習できるように整える段階

・データを用いてプログラムを賢くする段階


だと捉えてください。


3.3.1 学習用データセットの生成段階

学習用データセットの生成段階では、生データに処理を加えて学習用のデータセットを作成します。

生データ…データ取得基盤から取得してきた生のデータのこと。欠損値(欠けている部分)や外れ値(異常な値)を含むことが多く、データをそのまま学習に使用することは難しい。

生データのイメージ
画像がボケているものがあったり、関係ないものが入っていたりする。


学習用データセット…欠損値や外れ値を処理して、必要な場合は正解との対応付け(ラベル付け)をしたもの


学習用データセットのイメージ


3.3.2 学習済みモデルの生成段階

学習済みモデルの生成段階では、学習用プログラムにデータを学習させ、学習済みモデルを生成します。

学習用プログラム…データから規則を見つけ出すためのプログラムを指す。
学習済みモデル…生データを学習して、未知のデータに対しても予測ができるようになったもののこと。ガイドラインでは、「学習済みパラメータ」を含む「推論プログラム」としている。


※学習済みモデルと表現するとき、「生データ」、「学習用データセット」、「学習用プログラム」、「推論プログラム」、「学習済みパラメータ」、「そのほか派生的な生成物」のいずれかあるいは全てを含む概念として用いられることがあり、ここは発注者と受注者の間で齟齬が起きやすいです。

ガイドラインでは、明確に定めておくことが望ましいと言った上で、ガイドライン内での一貫性のために

学習済みモデルとは、「学習済みパラメータ」が含まれた「推論プログラム」


としています。

3.2 利用段階

AIの利用段階においては、学習段階で作成した学習済みモデルを用いて未知の入力データに対して予測などを実行し、結果を得る段階のことを指します。

--------------

まとめ

今回の記事では、AIを活用するための前提知識としてAIの利用における各段階やAIに関連する用語についての解説をしました。


・どのような流れでAIを活用するのか

・AIを活用する前に理解しておくべき用語とその意味


を知ることができたかと思います。

次の記事では、AIの持つ特徴について解説をいたします。


--------------

株式会社ACESでは、上記のガイドラインの内容を踏まえ、AIの技術導入及び技術導入のためのコンサルティングを行っております。

・AIを導入したいけど自社のデータでどのようなことが可能かわからない

・AIを導入して実現したいことがあるがリスクを最小限に抑えた形での導入の方法がわからない

・AIの実装開発を行って欲しいがあるがリスクを最小限に抑えた形での導入の方法がわからない

などの課題を抱えていらっしゃる場合は、お気軽にお問い合わせください。

株式会社ACES HP : http://acesinc.co.jp
お問い合わせ先 : info@acesinc.co.jp


この記事が気に入ったらサポートをしてみませんか?