サクッとわかる！IT用語〜分析〜

2022年11月21日 12:35

平均値/中央値/最頻値とは

ここでは平均値、中央値、最頻値について説明します。

平均値とは、対象のデータを合計し、データの個数で割った値のことを指します。
これはよく使われる集計方法なのでイメージできる方も多いのではないでしょうか。

似た考え方で、中央値というものがあります。
中央値はデータを大きさじゅんで並べた時の中央の値を指します。
平均値と合わせて算出することで、母集団のデータの偏りが把握しやすくなります。

また、合わせて覚えておきたい値に最頻値というものがあります。
最頻値はデータの中で最も頻度が高い値のことを指します。
平均値や中央値と合わせて算出することで、母集団の分布を把握しやすくなります。

分散と標準偏差とは

分散と標準偏差はどちらも平均値からの散らばりの度合いを把握するのに使う指標です。
分散は各データの平均値との差を二乗して合計し、データの個数で割って計算します。

つまり、全てのデータが同じ数値の場合には分散は0となり、データの散らばりが大きいほど数値が大きくなります。
標準偏差は分散で二乗したものを平方根をとった正の値のことを指します。
こちらも分散と同じく全ての値が同じ場合には分散は0になり、データの散らばりが大きいほど数値が大きくなります。
どちらも散らばり度合いを表す値ですが、一般的には標準偏差が使われることが多いです。

乱数とは

乱数とはサイコロを繰り返し振って得られるような次の数値が予測できないランダムな数値のことを指します。
コンピュータではサイコロを繰り返し振って得られる値のような無秩序な乱数を発生させることができないため、アルゴリズムによって計算された疑似乱数を乱数の代用として用いられています。

例えば、マーケティングにおいてテストコントロール比較を実施する際にターゲットの選定に乱数を用いてランダムにターゲットを抽出する時などに有用とされています。

独立とは

独立とは、２つの事象について一方がの事象が変化した時にもう一方の事象が変化しない。
そのような関係が相互に成立している状態を意味します。

例えば、コイントスで裏が出た時に、サイコロの６の面が出やすくなったり出にくくなったりすることはありません。
コイントスの結果に関わらず、サイコロのどの面が出る確率も必ず1/6です。
これはコイントスの結果とサイコロの出る面が独立していることを意味します。
また、２つの事象が独立であるかを調べる時には、カイ二乗分布を使ったカイ二乗検定を利用することで２つの事象が独立であるかを調べることができます。

機械学習（Machine Learning）とは

機械学習とはデータを分析する方法の１つでコンピュータがデータから反復的に自動で学習し、データの背景に潜むルールやパターンを発見する方法を指します。
学習した結果を新たなデータに当てはめることでルールやパターンに沿ってしょらいを予測することができます。
例えば、過去に存在したスパムメールを反復的に学習すると、学習を使ってスパムメールのルールやパターンに当てはまるメールは今後はじかれるよう構築することができます。

深層学習（Deep Learning）とは

深層学習とは人間が自然に行うタスクをコンピュータに学習させる機械学習の１つのことです。
深層学習では、人間の神経細胞の多層構造のニューラルネットワークを用いることが特徴となっており、画像認識や音声認識、翻訳などで大きな成果を生み出しています。
例えば自動運転技術においてもDeep Learningは使われていて、走行中の標識を認識したり、電柱と人間を区別したりと大きな成果を生み出しています。

教師あり学習/教師なし学習/教科学習とは

機械学習は学習方法によって、教師あり学習、教師なし学習、強化学習の３つの学習方法に大きく分類することができます。
教師あり学習は、特徴量データと正解データを与えて学習させる方法で、分類や回帰のタスクで用いられています。
教師なし学習は特徴量データのみを与えて学習させる方法で、クラスタリングや次元圧縮のタスクで用いられています。
強化学習は目的として設定された報酬を最大化させるための最適な行動を学習させるための方法でゲームAIやロボット制御の分野で最も用いられています。
それぞれの学習の例を紹介します。

教師あり学習は、受診したメールのスパム判定や過去の需要結果から将来の需要予測などに活用されています。
教師なし学習は、顧客セグメンテーション分類や不良品検知の仕組みなどに活用されています。
強化学習はチェスのAIや囲碁のAIのようなゲームAIがゲーム勝利する打ち手のための学習に活用されています。

量的変数/質的変数とは

データ分析で用いるデータ（変数）は、「量的変数」と「質的変数」の大きく２つに分類することができます。
量的変数とは数値で測ることができる量を表現する変数のことを示します。
例えば購買金額、購買点数、顧客の年齢、サービス継続年数は全て数値で測ることができる変数なので量的変数に分類されます。
一方、質的変数とは数値で測ることができない変数のことを指します。
例えば、顧客のメールアドレス、顧客の居住地、購買した商品カテゴリ、顧客との契約の種類などは全て数値では測ることができない変数なので、質的変数に分類されます。
また質的変数はカテゴリ変数とも呼ばれることもあります。

説明変数/目的変数とは

データ分析で予測を行う際に予測したい変数を「目的変数」と呼び、予測に使う変数を「説明変数」と呼びます。
予測式を関数で書き換えると、y=f(x)のyが目的変数、xが説明変数とそれぞれ呼ばれています。
立ち絵ば、複数の条件から家賃を予測する場合、予測する家賃が目的変数となり、間取り面積、築年数、駅からの距離などの条件が説明変数と呼ばれます。
実際の予測分析では目的変数の予測にどの説明変数が寄与しているという説明変数の影響度や設定の仕方が大事になります。

外的要因とは

データの分析において社内で持っている顧客データや購買データだけでなく、外的要因となるデータをうまく使うことで分析の精度が向上することがあります。

例えば、学生の長期休暇を含めたカレンダー情報、競合他社や業界の株価変動、冷夏や暖冬情報、世界的な為替変動、税制や法改正の影響など取得可能でかつサービスや顧客の購買に影響がありそうなデータを用いることで外的要因も含め分析精度の向上を測ることができます。
外的要因データを用いる場合、そのままの形で使えることはほとんどなく、データクレンジングやデータ形式を調整して社内データと組み合わせることができるよう前処理が必要です。

この記事を読まれたあなたは、こんなふうに感じたことはありませんか？

・転職や資格、独立も考えたけど、どれも本気になれず、やりたいことが見つからない…
・時間や場所にとらわれない働き方をしたいけど、今のキャリアを捨てたくない…
・昇進のチャンスがありそう。でも今の働き方を続ける自信はない…

専属プロコーチが、内に秘めた価値観を引き出し、
理想の「未来」を叶えるプランを用意します。
自宅で簡単に体験セッションができるので、お気軽にお試しください。

この記事が気に入ったらサポートをしてみませんか？