ラビットチャレンジレポート:ステージ1 応用数学

第一章 線形代数

1-1 要点

スカラー、ベクトル、行列の違い
■スカラー
 ・普通の数
 ・四則演算が可能
 ・ベクトルに対する係数になる
■ベクトル
 ・大きさと向きを持つ
 ・スカラーのセットで表示される
■行列
 ・スカラーを表にしたもの、ベクトルを並べたもの
 ・ベクトルの変換に使われる

行列同士の積は次のように定義される

行列は連立方程式の表現にも用いられる。
例として

上記の連立方程式は下記のように表現できる。

左辺の行列と右辺のベクトルに、左辺の行列が単位行列の形になるまで行基本変形(①i行目をc倍する、②s行目にt行目のc倍を加える、③p行目とq行目を入れ替える)を適用することで連立方程式の解を得ることができる。

$${I}$$を単位行列とし、$${AA^-1=A^-1A=I }$$となる時、$${A^{-1}}$$を$${A}$$の逆行列と呼ぶ。逆行列は掃き出し法を用いることにより求めることができる。

ある2×2の行列が2つの横ベクトルの組み合わせと考えた時、この二つのベクトルで作られる平行四辺形の面積が逆行列の有無を判別する。この面積を行列式と呼び、2×2の行列であれば下記のように定義される。

$$
\begin{vmatrix}a & b \\c & d\end{vmatrix} = ad - bc
$$

また、行列式が0の時、その行列の逆行列は存在しない。

ある行列$${A}$$、ベクトル$${\vec{x}}$$、係数$${\lambda}$$に次のような$${A{\vec{x}}={\lambda}{\vec{x}}}$$の関係がある時、$${\lambda}$$を$${A}$$の固有値、$${\vec{x}}$$を$${A}$$の固有ベクトルと呼ぶ。

ある正方行列$${A}$$が固有値$${\lambda_1,  \lambda_2 \dots}$$と固有ベクトル$${\vec{v}_1,  \vec{v}_2 \dots}$$を持つ時、

$$
{\Lambda}={\begin{pmatrix}\lambda_1 & & \\&\lambda_2& \\ & &\ddots\end{pmatrix}}
$$

$$
V=\begin{pmatrix}\vec{v}_1 & \vec{v}_2&\dots\end{pmatrix}
$$


とおくと


$$
{AV = V\Lambda}
$$

$$
A=V{\Lambda}V^{-1}
$$

のように変形することができ、これを行列$${A}$$の固有値分解と呼ぶ。

正方行列ではない行列の場合($${M}$$とする)、

$$
M{\vec{v}} = {\sigma}{\vec{u}} \\
M^\mathsf{T}{\vec{u}} = {\sigma}{\vec{v}}\\

$$

となる単位ベクトル$${\vec{u},\vec{v}}$$が存在する時、行列Mは

$$
M = USV^{-1}
$$

と分解できる。これを特異値分解と言う。
ここで、$${U、S、V}$$は、それぞれ左特異ベクトル、特異値、右特異ベクトルであり、以下のように書ける。

$$
U = \begin{pmatrix}\vec{u}_1 & \vec{u}_2 & \dots \end{pmatrix}
$$

$$
S = \begin{pmatrix}{\sigma_1} & & \\ & {\sigma_2} & \\ & & \ddots\end{pmatrix}
$$

$$
V=\begin{pmatrix}\vec{v}_1 & \vec{v}_2&\dots\end{pmatrix}
$$

第二章 確率・統計

2-1 要点

■確率に対する2つの考え方
①頻度確率(客観確率)
 客観的な発生する頻度をもとに考えられる確率。
 「10本中1本だけ当たりのクジが当選する確率を調査し、
 10%であった」等。
②ベイズ確率(主観確率)
 信念の度合い
 「あなたは40%の確率でインフルエンザです」
 という診断等。

■条件付き確率
 ある事象$${X = x}$$が与えられた時の、$${Y = y}$$となる確率。
 例:降雨時$${(X =x)}$$の交通事故発生確率$${(Y=y)}$$等。
 下式のように書くことができる。
 ただし、右辺の分子は$${X = x}$$と$${Y = y}$$の同時確率。

$$
P(Y=y\vert X=x)=\frac {P(Y=y,X=x)} {P(X =x)}
$$

■独立な事象の同時確率
 事象$${X=x}$$と事象$${Y=y}$$が独立(因果関係がない)の場合
 これらの同時確率は下式のように書ける。

$$
P(X=x,Y=y)=P(X=x)P(Y=y)=P(Y=y,X=x)
$$

■ベイズ則
 条件付き確率の式は$${X=x}$$と$${Y=y}$$を入れ替えて書くこともできるため
 下記のベイズ則が成り立つ。

$$
P(X=x\vert Y=y)P(Y=y)=P(Y=y\vert X=x)P(X=x)
$$

■確率変数と確率分布
・確率変数
 事象と結びつけられた数値。
・確率分布
 事象の発生する確率の分布。

■期待値
 その分布における、確率変数の平均の値。
 確率分布が離散値と連続地の場合で、それぞれ期待値$${E}$$は
 下式のように書ける。ただし、関数$${f}$$は確率変数$${x}$$が取る値である。

$$
E(f)=\displaystyle\sum_{k=1}^nP(X=x_k)f(X=x_k) \\
E(f)=\int P(X=x)f(X=x)dx
$$

■分散と共分散
・分散
 データの散らばり具合。
 データの各々の値の、期待値からの差の2乗について
 期待値を取ったもの。
・共分散
 2つのデータ系列の傾向の違い。
 正であれば似た傾向、負であれば逆の傾向、0であれば
 関係性に乏しい

分散$${Var}$$と共分散$${Cov}$$はそれぞれ以下のように書ける。

$$
\begin{align*}
Var(f)&=E((f_{(X=x)}-E_{(f)})^2)\\
&=E(f^2_{(X=x)})-(E_{(f)})^2\\
\end{align*}\\
$$

$$
\begin{align*}
Cov(f,g)&=E((f_{(X=x)}-E_{(f)})(g_{(Y=y)}-E_{(g)}))\\
&=E(fg)-E(f)E(g)
\end{align*}
$$

■標準偏差
 分散はデータと期待値の差を2乗しているため
 元のデータと単位が異なる。単位を戻すために
 分散の平方根を取る場合があり、この値を
 標準偏差$${(\sigma)}$$と呼ぶ。

第三章 情報理論

3-1 要点

■自己情報量
 自己情報量$${I(x)}$$は下式で定義される。
 対数の底が2の時、単位はbit、ネイピア数$${e}$$の時、単位はnat

$$
\begin{align*}
I(x)&=-log(P(x))\\
&=log(W(x))
\end{align*}
$$

■シャノンエントロピー$${(H(x))}$$
 自己情報量の期待値として定義される。

$$
\begin{align*}
H(x)&=E(I(x))\\
&=-E(log(P(x)))\\
&=-\sum(P(x)log(P(x)))
\end{align*}
$$

■カルバック・ライブラーダイバージェンス$${(D_{KL}(P\vert \vert Q))}$$
 同じ事象・確率変数における異なる確率分布$${P,Q}$$の違いを表す。

$$
\begin{align*}
D_{KL}(P\vert \vert Q)&=\mathbb E_{X~P}\lbrack {\log}\frac {P(x)} {Q(x)} \rbrack\\
&=\mathbb E_{X~P}\lbrack {\log}{P(x)}-{\log}{Q(x)}\rbrack
&=\displaystyle\sum_x P(x){\log}\frac{P(x)} {Q(x)}
\end{align*}
$$

■交差エントロピー$${(H(P,Q))}$$
 ・KLダイバージェンスの一部分を取り出したもの
 ・$${Q}$$についての自己情報量を$${P}$$の分布で平均している

$$
\begin{align*}
H(P,Q)&=-\mathbb E_{X~P} {\log}{Q(x)}\\
&=\displaystyle\sum_x P(x){\log} {Q(x)}
\end{align*}
$$

この記事が気に入ったらサポートをしてみませんか?