😽

Deep Learning資格試験応用数学確率・統計（１）

2021/12/31に公開

e資格

tech

はじめに

日本ディープラーニング協会の Deep Learning 資格試験（E 資格）の受験に向けて、調べた内容をまとめていきます。

集合

ものの集まりのこと。

例えば要素が a ～ e まである場合

S=\{a,b,c,d,e\}

集合 $S$ に要素 $a$ が含まれている場合

a\in{S} \\ or \\ S\ni{a}

集合 $S$ の中に集合 $M$ がある場合

M=\{a,b,c\} \\ M\subset{S} \\ or \\ S\supset{M}

集合 $S$ に含まれない要素 $x$

x\notin{S}

和集合

集合 $A,B$ があった時、いずれかに含まれる要素の集合。
イメージとしては OR
$\cup$ は「カップ」と読む。

A\cup{B}

共通部分

集合 $A,B$ があった時、両方に含まれる要素の集合。
イメージとしては AND
$\cap$ は「キャップ」と読む。

A\cap{B}

絶対補

全体集合を $U$ とした時、全体集合 $U$ に含まれる集合 $A$ に含まれない要素の集合。
集合 $A$ 以外を $\bar{A}$ とし、バーは否定を表す。

U\cap\bar{A}

相対補

集合 $A,B$ があった時、集合 $B$ に含まれない集合 $A$ の要素の集合。
絶対補と違い、全体集合を考えない。

B\cap\bar{A}

確率

頻度確率（客観確率）

発生する確率
例：「サイコロをふって１が出る確率」

ベイズ確率（主観確率）

ある現象の頻度や傾向の代わりに、確率を知識の状態を表す合理的な期待値
ある商店街の通りで、通行人が３人連続で男性だった。４人目は男性が通る確率の方が高い
過去の現象から、期待値を求める。たまたま男性が多く通る道なのかも。。。

条件付き確率

ある事象 $X=x$ が与えられた下で、 $Y=y$ となる確率

\begin{aligned} P(A \backslash B) = \frac{P(A \cap B)}{P(B)} \end{aligned}

独立な事象の同時確率

お互いの発生には因果関係のない事象 $X=x$ と事象 $Y=y$ が同時に発生する確率

\begin{aligned} P(A \cap B) &= P(A)P(B) \\[12px] &= P(B \cap A) \end{aligned}

ベイズ則

コロナウイルスの陽性反応が出た人のうち、本当に感染している人の割合
※偽陽性があるため、陽性反応が出ても完成していない場合がある。
※偽陰性があるため、本当は感染していても陽性反応がでない場合がある

\begin{aligned} P(A \backslash B) &= \frac{P(A \cap B)}{P(B)} \\[12px] &= \frac{P(A)P(B \backslash A)}{P(B)} \end{aligned}

期待値

その分布における確率変数の、平均値、もしくは「ありえそう」な値

事象 X	$X_1$	$X_2$	$\ldots$	$X_n$
確率変数 $f(X)$	$f(x_1)$	$f(x_2)$	$\ldots$	$f(x_n)$
確率 $P(X)$	$P(x_1)$	$P(x_2)$	$\ldots$	$P(x_n)$

期待値 $E(f)$ は、

\begin{aligned} E(f) = \sum_k^n P(X = x_k) f(X = x_k) \end{aligned}

連続する値なら、期待値 $E(f)$

\begin{aligned} E(f) = \int P(X = x) f(X = x)dx \end{aligned}

分散・共分散

分散

データの散らばり具合
データの各々の値が、期待値からどれだけずれているのか平均したもの

\begin{aligned} Var(f) &= E((f_{(X=x)}-E_{(f)})^2) \\[8px] &= E(f^2_{(X=x)}) - (E_{(x)})^2 \end{aligned}

共分散

二つのデータ系列の傾向の違い - 正の値をとれば似た傾向 - 負の値をとれば逆の傾向 - ゼロをとれば関係性に乏しい

\begin{aligned} Cov(f , g) &= E(f_{(X=x)} - E(f))(g_{(Y=y)} - E(g)) \\[8px] &= E(fg) - E(f)E(g) \end{aligned}

標準偏差

分散は２乗しているため、元のデータと単位が違う
　 ↓
平方根を求めれば、元の単位に戻る＝標準偏差という

\begin{aligned} \sigma &= \sqrt{Var(f)} \\[12px] &=\sqrt{E((f_{(X-x)}-E_{(f)})^2)} \end{aligned}

確率変数と確率分布

参考：確率変数と確率分布

確率変数

ある変数の値をとる確率が存在する変数のこと。
例えば、さいころを投げて出る目は｛1, 2, 3, 4, 5, 6｝のいずれかであり、それぞれの目が出る確率は $\frac{1}{6}$ であることから、さいころを投げて出る目は確率変数であるといえる。
確率変数には、「離散型」と「連続型」の２種類がある。

確率分布

確率変数がとる値とその値をとる確率の対応の様子を「確率分布」という。
例えば、さいころを投げる例では、1 から 6 までの確率変数の値にそれぞれ $\frac{1}{6}$ いう確率が対応しているので、確率分布といえる。

離散型確率変数

離散型変数はとびとびの値をとる変数のことで、隣り合う数字の間には値が存在しないものをいう。
離散型変数には、さいころの出る目や人数などが含まれます。

確率質量関数

離散型確率変数 $X$ がある値 $x$ をとる確率を関数 $f(x)$ とした場合、 $f(x)$ は「確率質量関数」という。
$X = x$ （ある値 $x$ ）となる確率は次のように表すことができる。

f(x)=P(X=x)

連続型確率変数

参考：連続型確率分布
参考：確率密度と確率密度関数

連続型変数は、重さや温度などのように連続した値をとるものを指します。
例えば重さの場合、50kg と 51kg の間には 50.5kg や 50.1kg、50.000001kg など無数の値が存在します。

確率密度

確率密度は定義域内でのの値の「相対的な出やすさ」を表す。

確率密度関数

連続型確率変数 $X$ について、ある関数 $y=f(x)$ が下式を満たすとき、 $f(x)$ は $X$ についての確率密度関数となる。

f(x) \geq 0, \hspace{20px} \int_{-{\infty}}^{\infty} f(x)dx = 1

このとき、確率変数 $X$ について、下のように表現できる。

P(a \leq x \leq b) = \int_a^b f(x)dx

期待値

E(X) = \int_{-{\infty}}^{\infty} xf(x)dx

分散

V(X) = E(X^2)-\{E(X)\}^2

様々な分布

参考

離散型分布	連続型分布
一様分布	連続一様分布
二項分布	正規分布
マルチヌーイ分布	指数分布
多項分布	t 分布
ポアソン分布	F 分布
幾何分布	カイ二乗分布

離散型分布

試行回数	２値分類	多クラス分類
１回	ベルヌーイ分布	マルチヌーイ分布
ｎ回	二項分布	多項分布

一様分布

参考

サイコロのイメージ

確率関数

\begin{aligned} P(X = x) &= \frac{1}{N} \quad (x=1,2,3, \dots , N) \end{aligned}

期待値

E(X) = \frac{N + 1}{2}

分散

V(X) = \frac{N^2 - 1}{12}

連続一様分布

確率関数

\begin{aligned} f(x) = \begin{cases} \frac{1}{b-a} \quad (a \leqq X \leqq b) \\ 0 \quad (X < a , X > b) \\ \end{cases} \end{aligned}

期待値

E(X) = \frac{a + b}{2}

分散

V(X) = \frac{(b - a)^2}{12}

ベルヌーイ分布

コイントスのイメージ
裏と表で出る割合が等しくない場合でも扱える
$n = 1$ の場合の二項分布に等しい。

事象 $x$ は{0,1}のいずれかの値をとる時に、 $x=1$ の時の発生確率を $p$ とする。

確率関数

f(x , p ）= p^x (1- p) ^{1-x}

期待値

E(X) = p

分散

V(X) = p(1-p)

二項分布

このベルヌーイ試行を回行って、成功する回数 $X$ が従う確率分布を「二項分布」という。

１回の試行に対して事情 $x$ は{0,1}のいずれかの値をとる時に、 $x=1$ の時の発生確率を $p$ とする。さらに、 $n$ 回の試行において $x=1$ となる回数を確率変数 $X$ とする。

確率関数

$X$ がある値 $x$ となる確率

\begin{aligned} P(X = x) &= {}_n\mathrm{C}_xp^x(1 - p)^{n - x} \\[12px] &= \frac{n!}{x!(n-x)!}p^x(1 - p)^{n-x} \end{aligned}

期待値

E(X) = np

分散

V(X) = np(1-p)

ポアソン分布

二項分布において、 $n$ が非常に大きく、 $p$ が極めてまれな現象であるときに従う確率分布である。
単位時間あたりにある事象が平均して $\lambda$ 回起こる場合に、その事象が $x$ 回起こる確率を示す。

確率関数

\begin{aligned} f(x) = \frac{e^{-\lambda}\lambda^x}{x!} \end{aligned}

期待値

E(X) = \lambda

分散

V(X) = \lambda

マルチヌーイ（カテゴリカル）分布

ベルヌーイ分布はバイナリの変数（裏表、0 か１）の確率分布を扱ったが、マルチヌーイ分布は変数が３つ以上のカテゴリに分かれる場合の確率分布。
さいころを転がすイメージ
各面の出る割合が等しくない場合でも扱える
$n = 1$ の場合の多項分布に等しい。

多項分布

多項分布はマルチヌーイ分布に従う試行を $n$ 回行なったもの。
二項分布を多項に拡張したものとも考えられる。

正規分布（ガウス分布）

釣鐘型の連続分布

$x$ ：ある事象 $x$ の確率変数
$\mu$ ：ある事象 $x$ の期待値、平均
$\sigma^2$ ：ある事象 $x$ の分散

確率関数

N(x;u,\sigma^2) = \frac{1}{\sigma \sqrt{2\pi}}exp \left(-\frac{(x-\mu)^2}{2\sigma^2} \right) (-\infty < x < \infty)

期待値

E(X) = \mu

分散

V(X) = \sigma^2

対数尤度関数

\begin{aligned} \log \prod_{i=1}^n p(y_i) &= \sum_{i=1}^n \log p(y_i) \\[12px] &= C - \frac{1}{2 \sigma^2}\sum_{i=1}^n (y_i - f(x_i))^2 \end{aligned}

ただし、 $C = -n \log \left(\sigma \sqrt{2 \pi} \right)$

分散 $\sigma^2$ はデータによらず一定と仮定しているため、上式の最大化問題は、下式の最小化問題と等価となる。

\begin{aligned} \sum_{i=1}^n (y_i - f(x_i))^2 \end{aligned}

はじめに

集合

和集合

共通部分

絶対補

相対補

確率

頻度確率 （客観確率）

ベイズ確率 （主観確率）

条件付き確率

独立な事象の同時確率

ベイズ則

期待値

分散・共分散

分散

共分散

標準偏差

確率変数と確率分布

確率変数

確率分布

離散型確率変数

確率質量関数

連続型確率変数

確率密度

確率密度関数

期待値

分散

様々な分布

離散型分布

一様分布

確率関数

期待値

分散

連続一様分布

確率関数

期待値

分散

ベルヌーイ分布

確率関数

期待値

分散

二項分布

確率関数

期待値

分散

ポアソン分布

確率関数

期待値

分散

マルチヌーイ（カテゴリカル）分布

多項分布

正規分布（ガウス分布）

確率関数

期待値

分散

対数尤度関数

Discussion

頻度確率（客観確率）

ベイズ確率（主観確率）