😽

Deep Learning資格試験 応用数学 確率・統計(1)

2021/12/31に公開

はじめに

日本ディープラーニング協会の Deep Learning 資格試験(E 資格)の受験に向けて、調べた内容をまとめていきます。

集合

ものの集まりのこと。

例えば要素が a ~ e まである場合

S=\{a,b,c,d,e\}

集合Sに要素aが含まれている場合

a\in{S} \\ or \\ S\ni{a}

集合Sの中に集合Mがある場合

M=\{a,b,c\} \\ M\subset{S} \\ or \\ S\supset{M}

集合Sに含まれない要素x

x\notin{S}

和集合

集合A,Bがあった時、いずれかに含まれる要素の集合。
イメージとしては OR
\cupは「カップ」と読む。

A\cup{B}

共通部分

集合A,Bがあった時、両方に含まれる要素の集合。
イメージとしては AND
\capは「キャップ」と読む。

A\cap{B}

絶対補

全体集合をUとした時、全体集合Uに含まれる集合Aに含まれない要素の集合。
集合A以外を\bar{A}とし、バーは否定を表す。

U\cap\bar{A}

相対補

集合A,Bがあった時、集合Bに含まれない集合Aの要素の集合。
絶対補と違い、全体集合を考えない。

B\cap\bar{A}

確率

頻度確率 (客観確率)

  • 発生する確率
  • 例:「サイコロをふって1が出る確率」

ベイズ確率 (主観確率)

  • ある現象の頻度や傾向の代わりに、確率を知識の状態を表す合理的な期待値
  • ある商店街の通りで、通行人が3人連続で男性だった。4人目は男性が通る確率の方が高い
  • 過去の現象から、期待値を求める。たまたま男性が多く通る道なのかも。。。

条件付き確率

ある事象X=xが与えられた下で、Y=yとなる確率

\begin{aligned} P(A \backslash B) = \frac{P(A \cap B)}{P(B)} \end{aligned}

独立な事象の同時確率

お互いの発生には因果関係のない事象 X=x と事象 Y=y が同時に発生する確率

\begin{aligned} P(A \cap B) &= P(A)P(B) \\[12px] &= P(B \cap A) \end{aligned}

ベイズ則

コロナウイルスの陽性反応が出た人のうち、本当に感染している人の割合
※偽陽性があるため、陽性反応が出ても完成していない場合がある。
※偽陰性があるため、本当は感染していても陽性反応がでない場合がある

\begin{aligned} P(A \backslash B) &= \frac{P(A \cap B)}{P(B)} \\[12px] &= \frac{P(A)P(B \backslash A)}{P(B)} \end{aligned}

期待値

  • その分布における確率変数の、平均値、もしくは「ありえそう」な値
事象 X X_1 X_2 \ldots X_n
確率変数f(X) f(x_1) f(x_2) \ldots f(x_n)
確率P(X) P(x_1) P(x_2) \ldots P(x_n)

期待値 E(f)は、

\begin{aligned} E(f) = \sum_k^n P(X = x_k) f(X = x_k) \end{aligned}

連続する値なら、期待値 E(f)

\begin{aligned} E(f) = \int P(X = x) f(X = x)dx \end{aligned}

分散・共分散

分散

  • データの散らばり具合
  • データの各々の値が、期待値からどれだけずれているのか平均したもの
\begin{aligned} Var(f) &= E((f_{(X=x)}-E_{(f)})^2) \\[8px] &= E(f^2_{(X=x)}) - (E_{(x)})^2 \end{aligned}

共分散

  • 二つのデータ系列の傾向の違い - 正の値をとれば似た傾向 - 負の値をとれば逆の傾向 - ゼロをとれば関係性に乏しい
\begin{aligned} Cov(f , g) &= E(f_{(X=x)} - E(f))(g_{(Y=y)} - E(g)) \\[8px] &= E(fg) - E(f)E(g) \end{aligned}

標準偏差

分散は2乗しているため、元のデータと単位が違う
  ↓
平方根を求めれば、元の単位に戻る = 標準偏差という

\begin{aligned} \sigma &= \sqrt{Var(f)} \\[12px] &=\sqrt{E((f_{(X-x)}-E_{(f)})^2)} \end{aligned}

確率変数と確率分布

参考:確率変数と確率分布

確率変数

  • ある変数の値をとる確率が存在する変数のこと。
  • 例えば、さいころを投げて出る目は{1, 2, 3, 4, 5, 6}のいずれかであり、それぞれの目が出る確率は\frac{1}{6}であることから、さいころを投げて出る目は確率変数であるといえる。
  • 確率変数には、「離散型」と「連続型」の2種類がある。

確率分布

  • 確率変数がとる値とその値をとる確率の対応の様子を「確率分布」という。
  • 例えば、さいころを投げる例では、1 から 6 までの確率変数の値にそれぞれ\frac{1}{6}いう確率が対応しているので、確率分布といえる。

離散型確率変数

  • 離散型変数はとびとびの値をとる変数のことで、隣り合う数字の間には値が存在しないものをいう。
  • 離散型変数には、さいころの出る目や人数などが含まれます。

確率質量関数

  • 離散型確率変数Xがある値xをとる確率を関数f(x)とした場合、f(x)は「確率質量関数」という。
  • X = x(ある値x)となる確率は次のように表すことができる。
f(x)=P(X=x)

連続型確率変数

参考:連続型確率分布
参考:確率密度と確率密度関数

  • 連続型変数は、重さや温度などのように連続した値をとるものを指します。
  • 例えば重さの場合、50kg と 51kg の間には 50.5kg や 50.1kg、50.000001kg など無数の値が存在します。

確率密度

  • 確率密度は定義域内でのの値の「相対的な出やすさ」を表す。

確率密度関数

連続型確率変数Xについて、ある関数y=f(x)が下式を満たすとき、f(x)Xについての確率密度関数となる。

f(x) \geq 0, \hspace{20px} \int_{-{\infty}}^{\infty} f(x)dx = 1

このとき、確率変数Xについて、下のように表現できる。

P(a \leq x \leq b) = \int_a^b f(x)dx

期待値

E(X) = \int_{-{\infty}}^{\infty} xf(x)dx

分散

V(X) = E(X^2)-\{E(X)\}^2

様々な分布

参考

離散型分布 連続型分布
一様分布 連続一様分布
二項分布 正規分布
マルチヌーイ分布 指数分布
多項分布 t 分布
ポアソン分布 F 分布
幾何分布 カイ二乗分布

離散型分布

試行回数 2値分類 多クラス分類
1回 ベルヌーイ分布 マルチヌーイ分布
n回 二項分布 多項分布

一様分布

参考

  • サイコロのイメージ

確率関数

\begin{aligned} P(X = x) &= \frac{1}{N} \quad (x=1,2,3, \dots , N) \end{aligned}

期待値

E(X) = \frac{N + 1}{2}

分散

V(X) = \frac{N^2 - 1}{12}

連続一様分布

確率関数

\begin{aligned} f(x) = \begin{cases} \frac{1}{b-a} \quad (a \leqq X \leqq b) \\ 0 \quad (X < a , X > b) \\ \end{cases} \end{aligned}

期待値

E(X) = \frac{a + b}{2}

分散

V(X) = \frac{(b - a)^2}{12}

ベルヌーイ分布

  • コイントスのイメージ
  • 裏と表で出る割合が等しくない場合でも扱える
  • n = 1 の場合の二項分布に等しい。

事象xは{0,1}のいずれかの値をとる時に、x=1の時の発生確率をpとする。

確率関数

f(x , p )= p^x (1- p) ^{1-x}

期待値

E(X) = p

分散

V(X) = p(1-p)

二項分布

  • このベルヌーイ試行を回行って、成功する回数Xが従う確率分布を「二項分布」という。

1回の試行に対して事情xは{0,1}のいずれかの値をとる時に、x=1の時の発生確率をpとする。さらに、n回の試行においてx=1となる回数を確率変数Xとする。

確率関数

Xがある値xとなる確率

\begin{aligned} P(X = x) &= {}_n\mathrm{C}_xp^x(1 - p)^{n - x} \\[12px] &= \frac{n!}{x!(n-x)!}p^x(1 - p)^{n-x} \end{aligned}

期待値

E(X) = np

分散

V(X) = np(1-p)

ポアソン分布

  • 二項分布において、nが非常に大きく、pが極めてまれな現象であるときに従う確率分布である。
  • 単位時間あたりにある事象が平均して\lambda回起こる場合に、その事象がx回起こる確率を示す。

確率関数

\begin{aligned} f(x) = \frac{e^{-\lambda}\lambda^x}{x!} \end{aligned}

期待値

E(X) = \lambda

分散

V(X) = \lambda

マルチヌーイ(カテゴリカル)分布

  • ベルヌーイ分布はバイナリの変数(裏表、0 か1)の確率分布を扱ったが、マルチヌーイ分布は変数が3つ以上のカテゴリに分かれる場合の確率分布。
  • さいころを転がすイメージ
  • 各面の出る割合が等しくない場合でも扱える
  • n = 1 の場合の多項分布に等しい。

多項分布

  • 多項分布はマルチヌーイ分布に従う試行を n 回行なったもの。
  • 二項分布を多項に拡張したものとも考えられる。

正規分布(ガウス分布)

  • 釣鐘型の連続分布

x:ある事象 x の確率変数
\mu:ある事象 x の期待値、平均
\sigma^2:ある事象 x の分散

確率関数

N(x;u,\sigma^2) = \frac{1}{\sigma \sqrt{2\pi}}exp \left(-\frac{(x-\mu)^2}{2\sigma^2} \right) (-\infty < x < \infty)

期待値

E(X) = \mu

分散

V(X) = \sigma^2

対数尤度関数

\begin{aligned} \log \prod_{i=1}^n p(y_i) &= \sum_{i=1}^n \log p(y_i) \\[12px] &= C - \frac{1}{2 \sigma^2}\sum_{i=1}^n (y_i - f(x_i))^2 \end{aligned}

ただし、C = -n \log \left(\sigma \sqrt{2 \pi} \right)

分散\sigma^2はデータによらず一定と仮定しているため、上式の最大化問題は、下式の最小化問題と等価となる。

\begin{aligned} \sum_{i=1}^n (y_i - f(x_i))^2 \end{aligned}

Discussion