😺

機械学習基本用語集(第一弾:応用数学編)

2021/09/06に公開

はじめに

私自身AIの学習をはじめた際は、独学での知識習得から始めました。
その際、機械学習全般を基礎知識に体系的に習得することがうまくいかなく、かつ良い参考書も見つからなく困ったため、初学者の参考になればと思い本記事を執筆しました。

本記事に記載する項目としては、E資格シラバスをベースに整理しています。
第1弾としては応用数学項についての情報を以下に整理します。

応用数学

線形代数

No 用語 概要 数式
1 固有値分解 計算コストが下げられたり、データ量が減らせたりします。
行列Aは正方行列である必要がある。
A = VAV^{-1}
2 特異値分解 行列Aが正方行列でなくても、固有値分解のメリットを享受できます。 A = UΣV^{-1} or A = UΣV^{T}
固有値分解解法

確率・統計

No 用語 概要 数式
1 ベルヌーイの分布 結果がk=0かk=1である事象を表した分布。 確率関数:f(k;p) = P^{k}(1-P)^{1-k}
期待値:E(X)=p
分散:V(X)=p(1−p)
2 二項分布 互いに独立したベルヌーイ試行をn回行った時の確率分布。 確率関数:f(x) = P^{x}(1-P)^{n-x}
期待値:E(X)=np
分散:V(X)=np(1−p)
3 マルチヌーイの分布 各試行の結果はk個の値をとり、それぞれの値を取る確率も個別に異なる。 確率関数:f(k)=\frac{n!}{x_1!...x_k!}P_{1}^{x_1}...P_{k}^{x_k}
期待値:E(X_i)=np_i
分散:V(X_i)=np_i(1−p_i)
4 ガウス分布 正規分布。μ=0σ2=1の時は標準正規分布と呼ばれる。 確率関数:f(x)=\frac{1}{\sqrt{2πσ^{2}}}\exp(-\frac{(x-μ)^{2}}{2σ^{2}})
期待値:E(x)=μ
分散:V(x)=σ^2
5 ポアソン分布 与えられた時間中に平均λ回発生する事象が、ちょうどk回発生する確率。 確率関数:f(k)=\frac{λ^k}{k!}e^{-λ}
期待値:E(x)=μ
分散:V(x)=μ
6 ベイズ則 条件付き確率。事前事象が事 事象に影響する場合に用いる。 P(B \mid A) = \frac{P(A \mid B)P(B)}{P(A)}
ベイズの定理例題

情報理論

No 用語 概要 数式
1 自己情報量 起こりやすい事象ほど情報量が少なく、
起こりにくい事象ほど情報量が多い。
I(x) = -log(P(x))
1 エントロピー 決定的な分布のエントロピーは低く、
一様分布に近い分布のエントロピーは高い。
\sum_{i}P(x_i)I(x_i) = \sum_{i}-P(x_i)log(P(x_i))
2 KLダイバージェンス 2つの確率分布の差を測ることができる。
PとQが同分布ならば0となる。
D_{KL}(P \mid \mid Q) = \sum_{i}P(x_i)log(\frac{P(x_i)}{Q(x_i)}) = \sum_{i}P(x_i)(I_q(x_i)-I_p(x_i))
3 JSダイバージェンス KL Divergenceを平滑化+対称性を持たせたものがJS Divergenceである。 D_{JS}(P \mid \mid Q) = \frac{1}{2}D_{KL}(P \mid \mid M) + \frac{1}{2}D_{KL}(Q \mid \mid M)
3 シャノンエントロピー 確率密度の不確実性を量的に表現できる(自己情報量の期待値)。 E(I(x)) = -E(log(P(x))) = −∑(p(x)log(P(x)))
4 交差エントロピー PのエントロピーにPのQに対するKL情報量を足したもの。
機械学習の損失関数に使われる。
H(P, Q)=H(P) + D_{KL}(P \mid \mid Q) = -\sum_{i}P(x_i)log(Q(x_i))
5 最尤推定 最尤推定詳細を参照 argmax P(t \mid x,w,β)p(t \mid x,w,β)
最尤推定詳細

今後の予定

第2弾は機械学習項についてのまとめ記事を執筆予定です。

GitHubで編集を提案

Discussion