🍀
「統計検定データサイエンスエキスパート」チートシート

2023/02/25に公開
ITやAI/機械学習の発展・活用が広がる中、データから知見を生み出すデータサイエンスの重要性がこれまで以上に高まっています。このデータサイエンスの専門的なスキルを評価する資格試験として「統計検定データサイエンスエキスパート」があります。
統計検定 データサイエンスエキスパート（DSエキスパート）

https://www.toukei-kentei.jp/grade/ds_expert/
この試験は2025年1月末現在、公式テキストや過去問が無い状態です。

そんな中で合格を目指す方向けに出題範囲表のキーワードの概要をまとめたチートシートを公開します。
学習漏れの確認や、テスト前の確認用に利用してください。

間違いや分かりにくい所があれば連絡してください。
筆者はこのチートシートで最終確認をしてこの試験に合格しています。

試験では、このチートシートの背景となる基本的な考え方や計算も求められました。

別のテキストで学習の上、このチートシートは最終確認として用いるのが良さそうです。

大項目
中項目
小項目
キーワード(学習しておくべき用語)
概要

統計基礎
確率と確率分布
確率分布・確率変数
チェビシェフの不等式
分布と標準偏差の関係。
IAI_AIA​をAの時1、それ以外を0である確率変数、\varepsilonを任意の正の実数として、
I_{|X-E[X]|/\varepsilon \geq 1}=I_{|X-E[X]|^2/\varepsilon^2 \geq 1}\leq |X-E[X]|^2/\varepsilon^2
なので
\displaystyle \Pr ( \left| X-E[X]\right|\geq \varepsilon )\leq \frac{E[\left| X-E[X]\right|^2]}{\varepsilon^2}

積率(モーメント)

\alphaに関するn次モーメント=E\left[(X- \alpha )^n \right]

尖度
正規分布と比較した鋭さを表す統計量。
\mu=E[X]
\mu_r=E\left[(X-\mu)^r\right]に対して
尖度\displaystyle\beta_2=\frac{\mu_4}{{\mu_2}^2} - 3

歪度
歪みを表す統計量。
- 右裾が長い分布は正の値。
- 左裾が長い分布は負の値。
- 左右対称の分布は0。
歪度\displaystyle\beta_3=\frac{\mu_3}{{\mu_2}^{3/2}}

積率(モーメント)母関数

M_X(t)=E\left[e^{tX}\right]
ここから
\displaystyle E \left[X^n \right] = \left .M_X^{(n)}\right |_{t=0} = \left . \frac{d^n M_X}{dt^n}\right |_{t=0}
積分が収束せず積率(モーメント)と積率母関数が存在しない場合は特性関数を使うこともある。
n次元では
M_{\boldsymbol X}(\boldsymbol{t})= E\left[e^{\boldsymbol{t} \cdot \boldsymbol{X}}\right]

その他の母関数
特性関数\varphi_X(t) = M_{iX}(t) = M_X(it)
確率母関数G(z) = E[z^X]

母関数の性質
- 確率変数と母関数は一対一対応する。
- 2つの独立な確率変数の和は、それぞれの確率変数の母関数の積に対応

主要な確率分布
対数正規分布
確率密度関数\displaystyle f(x)=\frac{1}{\sqrt{2\pi} \sigma x} \exp \left( -\frac{ (\log{x}-\mu)^2}{2\sigma^2} \right)
累積分布関数\displaystyle \frac{1}{2} \operatorname{erfc} \! \left[-\frac{\log x-\mu}{\sqrt{2} \sigma} \right]
期待値\displaystyle e^{\mu +\sigma^2 /2}
中央値\displaystyle e^{\mu}
最頻値\displaystyle e^{\mu -\sigma^2}
分散e^{2\mu +\sigma^2} (e^{\sigma^2} -1)

ガンマ分布
任意の時間にイベントが何回発生するのかを表す分布
確率密度関数\displaystyle f(x)=\frac{\lambda^k}{\Gamma (k)} x^{k-1} e^{-\lambda x}
累積分布関数\displaystyle \frac{\gamma (k,\lambda x)}{\Gamma (k)}
期待値\displaystyle \theta =\frac{k}{\lambda}
分散\displaystyle \frac{k}{\lambda^2}
積率母関数\left( \dfrac{\lambda}{\lambda -t} \right)^k

ベータ分布
二項分布における確率の分布と解釈できる。
確率密度関数\displaystyle f(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\operatorname{B} (\alpha,\beta)}
期待値\displaystyle \operatorname{E} [X]=\frac{\alpha}{\alpha +\beta}
最頻値\displaystyle \frac{\alpha-1}{\alpha+\beta-2}

超幾何分布
成功状態をもつ母集団から非復元抽出したときに成功状態がいくつあるかという確率を与える離散確率分布
確率関数\displaystyle p_k=\frac{{}_{K}C_{k}{}_{N-K}C_{n-k}}{{}_{N}C_{n}}
期待値\displaystyle n {K\over N}
分散\displaystyle n\frac{K}{N} \frac{N-K}{N} \frac{N-n}{N-1}

負の二項分布

k回成功するまでの失敗回数Xが従う離散確率分布
確率関数\displaystyle p_k={}_{k+x-1}C_{k}(1-p)^xp^k
期待値\displaystyle\frac{k(1-p)^x}{p}
分散\displaystyle\frac{k(1-p)}{p^2}

確率変数の漸近的性質
大数の法則
試行を繰り返すことで標本平均は真の平均に近づく。
チェビシェフの不等式より
\displaystyle 0 \le P(\left\vert \bar{X}_n - \mu \right\vert > \varepsilon)\le \frac{1}{\varepsilon^2} V(\bar{X}_n)= \frac{1}{\varepsilon^2}\frac{\sigma^2}{n}\to 0 \quad (n \to \infty)

中心極限定理
任意の確率分布に従う母集団から抽出された標本の数が十分多い場合, 標本平均の分布は正規分布に従うこと。
\displaystyle P \left( \frac{S_n - n \mu}{\sqrt{n}\sigma} \le \alpha \right) \to \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\alpha} e^{-x^2/2} dx \qquad (n \to \infty).
これは積率(特性)母関数をマクローリン展開することで導かれる。

確率収束
任意の正の実数\varepsilonに対してn\to\inftyで次を満たすとき、確率変数列X_nがXに確率収束するという。
\Pr\{|X_n-X|>\varepsilon\}=0

分布収束
確率変数列\{X_n\}に対してX_nの分布関数をF_n(x)=P(X_n\leq x)とする。\{X_n\}が確率分布Gに分布収束(法則収束)するとは、
\lim_{n\to\infty}F_n(x)=G(x)
がGのすべての連続点xにおいて成り立つことをいう。
- X_nがXに分布収束し、gが連続関数ならばg(X_n)はg(X)に分布収束する。
- X_nの積率母関数M_nとXの積率母関数Mに対して各実数tに対してM_n(t)\to M(t)となるときX_nはXに分布収束する。
- 独立同分布に従う確率変数列の部分和を標準化すると期待値0、分散1の正規分布に分布収束する。
- \bar{X}_n = (X_1 + \dotsb + X_n)/nは平均\mu, 分散\sigma^2/nの正規分布N(\mu,\sigma^2/n)に分布収束する。

推測統計
標本分布
カイ二乗分布
独立に標準正規分布に従うk個の確率変数X_1,......,X_kに対して統計量
\displaystyle Z=\sum_{k=1}^k X_k^2が従う分布のことを自由度kのカイ二乗分布と呼ぶ。
確率密度関数\displaystyle f(x)=\frac{x^{k/2-1}e^{-x/2}}{\,2^{k/2} \Gamma(k/2)}
期待値k
分散2k
モーメント母関数\displaystyle \frac{1}{(1-2t)^{k/2}}

標本平均と標本分散の独立性

\bar{X}とs^2=\sum_{k=1}^{n}(X_k-\bar{X})^2/(n-1)は独立
(\bar{X}-\mu)/(\sigma/\sqrt{n})=\sqrt{n}(\bar{X}-\mu)/\sigma\sim N(0,1)
(n-1)s^2/\sigma^2=\sum_{k=1}^n(X_k-\bar{X})/\sigma)^2\sim\chi^2(n-1)

t 分布

Z\sim N(0,1),Y\sim\chi^2(n)でこれらが互いに独立な時、\displaystyle T=\frac{Z}{\sqrt{\displaystyle\frac{Y}{n}}}が従う分布を自由度nのt分布t(n)と言う。
確率密度関数\displaystyle f(x)=\frac{\Gamma (\frac{n+1}{2} )}{\sqrt{n\pi} \, \Gamma (\frac{n}{2} )} \left( 1+\frac{t^2}{n} \right)^{-(\frac{n+1}{2})}

F 分布

Y_1\sim\chi^2(n_1), Y_2\sim\chi^2(n_2)で、これらが互いに独立な時、\displaystyle X=\frac{Y_1/n_1}{Y_2/n_2}が従う分布をF分布F(n_1, n_2)という。
確率密度関数\displaystyle f(x)=\frac{n_1^{\frac{n_1}{2}}n_2^{\frac{n_2}{2}}}{B(n_1,n_2)}\frac{x^{\frac{n_1}{2}-1}}{(n_2+n_1 x)^{\frac{n_1+n_2}{2}}}

点推定・区間推定
一致性
推定量\hat{\theta}、真の値を\thetaとして\displaystyle\lim_{n\to\infty}\Pr(|\hat{\theta}_n-\theta|<\varepsilon)=1のとき、\hat{\theta}を\thetaの一致推定量という。
E[\hat{\theta}]=\thetaのとき、\hat{\theta}を\thetaの不偏推定量という。
b_\theta=E_\theta[\hat{\theta}]-\thetaをバイアスと言う。
E[X^2]=E[X]^2+V[X]よりE_\theta[(\hat{\theta}-\theta)^2]=(b_\theta(\hat{\theta})^2+V_\theta[\hat\theta]をバイアス・バリアンス分解という。

有効性
バイアス項が0となる不偏推定量のうち平均二乗誤差を最小化する推定量は分散V[\hat\theta]を最小化する推定量であり、これを一様最小不偏分散という。
- 分散フィッシャー情報量\displaystyle J_n(\theta)=E_\theta\left[\left(\frac{\partial}{\partial\theta}\log f(X_1,......,X_n;\theta)\right)^2\right]=-E_\theta\left[\frac{\partial^2}{{\partial\theta}^2}\log f(X_1,......,X_n;\theta)\right]
- クラメール・ラオの不等式：V_\theta[\hat\theta]\geq J_n(\theta)^{-1}
この等号を満たす不偏推定量を有効推定量と言い、一様最小分散不偏推定量である。有効推定量が存在しないことも有る。

信頼区間と信頼係数
未知母数\thetaが確率的に変動する区間に含まれる確率がpのとき、この区間を信頼区間、pを信頼率または信頼係数と呼ぶ。信頼区間の上限と下限を信頼限界と呼ぶ。
母集団分布が正規分布N(\mu,\sigma^2)に従っており、\sigma^2を既知として母平均\muの区間推定をする場合、標本平均\bar Xを用いて95%信頼区間は(\bar X-1.96\sqrt{\sigma^2/n},\bar X+1.96\sqrt{\sigma^2/n})となる。

分散の区間推定

T^2=\sum_{k=1}^n(X_k-\bar X)^2に対して\displaystyle\chi^2=\frac{T^2}{\sigma^2}は自由度n-1のカイ二乗分布に従う。
P(\chi^2_{0.975}(n-1)\leq\chi^2\leq\chi^2_{0.025}(n-1))=0.95なので、
\displaystyle P\left(\frac{T^2}{\chi^2_{0.025}(n-1)}\leq\sigma^2\leq\frac{T^2}{\chi^2_{0.975}(n-1)}\right)=0.95

分散の比の区間推定
互いに独立した集団に対して、(標本)不偏分散をV_k、標本数をn_kとすると、\displaystyle F=\frac{V_1/\sigma_1}{V_2/\sigma_2}は自由度(n_1-1,n_2-1)のF分布に従う。
P(F_{0.975}(n_1-1,n_2-1)\leq F\leq F_{0.025}(n_1-1,n_2-1))なので、
\displaystyle P\left(\frac{V_1}{V_2}\frac{1}{F_{0.025}(n_1-1,n_2-1)}\leq\frac{\sigma_1^2}{\sigma_2^2}\leq\frac{V_1}{V_2}\frac{1}{F_{0.975}(n_1-1,n_2-1)}\right)

多項分布の信頼区間
1つの事象に着目した場合多項分布は二項分布に帰着しE[\hat p_i]=p_i, V[\hat p_i]=p_i(1-p_i)/nである。試行回数nが大きいとき検定統計量\displaystyle u_i=\frac{\hat p_i-p_i}{\sqrt{\hat p_i(1-\hat p_i)/n}}は漸近的に標準正規分布に従うので、正規分布の信頼区間を利用することができる。

多項分布の差の信頼区間

E[\hat p_1-\hat p_2]=p_1-p_2, V[\hat p_1-\hat p_2]=p_1(1-p_1)/n+p_2(1-p_2)/n+2p_1p_2/nである。試行回数nが大きいとき検定統計量\displaystyle u=\frac{(\hat p_1-\hat p_2)-(p_1-p_2)}{\sqrt{\hat p_1(1-\hat p_1)/n+\hat p_2(1-\hat p_2)/n+2\hat p_1\hat p_2/n}}は漸近的に標準正規分布に従うので、正規分布の信頼区間を利用することができる。

汎用的な検定
尤度比検定
帰無仮説H_0:\theta\in\Theta_0、対立仮説H_1:\theta\in\Theta_1に対して、Xの確率密度関数または確率関数をf(x;\theta)としたとき、
\displaystyle L=\frac{\sup_{\theta\in\Theta_1}f(x;\theta)}{\sup_{\theta\in\Theta_0}f(x;\theta)}を尤度比と言う。
尤度比は試行回数nが無限に大きくなる時、
2\log L\xrightarrow{p}\chi^2(p)と分布収束する。
ただし、p=対立仮説の下で自由に動けるパラメタ数-帰無仮説の下で自由に動けるパラメタの数

ノンパラメトリック検定
パラメトリック検定は母集団分布の仮定の下で検定統計量が従う分布を用いて行う検定。
ノンパラメトリック検定は母集団分布の仮定を設けることなく行う検定。

ウィルコクソンの順位和検定
対応のないt検定に相当するノンパラメトリック検定。
2つの標本A, Bに対して順位(同順位がある場合は順位の中央値)の合計値W_A, W_B、サンプルサイズn_A,n_Bとする。順位のすべての組み合わせ{}_{n_A+n_B}C_{n_A}のうちW_Aが観測値以下となる確率がP値となる。
サンプルサイズが大きい場合は\displaystyle w=\frac{W_A-E[W_A]}{\sqrt{V[W_A]}}, E[W_A]=\frac{n_A(n_A+n_B+1)}{2}, V[W_A]=\frac{n_An_B(n_A+n_B+1)}{12}(同順位が無い場合)が正規分布に従うことを利用して検定を行う。

ウィルコクソンの符号順位検定
対応のあるt検定に相当するノンパラメトリック検定。
全2n回の観察で、n個の対象に対し各2回の観察を行うとする。対象iに対する1回目の測定値をx_i、2回目の測定値をy_{i}、その差をz_i=y_i-x_iとする。0を除いたn個の絶対値|z_i|の順位をR_iとし、z_i>0の順位の総和をWとする。これ以上のWが得られる確率がP値となる。
nが多くなるとWの分布は平均\dfrac{n(n+1)}{4}、分散\dfrac{n(n+1)(2n+1)}{24}の正規分布に従うことを利用して検定を行う。

並べ替え検定
すべてのデータを使って並び替えて得られた全ての組み合わせのうち、元データの組み合わせの平均値の差より大きな値が得られる確率を算出し、この確率を元に検定を行う。

種々の検定
一元配置分散分析
分散分析は、複数のグループ間の平均値に差があるかどうかを検定する統計手法。1つの要因（因子）の異なる水準間で、平均値に差があるかどうかを検定する。 
 F統計量: \dfrac{群間変動}{群内変動} 
 群間変動: 各群の平均と全体の平均の差の二乗和 
 群内変動: 各群内のデータのばらつき

二元配置分散分析
2つの要因の影響を同時に分析します。交互作用とは、2つの要因が組み合わさることで、それぞれの単独の効果とは異なる効果が現れること。 
 F統計量: 各要因の効果、交互作用の効果をそれぞれ検定する。

交互作用
交互作用は、2つの要因が組み合わさることで、それぞれの単独の効果とは異なる効果が現れること。例えば、ある薬の効果が、年齢によって異なる場合、薬と年齢の間に交互作用があると解釈できる。

適合度検定
観測された度数分布が、理論的な分布（例えば、正規分布、ポアソン分布）に適合しているかどうかを検定する手法。観測された度数と、理論的な分布から計算される期待度数の差をカイ二乗統計量で評価します。 
 カイ二乗統計量: \dfrac{\sum(観測度数 - 期待度数)^2}{期待度数}

多重比較
ボンフェロニ補正
複数の仮説が検定されるとすると、稀な事象を観察する可能性が高まり、その結果として、帰無仮説を誤って棄却する(すなわち第一種過誤を犯す)可能性が高まる。ボンフェローニ補正は、有意水準\displaystyle \alpha /mは望ましい全体としての\alpha水準、mは仮説の数で個々の仮説を検証することによって第一種過誤を犯す可能性の高まりを補正する。
例えば、1回の試行がm=20個の仮説を望む\alpha =0.05の水準で検定しているとすると、ボンフェローニ補正は個別の仮説を\alpha =0.05/20=0.0025の水準で検定する。

ベイズ理論
事前分布・事後分布
事前分布・事後分布

p(A,B)=p(A|B)p(B)=p(B|A)p(A)より
\displaystyle p(A|B)=\frac{p(B|A)p(A)}{p(B)}
このp(A|B)を(Bが与えられた時のAの)事後確率、p(B|A)を(Bに対するAの)尤度、p(A)を事前確率という。

共役事前分布
事後分布の関数形が事後分布と同じになる事前分布のこと。
p(A|B)\propto p(B|A)p(A)

ベイズ的仮説検定
ベイズファクター
データxに基づいて2つの数学的モデルM_1とM_2のどちらかを選択する問題を考える。このとき、
\displaystyle K={\frac {p(x|M_{1})}{p(x|M_{2})}}={\frac {\int \,p(x|\theta _{1},M_{1})p(\theta _{1}|M_{1})\,d\theta _{1}}{\int \,p(x|\theta _{2},M_{2})p(\theta _{2}|M_{2})\,d\theta _{2}}}
をベイズファクター(ベイズ因子)と言う。「データxによって与えられる、M_2を基準としたM_1の証拠の重み」とも言う。
K>1はM_1がM_2よりも確からしく、K<1ではその逆となる。

ベイズ判別(各カテゴリーの事後確率)

n個の群G_kを質的な説明変数の値(カテゴリー)Sを用いて判別する。Sが観測されたもとでのG_kの事後確率は
\displaystyle P(G_k|S)=\frac{P(S|G_k)P(G_k)}{\displaystyle \sum_{i=1}^nP(S|G_i)P(G_i)}となる。このいずれかが最も大きいときに観測値Sをとるデータを群G_kに判別する。

計算統計
ブートストラップ
復元抽出
標本数nの元データからn個のデータを復元抽出(一度抽出したデータを再び抽出対象としながら抽出)してブートストラップ標本を作る(ブートストラップ抽出)。これを何度も行い、多数のブートストラップ標本bごとに統計量\hat\theta^*(b)=T(\boldsymbol x^{*(b)})を算出する。この統計量をブートストラップ標本間で平均や不偏分散を計算することで、母集団におけるその統計量の平均、標準偏差、信頼区間を推定する。
\displaystyle\bar{\hat\theta^*}=\frac{1}{B}\sum_{b=1}^{B}\hat\theta^*(b)
\displaystyle V[\hat\theta]=\frac{1}{B-1}\sum_{b=1}^B\left(\hat\theta^*(b)-\bar{\hat\theta^*}\right)^2
これをブートストラップ法と呼ぶ。パラメトリックな仮定が難しい場合に用いる。

経験分布
累積度数分布のこと。

リサンプリング
標本から標本抽出すること。

サンプリング
疑似乱数
確定的な計算によって求めている乱数のこと。用途は標本抽出、モンテカルロ計算など。

逆変換法
区間(0,1)の一様分布の値uを指定の確率分布の分布関数の逆数で変換することで指定の確率分布に従う確率変数Xを生成する方法。
P(F_X^{-1}(U)<x)=P(U<F_X(x))=F_X(x)

棄却法
簡単に乱数生成ができる分布gを基に、分布fとの比較により採択か棄却かを決め、fに従うような乱数を発生させる方法。
・Mg(x)\geq f(x)が成り立つM>0を用いる
・g(x)から乱数xとU(0,1)から一様乱数uをとる
・r=f(x)/(Mg(x))としてu\leq rならxを採用、そうでなければ棄却

マルコフ連鎖モンテカルロ法
求める確率分布を均衡分布として持つマルコフ連鎖を作成することによって確率分布のサンプリングを行う種々のアルゴリズムの総称。確率を基にしたランダムウォークを用いることが多い。

モンテカルロ積分
モンテカルロ積分
下記により積分値を求める方法
\displaystyle\int_a^bdxf(x)\sim\frac{1}{N}\sum_{k=1}^N\frac{f(x_k)}{p(x_k)}

期待値や確率密度の正規化定数
正規化定数の不明な確率分布P_X(x)に対して\hat P_X(x)=ZP_X(x)は計算可能とする。確率分布Q(x)に従うサンプルx_kをN個発生させたとき、
\displaystyle w_k=\frac{\hat P(x_k)}{Q(x_k)}
正規化定数Z =\displaystyle\frac{1}{N}\sum_{k=1}^{N}w_k
期待値E[f(x)]=\displaystyle\frac{1}{NZ}\sum_{k=1}^{N}f(x_k)w_k

数学基礎
線形代数
行列
三角行列
正方行列のうち主対角線より上/下の成分が全て0の行列を下/上三角行列という。

直交行列
転置行列と逆行列が等しくなる正方行列を直交行列という。
・直交行列の行列式の値は±1である。実際、行列 A が直交行列なら行列式の性質から
\displaystyle \det(A)^{2}=\det(A)\det(A^{\intercal })=\det(AA^{\intercal })=\det(E)=1となる。
逆は必ずしも真ではない。
・対角化可能である。
・n次行列Aをn個の列ベクトル(行ベクトル)v_{1},v_{2},...,v_{n}を並べたものとみなしたとき、直交行列の定義はv_{1},v_{2},...,v_{n}が正規直交基底になる条件と同値である。
・n次の直交行列A、n次の列ベクトルxが与えられた時、ノルムを\lVert \cdot\rVertで表せば、\lVert Ax\rVert=\lVert x\rVertである。したがってAの対応する作用素ノルムは \lVert A\rVert = 1 である。

行列とその逆行列の積の可換性
A^{-1}A=AA^{-1}=E

基本変形
下記6つの変形を行列の基本変形という。
・二つの列を入れ替える
・ある列を0でない定数倍する
・ある列に、他のある列の定数倍を加える
・二つの行を入れ替える
・ある行を 0 でない定数倍する
・ある行に、他のある行の定数倍を加える
行に関する変形三つをまとめて行に関する基本変形、列に関する変形三つをまとめて列に関する基本変形という。
・Aを単位行列に変形するのと同じ変形を単位行列に適用することによってA^{-1}が得られる。
・線型方程式系Ax = bにおいても、基本変形により解を求めることができる。

ランク
行列Aの階数(ランク)の定義は以下であり互いに同値。
・A の列/行ベクトルの線型独立なものの最大個数（A の列/行空間の次元）
・A に基本変形を施して得た階段行列 B の零ベクトルでない行/列の個数
・表現行列 A の線型写像の像空間の次元
・A の特異値の数
主な性質は以下の通り。
A を m \times n 行列とする。また、 f を表現行列 A の線型写像とする。
・rank(A) \leq min(m, n)
・A が零行列のときかつその時に限り rank(A) = 0
・f が単射となるための必要十分条件は、rank(A) = n
・f が全射となるための必要十分条件は、rank(A) = m
・A が正方行列（つまり m = n）のとき、A が正則であるための必要十分条件は、rank(A) = n

簡約な行列
行列の各行の左から右に見て最初の0意外な数字のことを主成分という。簡約な行列は下記を満たす行列のことをいう。行列の基本変形で作ることができる。
・各行の主成分は1
・主成分がある列の他の数字はすべて0
・各行の主成分が階段状に並んでいる
・ゼロ行ベクトルは下にまとまっている

トレース
正方行列の主対角成分の総和をトレースという。主な性質は以下の通り。
・tr(X + Y) = tr(X) + tr(Y)
・tr(cX) = c tr(X) (c はスカラー)
・tr(XY) = tr(YX)
・転置不変性:tr({}^t\! X) = tr(X)
・相似不変性:P が正則ならば、tr(P^{−1}XP) = tr(X)
・巡回不変性: ふたつより多くの行列の積のトレースは巡回的に順番を変えても不変
・トレースは固有値の総和と一致する

データ記述と線形代数
all-ones ベクトル
成分がすべて1のベクトル

偏差ベクトル
データベクトルから平均ベクトルを引いたものを偏差ベクトルという。
\boldsymbol x - \bar x \boldsymbol 1

２つの偏差ベクトルの内積
2つの偏差ベクトルの内積をそれぞれの偏差ベクトルの長さで割ったものはそれぞれのデータ間の相関係数になる。

射影行列

P^2 = Pを満たす行列Pを射影行列という。
W の部分線型空間 U および V が、それぞれ P の値域および零空間（核）であるとすると、基本的な性質として
・P は U 上に恒等作用素 I として作用する。
\forall x \in U,\quad Px = x
・直和分解 W = U \oplus V が成立する。すなわち、W の各ベクトル x は U の元 u と V の元 v を用いて x = u + v なる形に一意的に表される。
u = Px,\quad  v =(I - P)x

回帰分析における予測値ベクトルと残差ベクトル
回帰分析における予測値ベクトル\hat{\boldsymbol y}=X(X^TX)^{-1}X^T\boldsymbol yはP=X(X^TX)^{-1}X^Tが射影ベクトルなので、残差ベクトル\boldsymbol\varepsilon=\boldsymbol y-\hat{\boldsymbol y}は予測値ベクトルと直交する。

固有値と固有ベクトル
実対称行列の固有値・固有ベクトル
対称行列の固有値は実数であり、異なる固有値に対応する固有ベクトルは直交する。

対称行列の対角化
任意の実対称行列は直交行列によって対角化可能であり、固有値は実数となる。

スペクトル分解

AをN次の実対称行列、Aの異なる固有値を\lambda_1,......,\lambda_Nとする。このとき、
・A=\lambda_1P_1+\cdots+\lambda_NP_N
・P_1+\cdots+P_N=I
・異なるi,jに対してP_iP_j=O
を満たす射影行列がただひとつ存在する。

二次形式と(半)正定値行列
二次形式が\boldsymbol x^TA\boldsymbol x\geq 0のとき、Aは(半)正定値行列である。
・Aが対称行列の時、Aの固有値が全て正であることとAが正定値行列であることは同値
・射影行列やグラム行列(A^TA)も(半)正定値行列
・Aが正定値行列ならば、A=B^2となる正定値行列Bが存在する

特異値分解

m\times n行列をA=U\Sigma Vと分解可能。ただし、
・UはAA^Tを対角化する直交行列
・VはA^TAを対角化する直交行列
・\SigmaはA^TAの0でない固有値の平方根(特異値)を降順で対角にならべた行列

n次元ユークリッド空間

n次元空間上の点の表現

n次元空間上の点の表現

線形部分空間と基底・次元
線型部分空間とはベクトルの線型結合で表せるベクトルを集めた空間のこと。基底とはその部分空間を表す線型独立なベクトルのこと。次元とはその基底のベクトルの数のこと。

行列のランクとその列空間の次元
ランクの項に記載

同次方程式と係数行列
一次連立方程式(線型方程式)Ax=bに対してAx=0を同次方程式、Aを係数行列という。

解空間

Ax=bの解の集合を解空間という。

解の一意性

m\times nの行列Aに対して線型方程式Ax=bが解をもつ必要十分条件はrank(A)=rank(A,b)であり、これがnの時が一意解をもつ必要十分条件である。

正規直交基底
互いに直行して長さが1の基底を正規直交基底という。

シュミットの直交化
基底ベクトルa_1,......,a_nに対して、k=1から順に
\displaystyle v_k=a_k-\sum_{i=1}^{k-1}(a_k\cdot u_i)u_i
\displaystyle u_k=\frac{v_k}{\|v_k\|}
を計算して正規直交基底u_1,......,u_nを得る方法をシュミットの直交化という。

射影と直交成分
射影行列の項に記載。

数値計算と線形代数
LU 分解
正方行列Aを下三角行列Lと上三角行列Uを用いてA=LUと分解すること。LやUの対角成分を1として求める。分解可能性はAの首座小行列の行列式がすべて0でないこと。

QR 分解
すべての実正方行列Aは直交行列Qと上三角行列Rを用いて\displaystyle A=QRと分解できる。もしAが正則ならば、Rの対角成分が正になるような因数分解は一意に定まる。
QR分解は線型最小二乗問題を解くために使用される。また、固有値問題の数値解法の1つであるQR法の基礎となっている。

反復法
線型方程式Ax=bに対してA=S-Tとし、
\boldsymbol x^{(k+1)}=S^{-1}(\boldsymbol b +T\boldsymbol x)で逐次計算を行うと解に収束することがある。これを反復法という。ただしS^{-1}Tの固有値の絶対値が全て1未満である必要がある。

微積分
1 変数関数の微分法
極大・極小と導関数
極大・極小では導関数=0となる。ただし逆は言えない。

テイラー展開
べき級数\displaystyle \sum _{n=0}^{\infty }{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}を関数fの点aまわりのテイラー級数と言う。

方程式の数値的解法・反復法(二分法・ニュートン法)
・二分法：f(x)=0となるxについて、x_1<x<x_2となるx_1, x_2の間隔を繰り返し1/2に狭めていき、中間点x_Mをxに近づけていく方法。
・ニュートン法：下記漸化式によりf(x)=0となるxを求める方法。
\displaystyle x_{n+1} = x_n - \frac{f(x_n)}{f'(x_n)}

1変数関数の積分法
広義積分関数
被積分関数または積分区間のどちらかが有界ではなく、定積分の積分区間の極限を考えたものを広義積分という。

ベータ関数
ベータ関数は下記
\displaystyle \mathrm {B} (x,\,y):=\int _{0}^{1}t^{x-1}(1-t)^{y-1}\,{\rm {d}}t
ガンマ関数を用いて以下のようにも書ける。
\displaystyle \mathrm {B}(x,\, y) =\frac{\Gamma(x)\,\Gamma(y)}{\Gamma(x+y)}

多変数関数の微分法
勾配
各点においてスカラー場の変化率が最大となる方向への変化率の値を大きさにもつベクトルを対応させるベクトル場のこと。
\displaystyle\nabla f  = \frac{\partial f}{\partial x_1 }\mathbf{e}_1 + \cdots + \frac{\partial f}{\partial x_n }\mathbf{e}_n

極値

\displaystyle\nabla f(p)=0となるpを停留点という。
この停留点においてヘッセ行列
\displaystyle\nabla^2 f(p) = \begin{bmatrix}\displaystyle\frac{\partial^2 f}{\partial x_1^2}(p) & \cdots & \displaystyle\frac{\partial^2 f}{\partial x_1\partial x_n}(p) \\\vdots & \ddots & \vdots \\　\displaystyle\frac{\partial^2 f}{\partial x_n\partial x_1}(p) & \cdots & \displaystyle\frac{\partial^2 f}{\partial x_n^2}(p)\end{bmatrix}
が正/負定値のときf(p)は極小/極大となる。

ガンマと偏導関数の関係
・ガンマ関数：\Gamma(z)=\int^{\infty}_{0} t^{z-1} e^{-t} \,{\rm d}t
・性質：\Gamma(z+1)=z\Gamma(z)、特に\Gamma(n+1)=n!
・重要な具体値：\displaystyle\Gamma\!\left(\frac{1}{2}\right) = \sqrt{\pi}
・ガンマ関数の対数微分：\displaystyle\psi(z)=\frac{d}{dz}\log \Gamma(z)をディガンマ関数という。
・対数微分を繰り返した関数：\displaystyle\psi^{(n)}(z)=\frac{d^{n+1}}{dz^{n+1}}\log \Gamma(z)をポリガンマ関数という。

ヘッセ行列
極値の項に記載

テイラー展開
多変数関数のテイラー展開は以下。
\displaystyle f(x_1,\dots,x_d) = \sum_{n_1=0}^\infty \sum_{n_2=0}^\infty \cdots \sum_{n_d = 0}^\infty \frac{(x_1-a_1)^{n_1}\cdots (x_d-a_d)^{n_d}}{n_1!\cdots n_d!}\,\left(\frac{\partial^{n_1 + \cdots + n_d}f}{\partial x_1^{n_1}\cdots \partial x_d^{n_d}}\right)(a_1,\dots,a_d)

ヤコビ行列
\displaystyle J_f = D_x f =\displaystyle \frac{\partial f}{\partial x} = \begin{bmatrix} \displaystyle\cfrac{\partial f_1}{\partial x_1} & \cdots & \displaystyle\cfrac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \displaystyle\cfrac{\partial f_m}{\partial x_1} & \cdots & \displaystyle\cfrac{\partial f_m}{\partial x_n} \end{bmatrix}

ニュートン法
下記漸化式により\boldsymbol f(\boldsymbol x)=\boldsymbol 0となる\boldsymbol xを求める方法。
\displaystyle \boldsymbol x_{n+1} =\boldsymbol x_n - J_f^{-1}(\boldsymbol x_n)\boldsymbol f(\boldsymbol x_n)

連鎖律(多変数関数の合成関数の微分)
簡単のためヤコビ行列を下記の通り表記を変える。
\displaystyle J_f=\frac{\partial \boldsymbol f}{\partial \boldsymbol x}
ここで\boldsymbol w=\boldsymbol w(\boldsymbol v), \boldsymbol v=\boldsymbol v(\boldsymbol u)に対して連鎖率は以下となる。
\displaystyle \frac{\partial \boldsymbol w}{\partial \boldsymbol u}=\frac{\partial \boldsymbol w}{\partial \boldsymbol v}\frac{\partial \boldsymbol v}{\partial \boldsymbol u}

多変数関数の積分法
重積分
\displaystyle\int\cdots\int_{D} f(x_1,x_2,\ldots,x_n)\, dx_1\cdots dx_n

重積分(長方形領域)
重積分のうち積分範囲が長方形であり、各変数の範囲が他の変数に依存しないこと。

累次積分
重積分のうち、中の積分結果の関数を外側の変数で積分しているとみなせるもの。積分の順番を入れ替える際に積分範囲の注意が必要。

変数変換とヤコビアン
領域Aを動く変数\boldsymbol xを写像\Phi:B\to Aによって\boldsymbol yに変数変換するとき、
\displaystyle\int_A f(\boldsymbol x)d \boldsymbol x= \int_B f(\Phi(\boldsymbol y))|\det(J_\Phi(\boldsymbol y))|d\boldsymbol y
となる。ここでJ_\Phiはヤコビ行列。

広義重積分
被積分関数または積分区間のどちらかが有界ではなく、定積分の積分区間の極限を考えたものを広義積分という。

ガウス積分

\displaystyle\int_{-\infty}^\infty e^{-x^2} \, dx=\sqrt{\pi}のこと。

極座標変換
変数変換を用いて極座標に変換すること。

正規分布の極座標変換による求積
ガウス積分を二乗して極座標変換することで求められる。

数値積分
台形則
積分領域を分割して台形で近似して計算する方法。
\displaystyle\int_{a}^{b} f(x)\, \mathrm{d}x \approx \sum_{k=1}^{n}(a_k-a_{k-1})\frac{f(a_{k-1}) + f(a_k)}{2}

シンプソン法
積分領域を分割して分割された各領域の被積分関数の端点と中点を通るように二次関数で近似して計算する方法。
\displaystyle\int_{a}^{b} f(x) \, dx\approx \int_{a}^{b} P(x) \, dx =\frac{b-a}{6}\left[f(a) + 4f\left(\frac{a+b}{2}\right)+f(b)\right]

最適化
連続最適化
最急降下法
関数の傾きから、関数の最小値を探索する方法
\boldsymbol{x}^{(k+1)} = \boldsymbol{x}^{(k)} - \alpha \nabla f(\boldsymbol{x}^{(k)})
\alphaの値が小さいと局所解にはまったり計算処理に時間がかかったりしやすく、大きいと発散したり安定しない場合がある。

ニュートン法
ニュートン法がf(x)=0を求める方法だったのに対して、最小値探索においてはf'(x)=0であることを用いる。つまり
\displaystyle x_{n+1} = x_n - \frac{f'(x_n)}{f"(x_n)}
\displaystyle \boldsymbol x_{n+1} =\boldsymbol x_n - H^{-1}(\boldsymbol x_n)\nabla f(\boldsymbol x_n)

ラグランジュ乗数法
条件付極値問題を解く方法。g_i=0のもとでf(x)が極値をとる必要条件は下記で、これをラグランジュの未定乗数法という。
\displaystyle\nabla f = \sum_{i=1}^{m}\lambda_i \nabla g_iかつ
g_i=0

凸関数(定義・ヘッセ行列の(半)正定値性との関係)
区間内の任意の2点x , yと開区間(0, 1)内の任意のtに対して
f(tx+(1-t)y)\leq t f(x)+(1-t)f(y)を満たすfを(下に)凸関数という。ヘッセ行列が(半)正定値の時と同値。

最適性条件
ここまでのような極小/極大の条件のこと。

線形計画法
いくつかの1次不等式および1次等式を満たす変数の値の中で、ある1次式を最大化または最小化する値を求める方法。
・シンプレックス法(単体法)：最適解が多面体の頂点に現れることを利用し、最適解に達するまで多面体の辺をたどってより高い目的関数の値を次々にたどることで線型計画問題を解く方法。
・内点法：実行可能領域の内部を通るよう更新する方法。

離散最適化
組み合わせ最適化
離散的な集合の中で最適化すること。

ネットワーク最適化
ネットワーク構造の中で最適解を探す最適化問題。最短路問題など。

ナップサック問題
一定の重さ内でナップサックに物を詰めて価値を最大化する組み合わせ最適化問題。

巡回セールスマン問題
各2都市間の移動コストが与えられたとき、全ての都市をちょうど一度ずつ巡り出発地に戻る巡回路のうちで総移動コストが最小のものを求める組み合わせ最適化問題

計算基礎
データ収集
デジタルデータ収集
エッジデバイス
ネットワークの末端機器。スマートスピーカーやスマート家電など。

センサーデータ
センサーで収集されるデータ。温度、圧力、水位、電圧など。

Web クローラー
インターネットを巡回してデータを自動的に収集するソフトウェア。

スクレイピング
インターネット上の様々な情報から必要なデータを抽出すること。

クライアント技術(SDK・API など)
・SDK：ソフトウェア開発に必要なプログラムや文書をまとめたキット
API：アプリケーションのインターフェイス
スクレイピングとの関連で言えば、Web上のアプリケーションからAPIを介してデータを抽出するアプリケーションをSDKを用いて開発する、といったことが考えられる。

通信技術(HTTP・FTP・SSH など)
・HTTP：Webサーバとブラウザ間でWebの情報をやり取りするプロトコル
・FTP：ファイルをやり取りするプロトコル
・SSH：暗号や認証技術を利用して、安全にリモートコンピュータと通信するためのプロトコル

クラウドコンピューティングの利用
インターネットなどのコンピュータネットワークを経由して、コンピュータ資源をサービスの形で提供する利用形態。Webメールやオンラインストレージなど様々。

地理情報システム(GIS)
地理情報および付加情報をコンピュータ上で作成・保存・利用・管理・表示・検索するシステム。
人工衛星、現地踏査などから得られたデータを、空間、時間の面から分析・編集することができ、科学的調査、土地、施設や道路などの地理情報の管理、都市計画などに利用される。

データ表現とデータ構造
データ表現
画像の符号化
画像データを効率的に伝送・蓄積するため、画像信号の情報量を圧縮する技術。

画素(ピクセル)
画像を構成する最小単位。

色の 3 要素(RGB)
画面で色を表現する際に使用されるカラーモデル。これを混ぜ合わせることで様々な色を表現することができる。

音声の符号化
音声データを効率的に伝送・蓄積するため、音声信号の情報量を圧縮する技術。

周波数
１秒間に振動する回数。特にサンプリング周波数は、1秒間に標本を取る回数。

標本化
アナログの音声データの信号レベルを一定の時間感覚ごとに標本として抽出すること。

量子化
標本として抽出した信号レベルを、段階値の最も近い値に割り当てること。

データ構造
グラフ
ノード(点)とノード間のエッジ(線)で表現されるデータ構造

ネットワーク
グラフ構造のうち、特に点や線に意味を割り当てたもの。

木構造
グラフ構造のうち、1つのノードが複数の子要素を持つもの。

二分木
木構造のうち、子要素が最大でも2つであるもの。

ヒープ
木構造のうち、親お要素が子要素より常に大きい/小さいという条件を満たすもの。

データベース
データベース
テーブル定義
データベースのテーブルの定義。列の定義、制約、関連性など。

ER 図
概念やデータの関連性を図示するもの。
-+：1
-E：多
-++：1対1
-○-+：0または1
-+E：1以上
-○-E：0以上

主キーと外部キー
主キー一つのテーブル内でレコードを一意に識別するキー
他のテーブルの主キーを参照するキー

データ操作言語(DML)
データベース内のデータを操作する言語 (SELECT, INSERT, UPDATE, DELETEなど)

データ定義言語(DDL)
データベースの構造を定義する言語 (CREATE, ALTER, DROPなど)

データウェアハウス(DWH)
分析のために統合された大規模なデータの集合

正規化
データの冗長性を排除し、データの整合性を保つための処理

射影
テーブルから特定の属性（列）だけを取り出す操作

結合
複数のテーブルを組み合わせて新しいテーブルを作成する操作

SQL
Structured Query Languageの略。データベースを操作するための標準的な言語

アルゴリズムとプログラミング
アルゴリズム
バブルソート
隣接する要素を比較し、順序が逆であれば交換を繰り返すことで、リストをソートするシンプルなアルゴリズム。

幅優先探索
グラフの探索アルゴリズムの一種。始点から近いノードから順に探索していく。

深さ優先探索
グラフの探索アルゴリズムの一種。ある枝を可能な限り深くまでたどってから、他の枝をたどる。

メタ戦略
より効率的なアルゴリズムを設計するための高レベルな考え方。

貪欲法
各段階で局所的に最適な解を選び、最終的に全体最適解を求める近似アルゴリズム。

局所探索
現在解の周辺を探索し、より良い解が見つかれば移動を繰り返すことで、最適解を求める手法。

分割統治法
問題を小さな部分問題に分割し、それぞれを解いてから統合することで、問題全体を解く手法。

動的計画法
部分問題の解を記憶し、重複する計算を避けることで、効率的に問題を解く手法。

再帰的アルゴリズム
関数が自分自身を呼び出すこと。

フローネットワーク
各辺に容量を持つ有向グラフ。最大フロー問題など、ネットワークフロー問題を扱う。

ビッグ O 記法
アルゴリズムの計算量を評価するための漸近的な評価法。O(n)はnに比例した計算量が必要。

入力データ量
アルゴリズムに入力されるデータの大きさ。

計算時間
アルゴリズムの実行にかかる時間。

ステップ数
アルゴリズムが実行する基本的な操作の回数。

最大次数
グラフにおいて、一つの頂点に接続している辺の数の最大値。

最急降下法
関数の最小値を求めるための数値最適化手法。勾配の逆方向に移動を繰り返す。

座標降下法
最急降下法の変種。各変数を交互に更新していく。

プログラミング
計算の構造化
プログラム全体を小さな、より扱いやすい部分に分割し、それぞれの部分の役割を明確にすること。

モジュール化
プログラムを独立した機能を持つ部品（モジュール）に分割すること。再利用性や保守性を高める。

リファクタリング
既存のプログラムの構造を改善し、可読性や保守性を高めること。機能は変更しない。

オブジェクト指向
プログラムをオブジェクトと呼ばれるデータと処理の集合として捉え、それらの相互作用でプログラムを構成する考え方。

オブジェクト
オブジェクト指向プログラミングにおける基本単位。状態（データ）と動作（メソッド）を持つ。

モデリング・AI と評価
モデリング・AI による課題解決
AI の歴史と応用分野
AI の歴史
初期にはトイプロブレムなどを用いて推論や探索のアルゴリズムが開発された。
その後、エキスパートシステムが登場し、特定分野の専門知識をコンピュータに組み込むことで、人間の専門家のような判断を可能にした。しかし、フレーム問題やシンボルグラウンディング問題といった課題も浮上し、AI研究は冬の時代を迎えた。
近年では、深層学習と呼ばれる技術の発展により、画像認識や音声認識など、人間の感覚に近い能力の実現が近づいた。これにより、AIは再び注目を集め、私たちの生活に身近な存在となった。現在のAIは、特化型AIが中心だが、将来的には汎用AIの実現も期待されている。

推論
既知の事実やルールから新しい事実を導き出すこと。論理的な思考過程を模倣する。

探索
解決すべき問題に対する答えや最適な経路を、様々な選択肢の中から見つけること。

トイプロブレム
I研究の初期段階で用いられる、単純化された問題。アルゴリズムの検証や比較に用いられる。

エキスパートシステム
特定分野の専門知識をコンピュータに組み込み、人間の専門家のように判断やアドバイスを行うシステム。

汎用 AI/特化型 AI(強い AI/弱い AI)
汎用AIは人間の知能を全て備え、あらゆる問題を解決できるAI。強いAIとも。特化型AIは特定のタスクに特化したAI。弱いAIとも。

フレーム問題
AIが世界に関するすべての情報を常に考慮し続ける必要があるという問題。

シンボルグラウンディング問題
AIが人間の持つ概念を、現実世界との関連性を持たせて理解できるかという問題。

人間の知的活動と AI 技術
学習
人間の学習能力を模倣し、データからパターンを見つけ出し、新たな知識やスキルを獲得するプロセス。機械学習、深層学習などが代表的な手法。

認識
外界からの情報（画像、音声、テキストなど）を解釈し、その意味を理解するプロセス。画像認識、音声認識、自然言語処理などが該当。

予測・判断
過去のデータや現在の状況に基づいて、未来を予測したり、最適な行動を選択したりするプロセス。時系列分析、強化学習などが利用される。

知識・言語
人間の知識や言語をコンピュータで表現し、処理するプロセス。知識グラフ、自然言語処理などが該当。

身体・運動
ロボットの動作や制御に関する技術。機械学習や深層学習を用いて、ロボットに環境認識や運動制御能力を与える。

AI 技術の活用領域の広がり
流通
小売業における需要予測、在庫管理、パーソナライズされた商品推薦、不正検知など、顧客体験の向上や業務効率化に貢献している。

製造
生産計画の最適化、品質管理、予知保全、ロボット制御など、生産性の向上と製品品質の安定化に貢献している。

金融
顧客信用評価、不正検知、アルゴリズム取引、ロボアドバイザーなど、リスク管理と収益性の向上に貢献している。

インフラ
交通システムの最適化、電力網の安定化、構造物の健全性診断など、社会インフラの効率化と安全性の向上に貢献しています。

公共
行政手続きの自動化、都市計画、防災、犯罪予測など、行政サービスの効率化と市民生活の向上に貢献しています。

ヘルスケア
医療画像診断、新薬開発、パーソナライズ医療、遠隔医療など、医療の質の向上と医療費の削減に貢献しています。

モデル作成とデータ分析の進め方
仮説検証サイクル
データ分析全体を俯瞰するサイクル。仮説の設定からモデルの評価までを繰り返すことで、より精度の高いモデルを構築する。

分析目的の設定
データ分析を行う上で最も重要なステップ。具体的な目標を定めることで、適切な分析手法を選択できる。

様々なデータ分析手法
回帰分析、分類、クラスタリングなど、データの種類や分析目的に応じて様々な手法が存在する。

様々なデータ可視化手法
グラフ、チャートなど、データを視覚的に表現することで、データの特徴やパターンを捉えやすくする。

パターン発見
データの中から規則性や傾向を見つけ出すこと。

アソシエーション分析
複数の項目間の関連性を定量的に分析する手法。

リフト
アソシエーション分析で用いられる指標。ある項目が別の項目の出現確率に与える影響の度合いを示す。

値
データ分析の結果得られる数値。平均値、標準偏差など。

モデルの作成と検証
機械学習モデルを構築し、その性能を評価すること。

モデルの解釈と有効性
作成したモデルがどのようなロジックで予測/推論しているのかを解釈し、そのモデルが実際に役立つかどうかを評価すること。

分析目的に応じた適切な調査
標本調査
母集団から一部を抽出して調査を行う方法。

標本誤差
標本調査によって得られた結果と、実際の母集団における値との間の誤差。標本サイズや抽出方法によって影響を受ける。

サンプルサイズの設計
調査に必要な標本サイズを決定すること。統計的な手法を用いて、誤差を最小限に抑えるためのサンプルサイズを算出する。

ランダム化比較試験
実験群と対照群を無作為に割り当て、介入の効果を比較する実験方法。

実験計画法
実験を計画し、データを収集・分析するための体系的な手法。

教師あり学習
線形回帰分析
正規方程式
線形回帰モデルのパラメータ（回帰係数）を一度に求めるための代数的な方程式。最小二乗法に基づいて導出される。
X^TX\beta=X^Ty
ここで、Xは説明変数の行列、yは目的変数のベクトル、\betaは回帰係数のベクトルである。

回帰係数の有意性検定
t 検定
各回帰係数が統計的に有意かどうかを検定する。帰無仮説は「回帰係数は0である」であり、t統計量を用いて検定を行う。
t=\dfrac{\hat\beta_j-0}{SE(\hat\beta_j)}
 ここで、\hat\beta_jはj番目の回帰係数の推定値。

F 検定
回帰モデル全体の有意性を検定する。帰無仮説は「全ての回帰係数が0である」であり、F統計量を用いて検定を行う。
F=\dfrac{MSR}{MSE}=\dfrac{\sum_{k=1}^{n}(\hat y_k-\bar y)^2/p}{\sum_{k=1}^n(y_k-\hat y_k)^2/(n-p-1)}\sim F(p,n-p-1)

自由度調整決定係数
決定係数
R^2=\dfrac{\sum_{k=1}^{n}(\hat y_k-\bar y)^2}{\sum_{k=1}^n(y_k-\bar y_k)^2}=1-\dfrac{\sum_{k=1}^{n}(y_k-\hat y)^2}{\sum_{k=1}^n(y_k-\bar y_k)^2}
をサンプルサイズと説明変数の数で調整した値。過剰適合を防ぐために用いられる。
R_{adj}^2=1-\dfrac{\sum_{k=1}^{n}(y_k-\hat y)^2/(n-p-1))}{\sum_{k=1}^n(y_k-\bar y_k)^2/(n-1)}
 ここで、nはサンプルサイズ、pは説明変数の数である。

Stepwise 法
説明変数を一つずつ追加または削除しながら、最も良いモデルを自動的に選択する手法。

回帰分析の諸仮定の妥当性
回帰分析が有効に機能するための前提条件。線形性、独立性、等分散性、正規性などが挙げられる。

多重共線性等の推測の信頼性
説明変数間に強い相関関係がある状態。多重共線性があると、回帰係数が不安定になる。

質的回帰分析
ロジスティック回帰
ある事象が起こる確率pを、説明変数xを用いてモデル化したもの。
logit(p) = \log\left(\dfrac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \cdots + \beta_nx_n

オッズ比
ある事象が起こる確率pと起こらない確率1-pの比をオッズと言う。オッズ比は、ある変数がその事象の発生にどれだけ影響を与えるかを表す指標。 
 オッズ比 = \dfrac{p}{1-p}

対数オッズ
オッズの対数を対数オッズと言う。ロジスティック回帰では、対数オッズが線形モデルで表されると仮定する。
 logit(p) = \log\left(\dfrac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \cdots + \beta_nx_n

判別分析
線形判別分析
各グループのデータが正規分布に従い、共分散行列が等しいという仮定の下、線形な判別関数を用いて分類を行います。

二次判別
線形判別分析の仮定を緩め、二次曲面を用いて分類を行います。

SVM
サポートベクターマシンは、マージン最大化という原理に基づいて、データを分類する超平面を見つけます。 
 マージンとは、異なるクラスのデータ点の間の最小距離です。

最大マージン判別
SVMの目的は、このマージンを最大にすることです。

ソフトマージンと正則化
すべてのデータを完全に分離できない場合、一部のデータ点を誤分類を許容するソフトマージンが用いられます。正則化は、過学習を防ぐために用いられます。

カーネル
カーネル法を用いることで、非線形な分離超平面を見つけることができます。

非線形な分離曲面
カーネル法によって、高次元の特徴空間において線形な分離超平面を見つけることで、元のデータ空間では非線形な分離曲面に対応します。

正則化法とモデル選択
バイアスとバリアンスのトレードオフの概念
モデルの複雑さが低いとバイアスが高くなり、複雑さが高いとバリアンスが高くなる。適切なモデルの複雑さを選ぶことで、バイアスとバリアンスのバランスを取ることが重要。
真の関数y=f(x)+\varepsilonに対して\hat f(x)を推定したとする。
E\left[\left(y-\hat f(x)\right)^2\right]=\left(E\left[\hat f(x)\right]-f(x)\right)^2+V\left[\hat f(x)\right]
であり、
E\left[\hat f(x)\right]-f(x)をバイアス
V\left[\hat f(x)\right]をバリアンスという。

リッジ回帰
回帰係数の推定において、平均二乗誤差に回帰係数の二乗和に比例する正則化項を加え、これを最小化する\betaを回帰係数とする。
 \|Y - X\beta\|^2 + \lambda\|\beta\|_2^2 
 (\lambda: 正則化パラメータ)

lasso
回帰係数の推定において、平均二乗誤差に回帰係数の絶対値の和に比例する正則化項を加え、これを最小化する\betaを回帰係数とする。
 \|Y - X\beta\|^2 + \lambda\|\beta\|_1 

スパースモデリング
モデルのパラメータの多くを0にすることで、モデルを簡素化する。lassoはスパースモデリングの一例。

ハイパーパラメータ
モデルを学習する際に予め決めるパラメータ。

決定木
決定木
決定木はツリー構造を用いてデータを分析する手法。枝分かれする形が木に似ていることから「決定木」と呼ばれる。木構造の一つ。

回帰
木構造で実数値を推定すること。

判別
木構造で分類を推定すること。

アンサンブル学習
バギング
ブートストラップ抽出したデータを学習させた複数のモデルの予測結果を多数決や平均で統合すること。バギングはバリアンス(分散)を縮小させ、過剰適合を避けることも助ける。通常は決定木に適用されるものの、どんな手法にも使うことができる。

ランダムフォレスト
決定木とバギングを組み合わせたもの。ランダムサンプリングされたトレーニングデータとランダムに選択された説明変数を用いることにより、相関の低い決定木群を作成し、予測結果を多数決や平均で統合する。

ベイズ統計・モデリング
単純ベイズ
特徴量の条件付き独立を仮定し、ベイズの定理を用いて事後確率を計算します。
P(C|x) = \dfrac{P(x|C)P(C)}{P(x)} 
 ここで、
P(C|x): クラスCに属する確率(事後確率)
P(x|C): クラスCのデータが生成される確率（尤度）
P(C): クラスCの事前確率
P(x): データxが観測される確率

ベイズ判別(各カテゴリーの事後確率)
上記の単純ベイズの式を用いて、各クラスの事後確率を計算し、最も高い確率のクラスに分類します。

階層ベイズ
パラメータに階層構造を導入し、複数のレベルで確率分布をモデル化します。
 例えば、複数の個体のパラメータを、集団レベルのパラメータから生成されると考えます。
 MCMC法などのサンプリング手法を用いて、事後分布を近似的に求めます。

教師なし学習
クラスター分析
k-平均法の手続き
データをk個のクラスタに分割する。 
 1. k個の初期のクラスタ中心をランダムに選択する。 
 2. 各データを、最も近いクラスタ中心を持つクラスタに割り当てる。 
 3. 各クラスタの新しい中心を、そのクラスタに属するデータの平均値として計算する。 
 2と3を収束するまで繰り返す。

データの類似度
データ間の距離や相関など、様々な指標で測ることができる。 
 例：ユークリッド距離、コサイン類似度

階層クラスタリングの手続き
データを階層的にクラスタ化する。各データの距離や類似度を基にクラスターを作り、クラスターをマージして、最後に一つのクラスターにまとめ上げる。

最短距離法
マージする2つのクラスタ間の距離を、それぞれのクラスタ内の最も近い2つのデータ間の距離で定義する。

最長距離法
マージする2つのクラスタ間の距離を、それぞれのクラスタ内の最も遠い2つのデータ間の距離で定義する。

Ward 法
マージによって生じるクラスタ内の分散の増加を最小化するように、マージするクラスタを決定する。

樹形図(デンドログラム)
階層クラスタリングの結果を視覚化する図。各クラスタ間の関係を樹状に表す。

主成分分析
可視化
高次元のデータを主成分分析により低次元空間に射影することで、可視化を容易にします。特に、2次元や3次元に射影することで、データの分布を視覚的に捉えることができます。

特異値分解
データ行列Xを、X = USV^T と特異値分解する。ここで、Uは左特異ベクトル、Sは特異値、Vは右特異ベクトルである。Vの列ベクトルが主成分に対応する。

寄与率
全体の中で各主成分が占める変動の割合を示す値。

次元削減
寄与率の高い上位の主成分だけを用いることで次元削減を行い、低次元空間に射影することができる。

カーネル密度推定
ヒストグラム
カーネル密度推定は、確率変数の確率密度関数を推定するノンパラメトリックな手法の一つで、データの分布を滑らかな曲線で表現する方法。カーネル関数の重ね合わせで表現する。ヒストグラムは一様なカーネル関数を用いたカーネル密度推定に相当する。

カーネル関数
正規分布、一様分布などのカーネル関数がある。

時系列解析
時系列データの特徴
周期性
時系列データが一定の周期で変動する現象。季節変動などが代表的。

強定常性
時系列データの確率分布が時間的に変化せず、任意の時点での2変量の同時分布が時間シフトに対して不変である性質。 
 数学的には、任意の時点tと時間シフトhに対して、 
 E[X_t] = \mu(定数)
 Cov[X_t, X_{t+h}] = γ(h) (hにのみ依存) 
 が成り立つ。

弱定常性
平均と自己共分散が時間的に一定である性質。強定常性よりも弱い条件。

自己相関
時系列データの各時点の値と、その時点からh期前の値との間の相関関係。自己共分散を分散で割った値。 
 \rho(h) = \dfrac{Cov[X_t, X_{t+h}]}{V[X_t]}

相互相関
2つの異なる時系列データ間の相関関係。

スペクトル
時系列データを周波数成分に分解したもの。周波数領域での分析に用いられる。

時系列モデル
自己回帰(AR)モデル
時系列データの現在の値が、過去の値の線形結合で表されるモデル。
Y_t = c + \phi_1Y_{t-1} + \phi_2Y_{t-2} + \cdots + \phi_pY_{t-p} + \varepsilon_t
Y_t: 時点tの値
c: 定数項
\phi_1, \phi_2, \cdots, \phi_p: 自己回帰係数
\varepsilon_t: 白色ノイズ

自己回帰移動平均(ARMA)モデル
ARモデルと移動平均(MA)モデルを組み合わせたモデル。
Y_t = c + \phi_1Y_{t-1} + \cdots + \phi_pY_{t-p} + \theta_1\varepsilon_{t-1} + \cdots + \theta_q\varepsilon_{t-q} + \varepsilon_t
\theta_1, \theta_2, \cdots, \theta_q: 移動平均係数

ARIMA モデル
非定常な時系列データに対して、差分をとることで定常化し、ARMAモデルを適用するモデル。
(1 - B)^d Y_t = ARMA(p,q)
B: 後方シフト演算子
d: 差分の次数

SARIMA モデル
季節変動を含む非定常な時系列データに対して、季節差分と通常の差分を組み合わせて、ARMAモデルを適用するモデル。
(1 - B)^d (1 - B^s)^D Y_t = ARMA(p,q)x(P,Q)_s
s: 季節周期
D: 季節差分の次数
P, Q: 季節的な自己回帰次数と移動平均次数

状態空間モデル
時系列データを、観測できない状態変数と、観測変数の2つの変数で表現するモデル。
状態方程式: \alpha_t = T\alpha_{t-1} + \eta_t
観測方程式: Y_t = Z\alpha_t + \varepsilon_t
\alpha_t: 状態変数
T: 状態遷移行列
Z: 観測行列
\eta_t, \varepsilon_t: 白色ノイズ

カルマンフィルタ
状態空間モデルにおいて、観測データに基づいて、状態変数を推定するアルゴリズム。カルマンフィルタは、予測ステップと更新ステップの繰り返しで構成される。各ステップで、状態変数の推定値と誤差共分散行列を更新する。

生存時間解析
生存時間データ
打ち切り
生存時間が完全に観測されない状態を打ち切りという。右打ち切り(イベントが発生する前に観察が終了）、左打ち切り(イベントが発生する前に研究が始まった）、区間打ち切りなどがある。

生存関数
ある時点tにおいて、生存している確率のこと。S(t)とする。

ハザード関数
ある時点tにおいて、その直後にイベントが発生する瞬間的な確率をハザード関数h(t)という。
h(t)=-\dfrac{d\log(S(t))}{dt}

生存関数の推定
カプラン・マイヤー法
打ち切りデータを考慮しながら、生存関数を階段状の関数として推定する非パラメトリックな方法。
\displaystyle\hat S(t)=\prod_{k:t_k\leq t}\left(1-\dfrac{d_k}{n_k} \right)
t_i:少なくとも1つのイベントが発生した時間
d_k:t_kで発生したイベントの数(死亡など)
n_k:t_kまで生存していることがわかっている(イベント発生せず打ち切られていない)個体の数

指数分布
ハザード関数を一定であると仮定する分布。信頼性の高いシステムの寿命をモデル化する場合などに用いられる。

ワイブル分布
ハザード関数をh(t)=abx^{b-1}と仮定する分布。時間が経つにつれて故障確率が上がるようなモデルを表現できる。

質的データ解析
質的データの解析
多重分割表
複数のカテゴリカル変数別の度数分布をクロス集計表として表現したもの。

数量化理論
質的データを数値化して、量的データと同様に統計分析を行うための手法。質的データを数値化し、回帰分析や因子分析などの量的データ分析手法を適用できるようにする。数量化I類は、目的変数が量的変数の場合、数量化II類は、複数の量的変数を同時に説明する場合、数量化III類は、複数のカテゴリカル変数間の関係を分析する場合に用いられる。

対応分析
多重分析表のデータの分析手法。

テキストデータ解析
テキストデータの数値化
形態素解析
文を単語や語句などの意味を持つ最小単位（形態素）に分割し、品詞などの情報を付与する処理。

ステミング
単語の語尾変化（活用形など）を無視し、語幹部分に統一する処理。例えば、「running」「runs」を「run」に統一する。

ストップワード
文脈にあまり意味を持たない単語（「the」「a」など）を削除する処理。

単語埋め込み
単語を稠密な低次元のベクトル空間に埋め込む手法。意味的に近い単語は、ベクトル空間上でも近い位置に配置される。Word2Vec, GloVe, BERTなどが代表的な手法。

ベクトル空間モデル
文書を単語の出現頻度に基づいてベクトルで表現する手法。TF-IDF (Term Frequency-Inverse Document Frequency) が代表的な重み付け方法。

テキスト分析
共起ネットワーク
文書中の単語をノード、共起関係をエッジとしてグラフを作成する。エッジの太さや色は、共起頻度を表すことができる。

対応分析
文書-単語行列を基に、単語と文書を低次元の空間上に配置し、それらの関係を視覚化すること。

トピックモデル
文書を複数のトピックの混合として表現し、各文書がどのトピックに関連しているかを確率的に推定するモデル。例えば、LDA (Latent Dirichlet Allocation) では、文書-単語行列を基に、文書とトピックの潜在的な関係を推定する。

言語モデル
ある単語の後にどの単語が続くかという確率を予測するモデル。例えば、n-gram モデルでは、単語の並びの履歴に基づいて、次の単語を予測します。RNN や Transformer は、より複雑な文構造を捉えることができるモデル。

カナ漢字変換
入力されたカナ文字列と辞書に登録されている単語の候補を照合し、最も適切な漢字に変換する。確率モデルを用いて、変換候補の確率を計算し、最も確率の高い候補を選択することもある。

機械翻訳
入力文をある言語の表現空間に埋め込み、その表現から目的言語の文を生成する。ニューラル機械翻訳では、RNN や Transformer などのニューラルネットワークを用いて、より自然な翻訳を実現する。

モデルの評価
モデル評価指標
Mallows の Cp 基準
最小二乗法によって推定された回帰モデルの適合度を評価するための指標。C_pの値が小さいほど良いモデルと判断される。
数式：C_p = RSS/\sigma^2 - n + 2p
RSS: 残差平方和
\sigma^2: 誤差の分散
n: データ数
p: パラメータ数
特に、リッジ正則化においては、
p(\lambda)=Tr[X(X^TX+\lambda I_d)^{-1}X^T]であり、
C_p(\lambda)=\|Y-X\hat\beta_R\|^2/\sigma^2+p(\lambda)
を最小化する\lambdaを選択することになる。

情報量規準
AICやBICなどの統計モデルの当てはまりの良さと統計モデルの簡潔さのバランスをとる統計モデルを選ぶための方法。

AIC
赤池情報量規準。AICが小さいほど、良いモデルと判断される。
AIC = - 2\log L+2k 
\log L: 対数尤度
k: パラメータ数

BIC
ベイズ情報量規準。AICよりもモデルの複雑さにペナルティを与える傾向がある。AICとの違いとしては、BICを使った場合、候補となる統計モデルの中に真のモデルがある場合n\to\inftyで新のモデルを選択することが挙げられる。
BIC = -2\log L+k\log n
n: データ数

交差検証法
モデルを分割し、一部のデータでモデル学習を行い、残りのデータで検証を行う手法。モデルの汎化性能を評価する。
・ホールドアウト検証：標本を無作為に学習用データと検証データに分割して検証を行う方法。
・k分割交差検証：標本を無作為にk個に分割し、一つを検証データ、それ以外を学習データとして検証を行う。これを分割されたk個のデータについて繰り返して、結果を平均する。
・leave-one-out交差検証：k分割交差検証のうち、k=n(標本の大きさ)のものを言う。

周辺尤度
モデルがデータ全体を生成する確率。ベイズファクターによりモデル選択に利用可能。

MSE
予測値と真の値の二乗誤差の平均。
\displaystyle MSE = \dfrac{\sum_{k=1}^n(y_k - \hat y_k)^2}{n}
n: データの数
y_k: 真の値
\hat y_k: 予測値

正解率(accuracy)
正しく分類されたサンプルの割合。 
Accuracy = \dfrac{TP + TN}{TP + TN + FP + FN}

適合率(precision)
正と予測したサンプルのうち、実際に正しかったサンプルの割合。 
Precision = \dfrac{TP}{TP + FP}

再現率(recall)
実際に正のサンプルのうち、正しく正と予測できたサンプルの割合。 
 Recall = \dfrac{TP}{TP + FN}

混同行列
予測結果と実際のラベルを2×2の表にまとめたもの。

F 値
適合率と再現率のバランスを評価。 
 F = \dfrac{2Precision*Recall}{Precision + Recall}

ROC 曲線とその AUC
異なる分類閾値における真陽性率(TPR)(縦軸) と偽陽性率(FPR)(横軸) の関係をグラフにしたもの。AUCはROC曲線下の面積。
TPR=\dfrac{TP}{TP+FN}
FPR=1-真陰性率=1-\dfrac{TN}{TN+FP}

訓練データとテストデータ
訓練データとテストデータ
検証では訓練データ(学習データ)とテストデータ(検証データ)に分ける。

バイアスとバリアンスの概念
バイアスは、モデルが真の関数からどれだけ離れているかを示す指標で、過度に単純なモデルで発生しやすい。バリアンスは、訓練データのわずかな変動に対してモデルの予測がどれだけ変化するかを示す指標で、過度に複雑なモデルで発生しやすい。

汎化誤差
モデルが未知のデータに対してどれくらい誤りを犯すかを示す指標。

\displaystyle MSE = \dfrac{\sum_{k=1}^n(y_k - \hat y_k)^2}{n}
n: テストデータのサンプル数
y_k: 真の値
\hat y_k: 予測値

過学習
モデルが訓練データに過度に適合しすぎてしまい、新しいデータに対しては性能が低下する現象。

適合不足
モデルが訓練データに対して十分に適合しておらず、訓練データに対しても高い誤差を持つ状態。

交差検証法(leave-one-out・k-Fold)
モデルを分割し、一部のデータでモデル学習を行い、残りのデータで検証を行う手法。モデルの汎化性能を評価する。(上に記載)

ハイパーパラメータ
モデルを学習する際に予め決めるパラメータ。(上に記載)

因果推論
因果モデル
実験研究と観察研究
ランダム化比較試験など条件に介入可能な場合を実験研究。介入できない場合を観察研究という。実験研究が難しい場合、観察研究を行う。

潜在的結果変数
各個体が介入を受けた場合と受けなかった場合の潜在的な結果。因果効果は、これらの潜在的結果変数の差として定義される。

個体処置効果と平均処置効果
個体レベルでの因果効果と、集団全体の平均的な因果効果。

処置割当ての無視可能性
観測できない変数が処置割当に影響を与えないという仮定。

傾向スコア・マッチング
処置を受ける確率を予測するモデル（ロジスティック回帰など）を用いて、傾向スコアが近い個体をペアにする手法。

層別
傾向スコアに基づいて、複数の層に分割し、各層内で処置群と対照群を比較する手法。

重み付け法
傾向スコアを用いて、各個体に重みを付与し、全体のバランスを取る手法。

ノンコンプライアンス
ランダムに割り当てられた処置を、個人が意図的に守らない状況。

グラフィカルモデリング
偏相関行列
変数間の線形関係を、他の変数の影響を除外して測る指標。

距離行列
データ間の距離を数値化した行列。

類似度行列
データ間の類似度を数値化した行列。コサイン類似度など。

隣接行列
グラフのノード間の接続関係を表す行列。無向グラフでは対称行列、有向グラフでは非対称行列となる。

無向グラフ
ノード間の接続が方向性がないグラフ。

有向グラフ
ノード間の接続に方向性があるグラフ。因果関係を表す際に用いられる。

マルコフ確率場
無向グラフで表現されるような確率変数の集合。

ベイジアンネットワーク
有向グラフで表現されるような確率変数の集合。データの因果関係を分析する際に用いられる。

構造方程式モデリング
観測変数と潜在変数の間の因果関係を線形方程式で表すモデル。SEMとも呼ばれる。

深層学習・ニューラルネットワーク
ニューラルネットワークの仕組み
入力層
データの各特徴に対応するノードの集合。入力データが最初に受け取られる層。

出力層
ニューラルネットワークが最終的に出力する値。分類問題ではクラスの確率、回帰問題では連続値など。

シナプス結合
各ノード間の接続を表し、その強さを表すパラメータ。学習によって更新される。

隠れ層
入力層と出力層の間にある層。複雑な特徴を抽出する。

誤差逆伝搬法
出力層から入力層に向かって誤差を伝播させ、各層の重みを更新するアルゴリズム。

勾配消失
深層なネットワークにおいて、誤差が初期層に伝わりにくくなる現象。

活性化関数
ニューロンの出力値を変換する関数。

ReLU
y=max(x,0)

シグモイド関数
y=\dfrac{1}{1+e^{-\beta x}}

動径基底関数
中心からの距離に基づいて出力値を決定する関数。

ウェーブレット
ウェーブレットを使うもの。局所的な周波数成分を抽出する。

ドロップアウト
ニューロンをランダムに無効化することで過学習を防ぐ手法。

(確率的)勾配降下法とそのアルゴリズム
パラメータをランダムに初期化し、勾配方向に少しづつ更新していくことで、損失関数を最小化する手法。SGD, Momentum, Adamなど。

バッチ正規化
各層の入力データを正規化することで、学習を安定化させる手法。

計算グラフ
ニューラルネットワークの計算過程をグラフで表現し、誤差逆伝搬法を効率的に行うための仕組み。

ニューラルネットワークモデル
CNN
CNNは、画像認識に有効なニューラルネットワーク。画像の局所的な特徴を抽出するのに優れている。

フィルタ
入力画像にフィルタを適用することで、特徴マップを作成する。フィルタは、特定のパターン（エッジ、テクスチャなど）を検出するように学習する。 
 出力 = 入力 * フィルタ + バイアス

プーリング
特徴マップのサイズを局所ごとに集約し特徴をより抽象的な表現に変換する。過学習を防ぎ、計算量を削減する。

RNN
時系列データの処理に有効なニューラルネットワークです。過去の情報を利用して現在の出力を予測する。

LSTM
RNNを改良したモデル。長期の依存関係を捉える能力に優れている。忘却ゲート、入力ゲート、出力ゲートの3つのゲートを持つことで、情報を制御する。

画像解析
CNNなどのニューラルネットワークモデルを用いて、画像の分類、物体検出、セマンティックセグメンテーションなどのタスクを行うこと。

音声認識
RNN (特にLSTMやGRU)などのニューラルネットワークモデルを用いて、音声信号をテキストに変換すること。

深層生成モデル
特徴抽出
深層学習モデルは、畳み込みニューラルネットワーク (CNN) などを用いて、画像の低レベルな特徴 (エッジ、輪郭) から高レベルな特徴 (物体、シーン) までを順次抽出する。各層のニューロンは、入力データの特定の特徴を検出するように学習する。

ノイズ除去
オートエンコーダーは、入力データを低次元の潜在空間へエンコードし、その後、元のデータ空間にデコードするモデル。この過程で、ノイズ成分が除去される。

オートエンコーダー
入力データを特徴に圧縮(エンコード)し、ここから元の入力を再構成(デコード)する仕組み。

敵対的生成ネットワーク(GAN)
生成モデルと識別モデルの2つのネットワークが互いに競合しながら学習するモデル。

識別モデル
生成モデルが生成した偽のデータを、真のデータと区別しようとする。

生成モデル
識別モデルを騙すような、より自然なデータを生成しようとする。

AI とロボット
AI とロボット
家庭用ロボット
掃除ロボット、ペットロボットなど。人間の生活を補助するロボット。AIを活用し、環境認識、経路計画、障害物回避などの機能を実現。

産業用ロボット
溶接、塗装、組み立てなどの作業を行うロボット。AIを活用し、高精度な作業、柔軟な対応を実現。

サービスロボット
医療、介護、接客などで人間の生活をサポートするロボット。AIを活用し、対話、感情認識、行動理解などの機能を実現。

自動化機械
人の作業を自動化する機械。物品の搬送、加工を行う機械など。AIを活用し、生産効率の向上、柔軟な対応を実現。

センサー
外部の情報を感知する装置。AIと組み合わせて、より高度な情報処理を実現。

アクチュエータ
機械を動作させる装置。AIの指示に基づいて動作。

ジェスチャー認識
人間のジェスチャーを認識し、ロボットの行動を制御。

行動推定
人間の行動を予測・推定し、それに合わせてロボットが行動。

AI の構築・運用
AI の構築・運用
AI の学習と推論・評価・再学習
目的関数を最小化/最大化するパラメータを求めることを学習という。学習されたパラメータを用いたモデルを用いて予測の出力を行うことを推論という。予測結果を基にモデルの性能を評価し、必要に応じて再学習を行うことで品質を確保する。

AI の社会実装・ビジネス/業務への組み込み
AI技術を実際の製品やサービスに組み込み、社会問題の解決やビジネスの効率化に役立てること。業務効率化、新たな価値創出、社会問題の解決が図られる。データの量や質、技術的な問題、倫理的な問題が課題としてある。

複数の AI 技術を活用したシステム(スマートスピーカー・AI アシスタントなど)
スマートスピーカー、AIアシスタントなど、複数のAI技術を組み合わせて実現されるシステムが登場している。音声による操作や対話、他のデバイスとの連携ができる。

AI システムの開発・テスト・運用
近年はAIシステムの導入が進んでいる。AIシステムの導入では、通常のシステムと同様に開発・テスト・運用を行う。機械学習モデルの開発から運用のライフサイクルを管理する手法であるMLOpsや、モデルの性能評価のためのA/Bテストなどがある。

AI システムの品質・信頼性
安定して予測の性能が高く担保されるよう機械学習モデルの品質を保つ必要がある。また、説明可能性などにより信頼性を確保することが重要。

AI の開発基盤(大規模並列 GPU マシンなど)
ディープラーニングのモデル学習では大規模並列GPUマシンなどが用いられる。

AI の計算デバイス(GPU・FPGA など)
ディープラーニングのモデル学習ではGPUマシンが重要となる。FPGAは製造後に購入者や設計者が構成を設定できる集積回路のこと。
Discussion

ログインするとコメントできます