1 機械学習入門

1.3 はじめての機械学習モデル

標本点ことに正解値ytと予測値ypの差の2乗を計算し、すべての標本点での合計を損失関数として評価する
この考えが「残差平方和」と呼ばれ、線形回帰モデルでの標準的な損失関数の考え方になっています

具体的な値を与えてみて計算

xとyのそれぞれの平均で引く

ta.toshio

2 微分積分

2.2 合成関数・逆関数

合成関数

2つの関数f(x)とg(x)があるとします。この時、f(x)の出力をg(x)の入力とすることにより、2つの関数を組み合わせた新しい関数を作る個が可能です。こうして作られた関数のことを合成関数といいます。

逆関数

書籍引用

逆関数の特徴として、関数y=f(x)のグラフと逆関数y=g(x)のグラフはy=xの直線に関してちょうど対象な図形となる

解説記事

https://manabitimes.jp/math/784

2.3 微分と極限

出所: https://github.com/makaishi2/math-sample/blob/master/movie/diff.gif

微分とは結局「xを少しだけ増やしたときの、yの増える量を比で表したもの」

2.3.2 微分と関数値の近似表現

ここの説明よく分からなかった。

2.3.3 接線の方程式

ここのコラムにてx, yを与えてy＝ax＋bとなる方程式を求めて、aの値を決定するフェーズを学習フェーズ。そのaを使ってyを予測することを予測フェーズに当てはめた解説をしていた。

2.4 最大、最小

関数f(x)の微分f'(x)の値が0になるようなxの値で、関数は最大または最小の値をとる

（とらない場合もある。例y=x³のグラフ）

2.5 多項式の微分

2.5.2 微分計算の線形性と多項式の微分

微分演算の他に「線形性」の成り立つ例としては、原点を通る一次関数（線形の名前の由来）やベクトル間の演算だる内積などがあります

コラムC(Combination)と二項定理

解説

2.6 積の微分

2.7 合成関数の微分

2.7.2 逆関数の微分

参考

2.8 商の微分

参考

29 積分

S(x + dx) - S(x) ≒ f(x)dx + 1/2f'(x)(dx)² の2乗の部分が分からないなぁ

ta.toshio

3 ベクトル・行列

3.3 ベクトルの長さ

3.3.3 ベクトル間の距離

3.4 三角関数

3.5 内積

3.6 コサイン類似度

問題は「4次元以上のときの2つのベクトルのなす角度とは何か」です。...そもそもなんであるかもイメージできないわけです。
しかし、次元が100次元であっても、この式でコサインっぽいものが出せることは確かで、少なともこの式で求めた値が1に近い場合、「2つのベクトルの向きは近い」ということがいえそうです。
そこで、多次元ベクトルを対象に上のcosθの値に該当する計算をした場合、その値をコサイン類似度と呼びます。
コサイン類似度は、ベクトル間の向きの近さを示す指標として実際によく使われています。

コラムに使用例が紹介されている。

3.7 行列と行列演算

ta.toshio

4 多変数関数の微分

4.2 偏微分

複数ある変数のうち、1つの変数だけが変化するものとして、残りの変数を定数とみなす方法が考えられました。これが偏微分と呼ばれる

4.3 全微分

参考

4.4 全微分と合成関数

公式だけ記載。証明の過程は理解できなかったので未記載。

参考

https://physnotes.jp/math/par_tot/

4.5 勾配降下法

ある2変数関数 L(u, v)が与えられたとき、L(u, v)の値を最小にするような(u, v)の値(min u, min v)を求めたい

勾配降下法で移動量を出す計算は損失関数の偏微分の計算であることもわかったと思います。機械学習・ティープラーニングにおける繰り返し計算の本質は損失関数の微分なのです。

勾配降下法の様子を示すアニメーション

参考

ta.toshio

5 指数関数・対数関数

5.1 指数関数

5.2 対数関数

逆関数のグラフと元の関数のグラフはy=xに関して対象な関係にあります。

対数関数は正の値に対してしか定義されないことがあります。
これは逆関数である指数関数が関数の値として正の値しかとらないことと対応しています。

仮数f(x)に対してxのとりうる値の範囲を定義域、f(x)のとりうる値の範囲を値域といいますが、
指数関数の値域は正の範囲
対数関数の定義域は正の範囲

5.3 対数関数の微分

参考

5.4 指数関数の微分

参考

5.5 シグモイド関数

5.6 softmax関数

参考

https://taketake2.com/N45.html

ta.toshio

6 確率・統計

6.1 確率変数と確率分布

確率変数のとりうるそれぞれの値について、確率の値を表形式にまとめたものを確率分布といいます。

「1か0かの結果となる独立した試行n回行ったときに、1の結果が出た回数」を確率変数とした場合の確率分布のことを、二項分布と呼びます

横軸は確率変数を、縦軸はそのときの確率密度を表す。

6.2 確率密度関数と確率分布関数

二項分布のヒストグラムはnの値を大きくしていくと、ある連続関数に近づいていきます。この関数は、次の式で表されるものであることがわかっており、正規分布関数という名前がついています。

また、二項分布関数が正規分布関数に近づいていく性質は、中心極限定理と呼ばれています。

確率変数が連続的な値を取る場合、確率は正規分布関数のような連続関数で考えることができます。この時の関数のことを確率密度関数と呼びます。

確率変数が連続値であるような事象では、実際の確率値を計算するには確率密度関数を積分した結果が必要になります。この計算で必要な確率密度関数の原始関数のことを、確率分布関数と呼びます

正規分布関数とシグモイド関数

実数値から確率値を出したい時に、変換用の関数に正規分布関数を使うのは自然の発送です。しかし機械学習モデルで確率値を出すのに利用されるのはシグモイド関数であって、通常、正規分布関数が使われることはありません。
その一番大きな理由は、確率密度関数が正規分布関数である場合に、その積分結果（確率分布関数）が解析的に解けない（関数式として表すことができない）ことがあげられます。