Open2024/09/06にコメント追加20

決定木の学習アルゴリズムってどうなってるの？

ピン留めされたアイテム

結論：決定境界の探索はゴリ押し。

二分探索するからオーダーは意外と低いのかな？全てのサンプルに対して勾配を計算するような手法よりは軽いのかな

これが木を作ってる

start, end は自分より下の部分木のインデックスの最初と最後ってことかな。下３つは謎。

n_constant_features 名前から察するに、ノード内の特徴量が全部同じで分割する必要がないことを示す変数かな？

分割するかどうか判定

こっちは一旦分割してから改善具合で再判定

min_impurity_decrease はデフォルトでゼロ

これはなんだ？→各ノードの予測値を設定

https://github.com/scikit-learn/scikit-learn/blob/4aeb191100f409c880d033683972ab9f47963fa4/sklearn/tree/_tree.pyx#L279
node_value は各ノードに入ってるサンプルのラベルっぽい。

https://github.com/scikit-learn/scikit-learn/blob/2cbf3345bce979b261f7007616cc3465f33a51d3/sklearn/tree/_criterion.pyx#L552

https://github.com/scikit-learn/scikit-learn/blob/2cbf3345bce979b261f7007616cc3465f33a51d3/sklearn/tree/_criterion.pyx#L330-L331
引数で node.value と node_id を足してるところが気持ち悪い
value_stride

https://github.com/scikit-learn/scikit-learn/blob/4aeb191100f409c880d033683972ab9f47963fa4/sklearn/tree/_tree.pyx#L797
node_value method の引数は、すべての node_value を格納するでかい配列における、とある node の value のインデックスなのかな？

やっぱり value はアドレスっぽいな

このへんでちらほら出てくる monotonic_cst というのはこういう機能のことらしい

lower_bound, upper_bound は単調性をチェックするための変数っぽい？（普段は全ノードで -inf, inf となるから無視していい？）

push node on stack

あら、これを続けて stack が空になったら終わりか。
分類規準が上手いこと隠れてるな

分割するとき、まずこれが呼ばれる

それっぽいのはある

まず、対象のノードが splitter とかいうやつに登録される

とりあえずの分割点で criterion を測ってる？

split に使う変数はこの辺らしい

更新してる感。やはり、現在のノードのサンプル同士の中間点を通るように決定境界を引いてそう

（ほぼ）全サンプルの周辺で不順度の計算をしていそう