LightGBMコード探訪

コンテキスト: https://bsky.app/profile/nnc5522.bsky.social/post/3laq3ensoj22x
二値分類はデフォルトでラベルが0より大きいか、どうかで1/-1を使ってloglossのgrad/hessを計算する。L37でis_pos_に無名関数がセットされてる。
この関数を使って、L113のGetGradients内で1/-1のラベルを作ってる。

is_pos_関数がtrue/falseを返す

→変数定義部分でintに暗黙的にキャスト

→0/1でclass_val_には[-1, 1]が入っててこれによってサンプルごとのラベルを作成

→作成したラベルを使ってloglossのgrad/hessを計算してる
https://github.com/microsoft/LightGBM/blob/5151fe85f08e5dccff7d48242dddace51f9c8ede/src/objective/binary_objective.hpp

名無し。

callback使うと、lrの減衰みたいなこともできるらしい。どれだけ効くかはわからないけど。収束の速さを保ったまま精度保てる？

名無し。

lgb.Sequenceを継承したDatasetでHDF5使ってメモリに乗り切らないデータで学習できるってこと？

名無し。

train APIでは基本中でBooster.updateを呼んでる。
https://github.com/microsoft/LightGBM/blob/master/python-package/lightgbm/basic.py#L4081
その中で_LIB.LGBM_BoosterUpdateOneIterを読んでC++側の実装を呼び出してる。
https://github.com/microsoft/LightGBM/blob/master/python-package/lightgbm/basic.py#L4144

ここから新しい木を構成

初期化してるTreeの実態。interfaceはheaderにある。