Open2

nn for q

状態評価値の取得

  • 通常tableで評価値を持つので、該当のidxを取り出す
    • 状態数が多い系には適応できない
    • 報酬は直接加算すればいい
  • NNの場合は多段の行列を入力に作用させる
    • 空間をtable形式で表現しなくて済む
    • 報酬は位置座標(action)を作用して得られる評価値を調整する(間接)

空間の探索が一様に行われるのであれば伝搬した報酬をそのまま教師データとの差分として扱ってnnを更新しても良さそう

ログインするとコメントできます