Open2

nn for q

とっとり(砂丘)とっとり(砂丘)

状態評価値の取得

  • 通常tableで評価値を持つので、該当のidxを取り出す
    • 状態数が多い系には適応できない
    • 報酬は直接加算すればいい
  • NNの場合は多段の行列を入力に作用させる
    • 空間をtable形式で表現しなくて済む
    • 報酬は位置座標(action)を作用して得られる評価値を調整する(間接)