Open2021/07/21にコメント追加2nn for qとっとり(砂丘)2021/07/21に更新 状態評価値の取得 通常tableで評価値を持つので、該当のidxを取り出す 状態数が多い系には適応できない 報酬は直接加算すればいい NNの場合は多段の行列を入力に作用させる 空間をtable形式で表現しなくて済む 報酬は位置座標(action)を作用して得られる評価値を調整する(間接) とっとり(砂丘)2021/07/21に更新空間の探索が一様に行われるのであれば伝搬した報酬をそのまま教師データとの差分として扱ってnnを更新しても良さそう 返信を追加
とっとり(砂丘)2021/07/21に更新 状態評価値の取得 通常tableで評価値を持つので、該当のidxを取り出す 状態数が多い系には適応できない 報酬は直接加算すればいい NNの場合は多段の行列を入力に作用させる 空間をtable形式で表現しなくて済む 報酬は位置座標(action)を作用して得られる評価値を調整する(間接) とっとり(砂丘)2021/07/21に更新空間の探索が一様に行われるのであれば伝搬した報酬をそのまま教師データとの差分として扱ってnnを更新しても良さそう 返信を追加