Closed6
マンカラ環境を作った話
作ってみて難しかったところ
- APIをどうするべきかが難しかった
- ボードの扱い方
- ターンを変更したときにボードをひっくり返すべきかどうか
- 獲得済みの石の数を情報に含めるべきかどうか
- legal actionsの扱い方
- ペナルティを与えるべきか
- そもそも実行不可能にすべきか
- ボード状態の見せ方
- 確か,石の数をそのまま入れていた
- ワンホットにするとか,今なら他の選択肢もあるのでは
- マンカラならではの要素 スキップ
- 環境がハンドルすべきか,エージェントがハンドルすべきか
Gym APIはPOMDP
RLlibはPOSG (partially observable stochastic game)
POSG (partially observable stochastic games)
EFG (extensive form games)
AEC (agent environment cycle) games
このスクラップは2021/12/24にクローズされました