🌊

マルコフ決定過程とは?

に公開

マルコフ決定過程(MDP:Markov Decision Process) は、強化学習や最適化理論の土台になる考え方です。

一言で言うと?

ある状態において、行動を選ぶと報酬を得て次の状態に遷移する…というプロセスを数学的にモデル化したもの。

マルコフ決定過程を構成する5つの要素

マルコフ決定過程は、以下の「5つの要素」で定義されます:

記号 意味 例(ゲームで考える)
S 状態(State) 盤面、位置、スコア
A 行動(Action) 移動、攻撃、選択肢
P(s' s,a) 遷移確率(Transition)
R(s,a) 報酬(Reward) 成功したら+10点、失敗で-1点 など
γ 割引率(Discount factor) 将来の報酬をどれくらい重視するか(0〜1)

マルコフ性って何?

「未来の状態は、現在の状態と行動だけで決まる(過去は関係ない)」

これが「マルコフ性」です。
だから「マルコフ決定過程」と呼ばれるわけですね。

MDPが使われてる場所

分野 具体例
強化学習 Q学習、DQN、Actor-Critic など
ゲームAI 将棋・チェス・囲碁・RPGの敵キャラの判断
ロボティクス 自動運転、ドローン制御
経営/運用最適化 在庫管理、広告配信、戦略的意思決定

イメージで理解(例:迷路)

あなたが迷路にいて:

現在の位置=状態(S)

進む方向=行動(A)

ゴールに近づいたら報酬(R)

ゴールに行くと終わり

このとき、「どの方向に進むのがトクか?」を考えていくのが MDP。

まとめ:マルコフ決定過程とは?

状態・行動・報酬・遷移・割引率で構成される

未来の報酬を最大化する戦略(方策)を探すための枠組み

強化学習や実用的なAIで使われる、超基礎理論

Discussion