• Home
  • About
    • JasonSong's Blog photo

      JasonSong's Blog

      Moon is a minimal, one column jekyll theme for your blog.

    • Learn More
    • Twitter
    • Facebook
    • Instagram
    • Github
    • Steam
  • Posts
    • All Posts
    • All Tags

파이썬과 케라스로 배우는 강화학습 2강

07 Nov 2019

Reading time ~2 minutes

Summary

  • MDP(Markov Decision Process)에 대한 수식
    • 상태(State)
    • 행동(Action)
    • 보상 함수(Reward function)
    • 상태변환확률(State Transition Probability)
    • 감가율 (Discount Factor)
  • 정책(Policy)
  • 가치함수(Value Function)
    • 상태 가치함수 (State Value function)
    • 행동 가치함수 (Action Value function) - 큐함수
  • 벨만 방정식
    • 벨만 기대방정식
    • 벨만 최적방정식
  1. MDP(Markov Decision Process)

    순차적 행동 결정 문제를 풀 때 수학적으로 표현하는 방식.

    • 상태 (State)

      에이전트가 관찰 가능한 상태의 집합 S(Random Variable) , state는 action에 따라( Transition Probability) 다음 state로 변함.

      ex) $S_{t} = s$ : 시점 t에서 가능한 상태의 집합에서 특정한 상태 s

    • 행동 (Action)

      $S_{t}$에 할 수 있는 모든 행동의 집합 A(Random Variable)

      ex) $A_{t}=a$: 시점 t에서 가능한 상태의 집합에서 특정한 행동 a

    • 상태변환확률(State Transition Probability) - 환경의 모델

      t 시점 s 상태에서, t시점 s 상태에서 a 행동을 취했을때, t+1 시점에서 s’ 상태일 확률.

    • 감가율(Discount Factor)

가까운 보상에 더 큰 가중치를 두기 위한 비율 $\gamma \in {[0,1]}$

ex) t시점에서 시간 2이 지났을때 $\gamma ^{2-1}$ 만큼 보상(Reward)에 곱하겠음.

  • 보상 함수(Reward Function)

에이전트가 학습할 수 있는 유일한 정보. 환경으로 부터 시간 1(time step)이 지난 다음 받는 보상에 대한 기대값.

t 시점 s 상태에서, t 시점 a 행동을 행하였을 때, t+1시점의 보상의 기대값(Expectation). 결국 행동으로 인해 보상을 받는 것이다(결과 때문에 받는 것이 아님)

  1. 정책(Policy)

    에이전트가 어떤 s(상태)에 도착하였을 어떤 a(행동)를 행해야할지 골라주는 것. 강화학습은 결국 최적의 정책을 목적으로 하고, MDP에서는 얻은 보상들의 합이(Reward)을 최대화하는 정책을 찾는다.

  2. 가치함수(Value Function)

    어떠한 상태에 있으면 앞으로 얼마의 보상을 받을 것인지에 대한 기대값을 나타내는 함수

    • 상태 가치 함수(State-value function) - v(s)

      t시점 s 상태일 때, t시점 확률변수 G(Return)에 대한 기대값. 쉽게 말해 s 상태의 가치이고, 에이전트는 다음으로 갈수 있는 상태들(집합 S에 있는 것들) 중 높은 가치를 선택하는 것.

      • $G_{t}$ (Return) : t시점으로부터 감가된 보상들의 총합

      t시점 G는 t+1시점의 보상 R 과 감가율읠 적용한 t+1 시점의 G의 합이됨.

    • 행동 가치 함수(Action-value function) - 큐함수

      어떤 s상태에서 어떤 a행동을 할 경우 받을 G(return)값에 대한 기대값을 나타내는 함수. 어떤 행동을 하면 얼마나 좋을까를 나타내줌.

  3. 벨만방정식(Bellman Equation)

    특정 정책에서 현재(t 시점) 상태의 가치 함수와 다음 상태(t+1시점)의 보상과 다음 상태(t+1시점) 가치함수의 합을 식을 나타낸 것

    • 벨만 기대 방정식

    상태 가치 함수

    행동 가치 함수(큐함수)

    여기서 s’, a’ 은 다음 시점의 상태와 행동을 의미함.

    정책 $\pi (a s)$ 는 어떠한 행동을 할 확률을 의미함.
    • 벨만 최적 방정식

      최적 상태 가치 함수

      최적 행동 가치 함수(큐함수)



Share Tweet +1