강화학습 #2

강화학습 #2

MDP(Markov Decision Process)

MDP는 이전 포스트에서 상태, 행동, 보상, 정책으로 구성 되어 있다고 적었는데

더 정확히 말하면 MDP는 [상태, 행동, 보상, 상태변환확률, 감가율]로 구성 되어 있습니다.

개별 요소에 대해 더 정확히 풀이 하면 다음과 같습니다.

이해를 간단히 하기 위해서 그리드 월드(격자로 표현 가능한 세상)를 중심으로 표현 합니다.

*상태

  • 그리드 월드에서 상태는 에이전트가 위치한 좌표를 의미 합니다.
  • 5*5 격자 그리드 월드 일 경우 나올수 있는 경우의 수는 25가지가 됩니다.
  • \(S = {(1,1),(1,2),(1,3),,,(5,5)}\)이 됩니다.
  • 그리고 어떤 특정 시간 \(t\)에 상태값을 표현 하는 것은 \(S_t\) 로 표현하고, 이 값이 \((1,3)\)일때 다음과 같이 표현 됩니다.
  • \(S_t = (1,3)\)
  • 어떤 상태 t에서의 상태 \(S_t\)는 정해져 있지 않습니다. 때에 따라서 \(t=1\) 일 때 \(S_t = (1,3)\)일 수도 있고, \(S_t=(4,2)\)일 수도 있습니다. 이러한 것을 확률 변수라고 합니다.
  • \(S_t=s\) 이 식은 “시간 \(t\)에서 상태 \(S_t\)가 어떤 상태 \(s\)다를 표현
  • 행동
  • 에이전트가 상태 (S)일 때 할수 있는 행동의 집합은 (A)
  • 행동 집합 (A)의 한 원소는 (a)로 표현.
  • 어떤 특정 시간 (t)에서 하나의 행동은 (A_t=a)로 표현
  • (A_t)는 어떤 특정 시간(t)에서 선택할 행동, 어떤 행동을 할 것인지를 정의한것이 아니기 때문에 전체집합(A)으로 표현
  • 그리드 월드에서의 행동은 다음고 같다
  • (A = {up,down,left,right})