Markov Decision Process
David Silver ๊ฐ์์์๋ MDP๋ฅผ ๋ฐฐ์ฐ๊ธฐ ์ ์ Markovํ๋ค๋ ๋ง์ ์ ์์ Markov Chain, Markov Reward Process๋ฅผ ๋ฐฐ์๋๋ค. Markov๋ 1800๋ ๋์ ๋ฌ์์ ์ํ์์ ์ด๋ฆ์ ๋๋ค. ์ด ๋ถ์ ์ด๋ฆ์ด ํ๋์ ํ์ฉ์ฌ๊ฐ ๋์๋๋ฐ ๊ทธ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.

๋ค์์ state์ value์ ๋ํด์ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
์์ ์ฒซ ์์ฒ๋ผ ์ฒ์ ์ด๋ ํ ์ํ๋ก๋ถํฐ ์์ํด์ ํ์ฌ ์ํ๊น์ง ์ฌ ํ๋ฅ ์ด ๋ฐ๋ก ์  ์ํ์์ ํ์ฌ ์ํ๊น์ง ์ฌ ํ๋ฅ ๊ณผ ๊ฐ์ ๋, ๋ ๋ฒ์งธ ์์ฒ๋ผ ํํ์ด ๋ ์ ์๊ณ state๋ Markovํ๋ค๊ณ ์ผ์ปฌ์ด์ง ์ ์์ต๋๋ค.
์คํํฌ๋ํํธ๊ฐ์ ๊ฒ์์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๊ฒ์ ์ค๊ฐ ์ด๋ค ์ํฉ์ ์ด์ ์ ๋ชจ๋ ์ํฉ๋ค์ ์ํฅ์ ๋ฐ์์ ์ง๊ธ์ ์ํฉ์ด ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ์ฌ์ค์ ์ง๊ธ ์ํฉ์ ์ด์  ์ํฉ์ ๋ํ ์ ๋ณด๋ค์ด ๋ชจ๋ ๋ด๊ฒจ์๋ค๊ณ ๊ฐ์ ํ ์๋ ์์ต๋๋ค. ๊ฐํํ์ต์ด ๊ธฐ๋ณธ์ ์ผ๋ก MDP๋ก ์ ์๋๋ ๋ฌธ์ ๋ฅผ ํ๊ธฐ๋๋ฌธ์ state๋ Markov๋ผ๊ณ ๊ฐ์ ํ๊ณ ์ ๊ทผํฉ๋๋ค. ํ์ง๋ง ์ ๋์ ์ธ ๊ฒ์ ์๋๋ฉฐ Non-Markovian MDP๋ ์์ผ๋ฉฐ ๊ทธ๋ฌํ ๋ฌธ์ ๋ฅผ ํ๊ธฐ์ํ ๊ฐํํ์ต๋ค๋ ์์ง๋ง ์๋์ ์ผ๋ก ์ฐ๊ตฌ๊ฐ ๋ ๋์์ผ๋ฉฐ ์ฒ์์ ์ ํ๊ธฐ์๋ ์ ํฉํ์ง ์์ต๋๋ค. ๊ฐํํ์ต์์๋ value๋ผ๋ ์ด๋ ํ ๊ฐ์น๊ฐ ํ์ฌ์ state์ ํจ์๋ก ํํ๋๊ณ ์ด state๊ฐ Markovํ๋ค๊ณ ๊ฐ์ ๋ฉ๋๋ค.
๋ค์์ UC Berkeley์ intro to AI ๊ฐ์์ slide์์ ๊ฐ์ ธ์จ ๊ทธ๋ฆผ์ ๋๋ค.

์ ๊ทธ๋ฆผ์์ ๋ก๋ด์ด ์ธ์์ ๋ฐ๋ผ๋ณด๊ณ ์ดํดํ๋ ๋ฐฉ์์ด MDP๊ฐ ๋ฉ๋๋ค. MDP๋ Markov Decision Process์ ์ฝ์๋ก์ state, action, state transition probability matrix, reward, discount factor๋ก ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. ๋ก๋ด์ด ์๋ ์์น๊ฐ state, ์๋ค์ข์ฐ๋ก ์ด๋ํ๋ ๊ฒ์ด action, ์  ๋ฉ๋ฆฌ ๋ณด์ด๋ ๋น๋๋ ๋ณด์์ด reward์ ๋๋ค. ํ ๋ง๋๋ก ๋ฌธ์ ์ ์ ์์ ๋๋ค. ์ด์  ์ด ๋ก๋ด์ ๋ณด์์ ์ป๊ธฐ ์ํด ์ด๋ป๊ฒ ํด์ผํ ์ง๋ฅผ ํ์ตํ๊ฒ ๋ ๊ฒ ์ ๋๋ค. ๊ทธ ์ ์ MDP์ ๋ํด์ ๋ ์ดํด๋ณผ ํ์๊ฐ ์์ต๋๋ค.
๋ค์ ์ ๊ฐ ๋ค์๋ Silver๊ต์๋์ ๊ฐ์์์ ๋งํ๋ MDP์ ์ ์๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๋ฐ์ ๊ทธ๋ฆผ์http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html ์ ์๋ 2์ฅ ์๋ฃ์์ ๊ฐ์ ธ์์ต๋๋ค.

State
๊ฐ๋จํ ์ค๋ช ์ ํ์๋ฉด state๋ agent๊ฐ ์ธ์ํ๋ ์์ ์ ์ํ์ ๋๋ค. ์ฌ๋์ผ๋ก ์น์๋ฉด ๋์ด๋ผ๋ ๊ด์ธก๋๊ตฌ๋ฅผ ํตํด์ "๋๋ ๋ฐฉ์ ์์ด"๋ผ๊ณ ์ธ์ํ๋ ๊ณผ์ ์์ "๋ฐฉ"์ด state๊ฐ ๋ฉ๋๋ค.
์ด ์ด์ธ์๋ state๋ ์๊ฐ๋ณด๋ค ๋ง์ ๊ฒ๋ค์ด ๋ ์ ์๋๋ฐ ๋ฌ๋ฆฌ๋ ์ฐจ ๊ฐ์ ๊ฒฝ์ฐ์๋ "์ฐจ๋ Jeep์ด๊ณ ์ฌ๋์ 4๋ช ํ์ผ๋ฉฐ ํ์ฌ 100km/h๋ก ๋ฌ๋ฆฌ๊ณ ์๋ค"๋ผ๋ ๊ฒ์ด state๊ฐ ๋ ์ ์์ต๋๋ค. OpenAI์๋ ์๋ atari game๊ฐ์ ๊ฒฝ์ฐ์๋ ๊ฒ์ํ๋ฉด ์์ฒด, ์ฆ pixel์ด agent๊ฐ ์ธ์ํ๋ state๊ฐ ๋ฉ๋๋ค. ๋ Cartpole์์๋ cart์ x์์น์ ์๋, pole์ ๊ฐ๋์ ๊ฐ์๋๊ฐ state๊ฐ ๋ฉ๋๋ค. ์ฆ, ๋ฌธ์ ๋ ์ ์ํ๊ธฐ ๋๋ฆ์ ๋๋ค. ์ค์ฌ๋ก ์ด๋ ํ ๋ฌธ์ ๋ฅผ ๊ฐํํ์ต์ผ๋ก ํ ์๋ ์๊ณ ๋ค๋ฅธ machine learning ๊ธฐ๋ฒ์ผ๋ก ํ ์๋ ์๊ธฐ ๋๋ฌธ์ ๊ฐํํ์ต์ ์ ์ฉ์ํค๊ธฐ ์ ์ ์ ๊ฐํํ์ต์ ์จ์ผํ๊ณ ๋ค๋ฅธ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์ ๋นํด์ ๋์ ์ ์ด ๋ฌด์์ธ๊ฐ๋ฅผ ๋ฐ์ ธ๋ณด๊ณ ์ฌ์ฉํด์ผํ ๊ฒ ๊ฐ์ต๋๋ค. ๊ฐํํ์ต์ "์๊ฐ"์ด๋ผ๋ ๊ฐ๋ ์ด ์๋ ๋ฌธ์ ๋ฅผ ํธ๋ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฒ์ ๋๋ค. ์ด๋ ๊ฒฐ๊ตญ ๊ฐํํ์ต์ ๋ชฉํ๊ฐ Policy(์ผ๋ จ์ ํ๋๋ค)๋๋ค๋ ์๋ฏธ๋ฅผ ํจํฌํฉ๋๋ค.
Action
Agent์ ์ญํ ์ ๋ฌด์์ผ๊น์? environment์์ ํน์  state์ ๊ฐ์ ๋ action์ ์ง์ํ๋ ๊ฒ์ ๋๋ค. robot์ด ์ผ์ชฝ์ผ๋ก ๊ฐ์ง, ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ ์ง๋ฅผ ๊ฒฐ์ ํด์ฃผ๋ ์ญํ ์ ๋๋ค. ๊ทธ๋์ ์ฌ๋์ ๋๋ผ๊ณ ์๊ฐํ๋ฉด ์ดํด๊ฐ ์ฝ์ต๋๋ค. "์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ๋ค", "์ผ์ชฝ์ผ๋ก ๊ฐ๋ค"๋ผ๋ ๊ฒ์ด action์ด ๋๊ณ agent๊ฐ ๊ทธ action๋ฅผ ์ทจํ์ ๊ฒฝ์ฐ์ ์ค์ฌ๋ก ์ค๋ฅธ์ชฝ์ด๋ ์ผ์ชฝ์ผ๋ก ์์ง์ด๊ฒ ๋ฉ๋๋ค. ๋ํ agent๋ action์ ์ทจํจ์ผ๋ก์ ์์ ์ state๋ฅผ ๋ณํ์ํฌ ์ ์์ต๋๋ค. ๋ก๋ด์์๋ ํํ Controller๋ผ ๋ถ๋ฅด๋ ๊ฐ๋ ์ ๋๋ค.
State transition probability matrix
robot์ด ์์ง์ธ๋ค๊ณ ์๊ฐํด๋ด ์๋ค. robot์ด ์ผ์ชฝ์ผ๋ก ์์ง์ด๋ฉด ์์น๊ฐ ๋ณํ๋ฏ์ด, action์ ์ทจํ๋ฉด environment์์ agent์ state๊ฐ ๋ณํ๋ ๋ฐ ๊ทธ๊ฒ ๋ํ environment๊ฐ agent์๊ฒ ์๋ ค์ค๋๋ค. ์ ํํ ๋งํ๋ฉด agent๊ฐ observeํ๋ ๊ฒ ์ ๋๋ค. ๋์ ์ ์ด๋ ํ ์ธ๋ถ์์ธ์ ์ํด (ex ๋ฐ๋์ด ๋ถ๋ค๋์ง) robot์ด ์ผ์ชฝ์ผ๋ก ๊ฐ๋ คํ์ง๋ง ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ๋ค์ ๊ทธ๋ฆผ์ ์ฐธ๊ณ ํ๋ฉด ๊ฐ๋ ์ด ์ข ๋ ์ ์ ๋ฟ์ผ์ค ๊ฒ๋๋ค. ๋ก๋ด์ ์์ผ๋ก ๊ฐ๋ค๊ณ ๊ฐ์ง๋ง ์ผ์ชฝ์ผ๋ก ๊ฐ์ ๋ถ์ ๋น ์ง ์๋ ์๊ณ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ ์๋ ์๋ค๋ ๊ฒ์ ๋๋ค. ๊ทธ ํ๋ฅ ์ ํํํ๋ ๊ฒ์ด "state transition probability matrix"์ ๋๋ค. ์ด๋ ๊ฒ ์ด๋ ํ action์ ์ทจํ์ ๊ฒฝ์ฐ state๊ฐ deterministicํ๊ฒ ๋ฑ ์ ํด์ง๋ ๊ฒ์ด ์๋๊ณ ํ๋ฅ ์ ์ผ๋ก ์ ํด์ง๊ฒ ๋๋๋ฐ ์ผ์ข ์ noise๋ผ๊ณ ์๊ฐํ์ ๋ ๋ ๊ฒ ๊ฐ์ต๋๋ค.

์ ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. s๋ผ๋ state์์ a๋ผ๋ ํ๋์ ์ทจํ  ๋ s'์ ๋์ฐฉํ  ํ๋ฅ ์ ์ด์ผ๊ธฐํฉ๋๋ค.  
 
Markov Chain
MDP์์ action๊ณผ reward๊ฐ ์๋ค๊ณ ๊ฐ์ ํด๋ด ์๋ค. ๊ทธ๋ ๋ค๋ฉด state์ state๋ผ๋ฆฌ์ transition matrix๋ฅผ ์๊ฐํด๋ณผ ์ ์์ ๊ฒ ์ ๋๋ค. Silver๊ต์๋์ Markov Chain์ ๋ํด์ ๋ค์๊ณผ ๊ฐ์ด ์ค๋ช ํ์ จ์ต๋๋ค. ํ์๋ค์ ์ํ๋ฅผ state๋ก ์ก๊ณ ๊ฐ state๋ผ๋ฆฌ์ transition probability๋ฅผ ์ ์ํ ์ ์์ต๋๋ค. ์ด๊ฒ๋ง์ผ๋ก์๋ ๋ฌด์์ธ๊ฐ๋ฅผ ํ์ต์ํฌ ์ ์์ง๋ง MDP๋ฅผ ๋ฐฐ์ฐ๊ธฐ์ ์ ๋ฐฐ์ฐ๋ ๊ธฐ๋ณธ ๊ฐ๋ ์ผ๋ก์ ์ ์ฉํ ๊ฒ ๊ฐ๊ณ ํ์ policy gradient์์ ๋ค๋ฃจ๋ stationary distribution์ ์ดํดํ๋๋ฐ ๋์์ด ๋ ๊ฒ ๊ฐ์ต๋๋ค. ์ด Markov Chain์์๋ ๋ฌดํ๋๋ก ์๊ฐ์ด ํ๋ฅด๋ฉด ๋ชจ๋ Sleep์ผ๋ก ์๋ ดํ ๊ฒ์ด๊ณ ๋์ด์ ๋ณํ๊ฐ ์๊ธฐ ๋๋ฌธ์ stationary distribution์ด๋ผ๊ณ ๋งํฉ๋๋ค. ํ์ฌ๋ ์ด๋ค state์์ state๋ก ๊ฐ๋ ํ๋ฅ ์ด ํ์๋์ด ์์ง๋ง MDP์์๋ action์ ํ ํ๋ฅ ๊ณผ action์ ํด์ ์ด๋ค state๋ก ๊ฐ ํ๋ฅ ์ด ์ฃผ์ด์ง๊ฒ ๋ฉ๋๋ค.

Reward
agent๊ฐ action์ ์ทจํ๋ฉด ๊ทธ์ ๋ฐ๋ฅธ reward๋ฅผ "environment"๊ฐ agent์๊ฒ ์๋ ค์ค๋๋ค. ๊ทธ reward๋ atari game์์๋ "score", ๋ฐ๋์ ๊ฒฝ์ฐ์๋ ์นํจ( ์ํ๊ณ ๊ฐ ํ์ตํ๋ ๋ฐฉ๋ฒ), trajectory control์ ๊ฒฝ์ฐ์๋ "์๋ํ ๊ถค๋์ ์ผ๋ง๋ ๊ฐ๊น๊ฒ ์์ง์๋"๊ฐ ๋ฉ๋๋ค. ์ ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. s๋ผ๋ state์ ์์ ๋ a๋ผ๋ action์ ์ทจํ์ ๋ ์ป์ ์ ์๋ reward์
๋๋ค. ๊ฐํํ์ต์์๋ ์ ๋ต์ด๋ ์ฌ์ ์ ํ๊ฒฝ์ ๋ํ ์ง์์ด ์์ด ์ด reward๋ฅผ ํตํด์ agent๊ฐ ํ์ตํ๊ฒ ๋ฉ๋๋ค. 
์ด reward๋ฅผ immediate reward๋ผ๊ณ ํ๋๋ฐ agent๋ ๋จ์ํ ์ฆ๊ฐ์ ์ผ๋ก ๋์ค๋ reward๋ง ๋ณด๋ ๊ฒ์ด ์๋๋ผ ์ดํ๋ก ์ป๋ reward๋ค๊น์ง ๊ณ ๋ คํฉ๋๋ค.
Discount Factor
reward์ ์ ์์ ๋ฐ๋ผ ๊ฐ state์์ ์ด๋ ํ action์ ์ทจํ๋ฉด reward๋ฅผ ๋ฐ๊ฒ ๋๋๋ฐ ์ด๋ ๋จ์ํ ๋ฐ์๋ reward๋ค์ ๋ํ๋ฉด ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค.
- ์ด๋ ํ agent๋ ๊ฐ time-step๋ง๋ค 0.1์ฉ reward๋ฅผ ๋ฐ๊ณ ๋ค๋ฅธ agent๋ 1์ฉ ๋ฐ์์ ๊ฒฝ์ฐ์ ์๊ฐ์ด ๋ฌดํ๋๋ก ํ๋ฌ๊ฐ๋ค๋ฉด 0.1์ฉ ๊ณ์ ๋ํด๋ ๋ฌดํ๋์ด๊ณ 1์ฉ ๊ณ์ ๋ํด๋ ๋ฌดํ๋์ ๋๋ค. ์ํ์์ ๋ฌดํ๋๋ ํฌ๊ธฐ ๋น๊ต๋ฅผ ํ ์ ์์ต๋๋ค. 
- ๋ค์ ๋ ๊ฐ์ง ๊ฒฝ์ฐ๋ฅผ ๊ตฌ๋ถ ํ ์๊ฐ ์์ต๋๋ค. agent๊ฐ episode๋ฅผ ์์ํ์๋ง์ 1 ๋ฐ์์ ๊ฒฝ์ฐ์ ๋๋ ๋ 1์ ๋ฐ์์ ๊ฒฝ์ฐ๋ฅผ ๋ ๋ค ์ ์ฒด reward๋ฅผ 1์ ๋ฐ์๊ธฐ ๋๋ฌธ์ ๋ ์ํฉ์ค์ ์ด๋ค ๊ฒฝ์ฐ๊ฐ ๋ ๋์ ๊ฑด์ง๋ฅผ ํ๋จํ ์ ์์ต๋๋ค. 
๋ฐ๋ผ์ discount factor๋ผ๋ ๊ฐ๋ ์ด ๋ฑ์ฅํ๊ฒ ๋ฉ๋๋ค. ์ฌ๋์ ์ ์ฅ์์ ์๊ฐํด๋ณด๋ฉด ๋น์ฅ ์ง๊ธ ๋ฐฐ๊ณ ํ ๊ฒ์ ์ฑ์ฐ๋ ๊ฒ์ด ๋ด์ผ ๋ฐฐ๊ณ ํ ๊ฒ์ ์ฑ์ฐ๋ ๊ฒ๋ณด๋ค ์ค์ํ๋ค ์๊ฐํ๊ณ ํ๋ํ๋ ๊ฒ์ฒ๋ผ discount factor๋ฅผ ํตํด์ ์๊ฐ์ ๋ฐ๋ผ์ reward์ ๊ฐ์น๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒ์ ํํํ๋ ๊ฒ ์ ๋๋ค. discount factor๋ 0์์ 1 ์ฌ์ด์ ๊ฐ ์ ๋๋ค. ๋ค์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ดํด๊ฐ ์ฝ์ต๋๋ค.

์ ๊ฐ ์ดํดํ๊ธฐ๋ก๋ discount factor๊ฐ 0์ด๋ฉด ์๋นํ ๊ทผ์์์ ์ธ ๊ฒ์ด๊ณ discount factor๊ฐ 1์ด๋ฉด ์๋นํ ๋ฏธ๋์งํฅ์ ์ธ ๊ฒ์ด๋ผ์ ์ฌ์ค์ ์ฌ๋์ด ์ด๋ค ํ๋์ ๊ฒฐ์ ํ ๋ ๋ฏธ๋๋ฅผ ์๊ฐํ๋ฉฐ ๊ฒฐ์ ํ๊ธด ํ์ง๋ง ๋ชจ๋ ๋ฏธ๋์ ์ผ์ด๋ ์ผ์ ๋ค ๊ณ ๋ คํ์ง๋ ์์ต๋๋ค. ๋ฐ๋ผ์ discount factor๋ ๋ณดํต 0์์ 1์ฌ์ด์ ๊ฐ์ ์ฌ์ฉํฉ๋๋ค.
Agent-Environment Interface
์ด๋ ๋ฏ agent๋ action์ ์ทจํ๊ณ state๋ฅผ ์ฎ๊ธฐ๊ณ reward๋ฅผ ๋ฐ๊ณ ํ๋ฉด์ environment์ ์ํธ์์ฉ์ ํ๋๋ฐ ๊ทธ ๊ทธ๋ฆผ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.

agent๊ฐ observation์ ํตํด์ ์์ ์ state๋ฅผ ์๊ฒ๋๋ฉด ๊ทธ state์ ๋ง๋ action์ ์ทจํ๊ฒ ๋ฉ๋๋ค. ํ์ต์ ํ์ง ์์ ์ด๊ธฐ์๋ random action์ ์ทจํฉ๋๋ค. ๊ทธ๋ฌ๋ฉด environment๊ฐ agent์๊ฒ reward์ ๋ค์ state๋ฅผ ์๋ ค์ฃผ๊ฒ ๋ฉ๋๋ค. ์๋ฎฌ๋ ์ดํฐ๋ ๊ฒ์์ด environment๊ฐ ๋ ์๋ ์๊ณ ์ค์ฌ ์ธ์์ด environment๊ฐ ๋ ์๋ ์์ต๋๋ค.
Policy
๋ป ๊ทธ๋๋ก ํ์ดํ์๋ฉด "์ ์ฑ "์ ๋๋ค. ์์์ ๋งํ๋ฏ์ด agent๋ ์ด๋ค state์ ๋์ฐฉํ๋ฉด action์ ๊ฒฐ์ ํ๋ ๋ฐ ์ด๋ค state์์ ์ด๋ค action์ ํ ์ง๋ฅผ policy๋ผ๊ณ ํฉ๋๋ค. ๊ฒฐ๊ตญ์ ๊ฐํํ์ต์ ๋ชฉ์ ์ optimal policy ( accumulative reward = return ์ ์ต๋ํํ๋ policy)๋ฅผ ์ฐพ๋ ๊ฒ์ ๋๋ค(์ด๊ฒ์ด ์๋ชป๋ ๊ด๋ ์ด๋ผ๊ณ ์๊ธฐํ๋๋ฐ ์ค์ฌ๋ก Policy Gradient๋ suboptimal์ ๋น ์ง์ ์์ง๋ง ๊ฐํํ์ต์ ๋๋ค). policy์ ์ ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. state s์์ aciton a๋ฅผ ํ ํ๋ฅ ์ ์ด์ผ๊ธฐํฉ๋๋ค.

MDP Graph
Markow Decision Process๋ ๋ค์๊ณผ ๊ฐ์ด ๊ทธ๋ํ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. ์ด๋ฒ์๋ student์ ์์ ์ ๋ฃ๋ ๊ฒ์ ์๋ก ๋ค์ด์ Silver ๊ต์๋์ด ์ค๋ช ํ์ต๋๋ค.

์ด์ ๊ฐ์ด MDP์ graph๋ state ์ฌ์ด์ transition ๋์ ์ action์ ํตํ state์ transition๊ณผ reward๋ก์ ํํ๋๊ฒ ๋ฉ๋๋ค.
Last updated
Was this helpful?
