Markov Decision Process

David Silver ๊ฐ•์˜์—์„œ๋Š” MDP๋ฅผ ๋ฐฐ์šฐ๊ธฐ ์ „์— Markovํ•˜๋‹ค๋Š” ๋ง์˜ ์ •์˜์™€ Markov Chain, Markov Reward Process๋ฅผ ๋ฐฐ์›๋‹ˆ๋‹ค. Markov๋Š” 1800๋…„๋Œ€์˜ ๋Ÿฌ์‹œ์•„ ์ˆ˜ํ•™์ž์˜ ์ด๋ฆ„์ž…๋‹ˆ๋‹ค. ์ด ๋ถ„์˜ ์ด๋ฆ„์ด ํ•˜๋‚˜์˜ ํ˜•์šฉ์‚ฌ๊ฐ€ ๋˜์—ˆ๋Š”๋ฐ ๊ทธ ์˜๋ฏธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

๋’ค์—์„œ state์™€ value์— ๋Œ€ํ•ด์„œ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

์œ„์˜ ์ฒซ ์‹์ฒ˜๋Ÿผ ์ฒ˜์Œ ์–ด๋– ํ•œ ์ƒํƒœ๋กœ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด์„œ ํ˜„์žฌ ์ƒํƒœ๊นŒ์ง€ ์˜ฌ ํ™•๋ฅ ์ด ๋ฐ”๋กœ ์ „ ์ƒํƒœ์—์„œ ํ˜„์žฌ ์ƒํƒœ๊นŒ์ง€ ์˜ฌ ํ™•๋ฅ ๊ณผ ๊ฐ™์„ ๋•Œ, ๋‘ ๋ฒˆ์งธ ์‹์ฒ˜๋Ÿผ ํ‘œํ˜„์ด ๋  ์ˆ˜ ์žˆ๊ณ  state๋Š” Markovํ•˜๋‹ค๊ณ  ์ผ์ปฌ์–ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์Šคํƒ€ํฌ๋ž˜ํ”„ํŠธ๊ฐ™์€ ๊ฒŒ์ž„์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๊ฒŒ์ž„ ์ค‘๊ฐ„ ์–ด๋–ค ์ƒํ™ฉ์€ ์ด์ „์˜ ๋ชจ๋“  ์ƒํ™ฉ๋“ค์— ์˜ํ–ฅ์„ ๋ฐ›์•„์„œ ์ง€๊ธˆ์˜ ์ƒํ™ฉ์ด ๋œ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์‹ค์€ ์ง€๊ธˆ ์ƒํ™ฉ์— ์ด์ „ ์ƒํ™ฉ์— ๋Œ€ํ•œ ์ •๋ณด๋“ค์ด ๋ชจ๋‘ ๋‹ด๊ฒจ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ• ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต์ด ๊ธฐ๋ณธ์ ์œผ๋กœ MDP๋กœ ์ •์˜๋˜๋Š” ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ๋•Œ๋ฌธ์— state๋Š” Markov๋ผ๊ณ  ๊ฐ€์ •ํ•˜๊ณ  ์ ‘๊ทผํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ ˆ๋Œ€์ ์ธ ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ Non-Markovian MDP๋„ ์žˆ์œผ๋ฉฐ ๊ทธ๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šต๋“ค๋„ ์žˆ์ง€๋งŒ ์ƒ๋Œ€์ ์œผ๋กœ ์—ฐ๊ตฌ๊ฐ€ ๋œ ๋˜์—ˆ์œผ๋ฉฐ ์ฒ˜์Œ์— ์ ‘ํ•˜๊ธฐ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต์—์„œ๋Š” value๋ผ๋Š” ์–ด๋– ํ•œ ๊ฐ€์น˜๊ฐ€ ํ˜„์žฌ์˜ state์˜ ํ•จ์ˆ˜๋กœ ํ‘œํ˜„๋˜๊ณ  ์ด state๊ฐ€ Markovํ•˜๋‹ค๊ณ  ๊ฐ€์ •๋ฉ๋‹ˆ๋‹ค.

๋‹ค์Œ์€ UC Berkeley์˜ intro to AI ๊ฐ•์˜์˜ slide์—์„œ ๊ฐ€์ ธ์˜จ ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค.

http://ai.berkeley.edu/lecture_slides.htm

์œ„ ๊ทธ๋ฆผ์—์„œ ๋กœ๋ด‡์ด ์„ธ์ƒ์„ ๋ฐ”๋ผ๋ณด๊ณ  ์ดํ•ดํ•˜๋Š” ๋ฐฉ์‹์ด MDP๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. MDP๋ž€ Markov Decision Process์˜ ์•ฝ์ž๋กœ์„œ state, action, state transition probability matrix, reward, discount factor๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์ด ์žˆ๋Š” ์œ„์น˜๊ฐ€ state, ์•ž๋’ค์ขŒ์šฐ๋กœ ์ด๋™ํ•˜๋Š” ๊ฒƒ์ด action, ์ € ๋ฉ€๋ฆฌ ๋ณด์ด๋Š” ๋น›๋‚˜๋Š” ๋ณด์„์ด reward์ž…๋‹ˆ๋‹ค. ํ•œ ๋งˆ๋””๋กœ ๋ฌธ์ œ์˜ ์ •์˜์ž…๋‹ˆ๋‹ค. ์ด์ œ ์ด ๋กœ๋ด‡์€ ๋ณด์„์„ ์–ป๊ธฐ ์œ„ํ•ด ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ• ์ง€๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ๋  ๊ฒƒ ์ž…๋‹ˆ๋‹ค. ๊ทธ ์ „์— MDP์— ๋Œ€ํ•ด์„œ ๋” ์‚ดํŽด๋ณผ ํ•„์š”๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์‹œ ์ œ๊ฐ€ ๋“ค์—ˆ๋˜ Silver๊ต์ˆ˜๋‹˜์˜ ๊ฐ•์˜์—์„œ ๋งํ•˜๋Š” MDP์˜ ์ •์˜๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋ฐ‘์˜ ๊ทธ๋ฆผ์€http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html ์— ์žˆ๋Š” 2์žฅ ์ž๋ฃŒ์—์„œ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค.

State

๊ฐ„๋‹จํžˆ ์„ค๋ช…์„ ํ•˜์ž๋ฉด state๋Š” agent๊ฐ€ ์ธ์‹ํ•˜๋Š” ์ž์‹ ์˜ ์ƒํƒœ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์œผ๋กœ ์น˜์ž๋ฉด ๋ˆˆ์ด๋ผ๋Š” ๊ด€์ธก๋„๊ตฌ๋ฅผ ํ†ตํ•ด์„œ "๋‚˜๋Š” ๋ฐฉ์— ์žˆ์–ด"๋ผ๊ณ  ์ธ์‹ํ•˜๋Š” ๊ณผ์ •์—์„œ "๋ฐฉ"์ด state๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

์ด ์ด์™ธ์—๋„ state๋Š” ์ƒ๊ฐ๋ณด๋‹ค ๋งŽ์€ ๊ฒƒ๋“ค์ด ๋  ์ˆ˜ ์žˆ๋Š”๋ฐ ๋‹ฌ๋ฆฌ๋Š” ์ฐจ ๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” "์ฐจ๋Š” Jeep์ด๊ณ  ์‚ฌ๋žŒ์€ 4๋ช… ํƒ”์œผ๋ฉฐ ํ˜„์žฌ 100km/h๋กœ ๋‹ฌ๋ฆฌ๊ณ  ์žˆ๋‹ค"๋ผ๋Š” ๊ฒƒ์ด state๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. OpenAI์—๋„ ์žˆ๋Š” atari game๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” ๊ฒŒ์ž„ํ™”๋ฉด ์ž์ฒด, ์ฆ‰ pixel์ด agent๊ฐ€ ์ธ์‹ํ•˜๋Š” state๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ๋˜ Cartpole์—์„œ๋Š” cart์˜ x์œ„์น˜์™€ ์†๋„, pole์˜ ๊ฐ๋„์™€ ๊ฐ์†๋„๊ฐ€ state๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋ฌธ์ œ๋Š” ์ •์˜ํ•˜๊ธฐ ๋‚˜๋ฆ„์ž…๋‹ˆ๋‹ค. ์‹ค์žฌ๋กœ ์–ด๋– ํ•œ ๋ฌธ์ œ๋ฅผ ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ’€ ์ˆ˜๋„ ์žˆ๊ณ  ๋‹ค๋ฅธ machine learning ๊ธฐ๋ฒ•์œผ๋กœ ํ’€ ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ•ํ™”ํ•™์Šต์„ ์ ์šฉ์‹œํ‚ค๊ธฐ ์ „์— ์™œ ๊ฐ•ํ™”ํ•™์Šต์„ ์จ์•ผํ•˜๊ณ  ๋‹ค๋ฅธ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์— ๋น„ํ•ด์„œ ๋‚˜์€ ์ ์ด ๋ฌด์—‡์ธ๊ฐ€๋ฅผ ๋”ฐ์ ธ๋ณด๊ณ  ์‚ฌ์šฉํ•ด์•ผํ•  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต์€ "์‹œ๊ฐ„"์ด๋ผ๋Š” ๊ฐœ๋…์ด ์žˆ๋Š” ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ์ธ๊ณต์ง€๋Šฅ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ฒฐ๊ตญ ๊ฐ•ํ™”ํ•™์Šต์˜ ๋ชฉํ‘œ๊ฐ€ Policy(์ผ๋ จ์˜ ํ–‰๋™๋“ค)๋œ๋‹ค๋Š” ์˜๋ฏธ๋ฅผ ํ•จํฌํ•ฉ๋‹ˆ๋‹ค.

Action

Agent์˜ ์—ญํ• ์€ ๋ฌด์—‡์ผ๊นŒ์š”? environment์—์„œ ํŠน์ • state์— ๊ฐ”์„ ๋•Œ action์„ ์ง€์‹œํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. robot์ด ์™ผ์ชฝ์œผ๋กœ ๊ฐˆ์ง€, ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐˆ ์ง€๋ฅผ ๊ฒฐ์ •ํ•ด์ฃผ๋Š” ์—ญํ• ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์‚ฌ๋žŒ์˜ ๋‡Œ๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์ดํ•ด๊ฐ€ ์‰ฝ์Šต๋‹ˆ๋‹ค. "์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐ„๋‹ค", "์™ผ์ชฝ์œผ๋กœ ๊ฐ„๋‹ค"๋ผ๋Š” ๊ฒƒ์ด action์ด ๋˜๊ณ  agent๊ฐ€ ๊ทธ action๋ฅผ ์ทจํ–ˆ์„ ๊ฒฝ์šฐ์— ์‹ค์žฌ๋กœ ์˜ค๋ฅธ์ชฝ์ด๋‚˜ ์™ผ์ชฝ์œผ๋กœ ์›€์ง์ด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ agent๋Š” action์„ ์ทจํ•จ์œผ๋กœ์„œ ์ž์‹ ์˜ state๋ฅผ ๋ณ€ํ™”์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡์—์„œ๋Š” ํ”ํžˆ Controller๋ผ ๋ถ€๋ฅด๋Š” ๊ฐœ๋…์ž…๋‹ˆ๋‹ค.

State transition probability matrix

robot์ด ์›€์ง์ธ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ด…์‹œ๋‹ค. robot์ด ์™ผ์ชฝ์œผ๋กœ ์›€์ง์ด๋ฉด ์œ„์น˜๊ฐ€ ๋ณ€ํ•˜๋“ฏ์ด, action์„ ์ทจํ•˜๋ฉด environment์ƒ์˜ agent์˜ state๊ฐ€ ๋ณ€ํ•˜๋Š” ๋ฐ ๊ทธ๊ฒƒ ๋˜ํ•œ environment๊ฐ€ agent์—๊ฒŒ ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ์ •ํ™•ํžˆ ๋งํ•˜๋ฉด agent๊ฐ€ observeํ•˜๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค. ๋Œ€์‹ ์— ์–ด๋– ํ•œ ์™ธ๋ถ€์š”์ธ์— ์˜ํ•ด (ex ๋ฐ”๋žŒ์ด ๋ถ„๋‹ค๋˜์ง€) robot์ด ์™ผ์ชฝ์œผ๋กœ ๊ฐ€๋ คํ–ˆ์ง€๋งŒ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐ€๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ ๊ทธ๋ฆผ์„ ์ฐธ๊ณ ํ•˜๋ฉด ๊ฐœ๋…์ด ์ข€ ๋” ์ž˜ ์™€ ๋‹ฟ์œผ์‹ค ๊ฒ๋‹ˆ๋‹ค. ๋กœ๋ด‡์€ ์•ž์œผ๋กœ ๊ฐ„๋‹ค๊ณ  ๊ฐ”์ง€๋งŒ ์™ผ์ชฝ์œผ๋กœ ๊ฐ€์„œ ๋ถˆ์— ๋น ์งˆ ์ˆ˜๋„ ์žˆ๊ณ  ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐˆ ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ ํ™•๋ฅ ์„ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ด "state transition probability matrix"์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ์–ด๋– ํ•œ action์„ ์ทจํ–ˆ์„ ๊ฒฝ์šฐ state๊ฐ€ deterministicํ•˜๊ฒŒ ๋”ฑ ์ •ํ•ด์ง€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๊ณ  ํ™•๋ฅ ์ ์œผ๋กœ ์ •ํ•ด์ง€๊ฒŒ ๋˜๋Š”๋ฐ ์ผ์ข…์˜ noise๋ผ๊ณ  ์ƒ๊ฐํ•˜์…”๋„ ๋  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์ •์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. s๋ผ๋Š” state์—์„œ a๋ผ๋Š” ํ–‰๋™์„ ์ทจํ•  ๋•Œ s'์— ๋„์ฐฉํ•  ํ™•๋ฅ ์„ ์ด์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

Markov Chain

MDP์—์„œ action๊ณผ reward๊ฐ€ ์—†๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ด…์‹œ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด state์™€ state๋ผ๋ฆฌ์˜ transition matrix๋ฅผ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ์„ ๊ฒƒ ์ž…๋‹ˆ๋‹ค. Silver๊ต์ˆ˜๋‹˜์€ Markov Chain์— ๋Œ€ํ•ด์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์„ค๋ช…ํ•˜์…จ์Šต๋‹ˆ๋‹ค. ํ•™์ƒ๋“ค์˜ ์ƒํƒœ๋ฅผ state๋กœ ์žก๊ณ  ๊ฐ state๋ผ๋ฆฌ์˜ transition probability๋ฅผ ์ •์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ๋งŒ์œผ๋กœ์„œ๋Š” ๋ฌด์—‡์ธ๊ฐ€๋ฅผ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์—†์ง€๋งŒ MDP๋ฅผ ๋ฐฐ์šฐ๊ธฐ์ „์— ๋ฐฐ์šฐ๋Š” ๊ธฐ๋ณธ ๊ฐœ๋…์œผ๋กœ์„œ ์œ ์šฉํ•œ ๊ฒƒ ๊ฐ™๊ณ  ํ›„์— policy gradient์—์„œ ๋‹ค๋ฃจ๋Š” stationary distribution์„ ์ดํ•ดํ•˜๋Š”๋ฐ ๋„์›€์ด ๋  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด Markov Chain์—์„œ๋Š” ๋ฌดํ•œ๋Œ€๋กœ ์‹œ๊ฐ„์ด ํ๋ฅด๋ฉด ๋ชจ๋‘ Sleep์œผ๋กœ ์ˆ˜๋ ดํ•  ๊ฒƒ์ด๊ณ  ๋”์ด์ƒ ๋ณ€ํ™”๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์— stationary distribution์ด๋ผ๊ณ  ๋งํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ๋Š” ์–ด๋–ค state์—์„œ state๋กœ ๊ฐ€๋Š” ํ™•๋ฅ ์ด ํ‘œ์‹œ๋˜์–ด ์žˆ์ง€๋งŒ MDP์—์„œ๋Š” action์„ ํ•  ํ™•๋ฅ ๊ณผ action์„ ํ•ด์„œ ์–ด๋–ค state๋กœ ๊ฐˆ ํ™•๋ฅ ์ด ์ฃผ์–ด์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Reward

agent๊ฐ€ action์„ ์ทจํ•˜๋ฉด ๊ทธ์— ๋”ฐ๋ฅธ reward๋ฅผ "environment"๊ฐ€ agent์—๊ฒŒ ์•Œ๋ ค์ค๋‹ˆ๋‹ค. ๊ทธ reward๋Š” atari game์—์„œ๋Š” "score", ๋ฐ”๋‘‘์˜ ๊ฒฝ์šฐ์—๋Š” ์ŠนํŒจ( ์•ŒํŒŒ๊ณ ๊ฐ€ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•), trajectory control์˜ ๊ฒฝ์šฐ์—๋Š” "์˜๋„ํ•œ ๊ถค๋„์— ์–ผ๋งˆ๋‚˜ ๊ฐ€๊น๊ฒŒ ์›€์ง์˜€๋‚˜"๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์ •์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. s๋ผ๋Š” state์— ์žˆ์„ ๋•Œ a๋ผ๋Š” action์„ ์ทจํ–ˆ์„ ๋•Œ ์–ป์„ ์ˆ˜ ์žˆ๋Š” reward์ž…๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต์—์„œ๋Š” ์ •๋‹ต์ด๋‚˜ ์‚ฌ์ „์— ํ™˜๊ฒฝ์— ๋Œ€ํ•œ ์ง€์‹์ด ์—†์ด ์ด reward๋ฅผ ํ†ตํ•ด์„œ agent๊ฐ€ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด reward๋ฅผ immediate reward๋ผ๊ณ  ํ•˜๋Š”๋ฐ agent๋Š” ๋‹จ์ˆœํžˆ ์ฆ‰๊ฐ์ ์œผ๋กœ ๋‚˜์˜ค๋Š” reward๋งŒ ๋ณด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ดํ›„๋กœ ์–ป๋Š” reward๋“ค๊นŒ์ง€ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค.

Discount Factor

reward์˜ ์ •์˜์— ๋”ฐ๋ผ ๊ฐ state์—์„œ ์–ด๋– ํ•œ action์„ ์ทจํ•˜๋ฉด reward๋ฅผ ๋ฐ›๊ฒŒ ๋˜๋Š”๋ฐ ์ด๋•Œ ๋‹จ์ˆœํžˆ ๋ฐ›์•˜๋˜ reward๋“ค์„ ๋”ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

  • ์–ด๋– ํ•œ agent๋Š” ๊ฐ time-step๋งˆ๋‹ค 0.1์”ฉ reward๋ฅผ ๋ฐ›๊ณ  ๋‹ค๋ฅธ agent๋Š” 1์”ฉ ๋ฐ›์•˜์„ ๊ฒฝ์šฐ์— ์‹œ๊ฐ„์ด ๋ฌดํ•œ๋Œ€๋กœ ํ˜๋Ÿฌ๊ฐ„๋‹ค๋ฉด 0.1์”ฉ ๊ณ„์† ๋”ํ•ด๋„ ๋ฌดํ•œ๋Œ€์ด๊ณ  1์”ฉ ๊ณ„์† ๋”ํ•ด๋„ ๋ฌดํ•œ๋Œ€์ž…๋‹ˆ๋‹ค. ์ˆ˜ํ•™์—์„œ ๋ฌดํ•œ๋Œ€๋Š” ํฌ๊ธฐ ๋น„๊ต๋ฅผ ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

  • ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ๊ฒฝ์šฐ๋ฅผ ๊ตฌ๋ถ„ ํ•  ์ˆ˜๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. agent๊ฐ€ episode๋ฅผ ์‹œ์ž‘ํ•˜์ž๋งˆ์ž 1 ๋ฐ›์•˜์„ ๊ฒฝ์šฐ์™€ ๋๋‚  ๋•Œ 1์„ ๋ฐ›์•˜์„ ๊ฒฝ์šฐ๋ฅผ ๋‘˜ ๋‹ค ์ „์ฒด reward๋ฅผ 1์„ ๋ฐ›์•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‘ ์ƒํ™ฉ์ค‘์— ์–ด๋–ค ๊ฒฝ์šฐ๊ฐ€ ๋” ๋‚˜์€ ๊ฑด์ง€๋ฅผ ํŒ๋‹จํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ discount factor๋ผ๋Š” ๊ฐœ๋…์ด ๋“ฑ์žฅํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์˜ ์ž…์žฅ์—์„œ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋‹น์žฅ ์ง€๊ธˆ ๋ฐฐ๊ณ ํ”ˆ ๊ฒƒ์„ ์ฑ„์šฐ๋Š” ๊ฒƒ์ด ๋‚ด์ผ ๋ฐฐ๊ณ ํ”ˆ ๊ฒƒ์„ ์ฑ„์šฐ๋Š” ๊ฒƒ๋ณด๋‹ค ์ค‘์š”ํ•˜๋‹ค ์ƒ๊ฐํ•˜๊ณ  ํ–‰๋™ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ discount factor๋ฅผ ํ†ตํ•ด์„œ ์‹œ๊ฐ„์— ๋”ฐ๋ผ์„œ reward์˜ ๊ฐ€์น˜๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ์„ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค. discount factor๋Š” 0์—์„œ 1 ์‚ฌ์ด์˜ ๊ฐ’ ์ž…๋‹ˆ๋‹ค. ๋‹ค์Œ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด ์ดํ•ด๊ฐ€ ์‰ฝ์Šต๋‹ˆ๋‹ค.

์ œ๊ฐ€ ์ดํ•ดํ•˜๊ธฐ๋กœ๋Š” discount factor๊ฐ€ 0์ด๋ฉด ์ƒ๋‹นํžˆ ๊ทผ์‹œ์•ˆ์ ์ธ ๊ฒƒ์ด๊ณ  discount factor๊ฐ€ 1์ด๋ฉด ์ƒ๋‹นํžˆ ๋ฏธ๋ž˜์ง€ํ–ฅ์ ์ธ ๊ฒƒ์ด๋ผ์„œ ์‚ฌ์‹ค์€ ์‚ฌ๋žŒ์ด ์–ด๋–ค ํ–‰๋™์„ ๊ฒฐ์ •ํ•  ๋•Œ ๋ฏธ๋ž˜๋ฅผ ์ƒ๊ฐํ•˜๋ฉฐ ๊ฒฐ์ •ํ•˜๊ธด ํ•˜์ง€๋งŒ ๋ชจ๋“  ๋ฏธ๋ž˜์— ์ผ์–ด๋‚  ์ผ์„ ๋‹ค ๊ณ ๋ คํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ discount factor๋Š” ๋ณดํ†ต 0์—์„œ 1์‚ฌ์ด์˜ ๊ฐ’์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Agent-Environment Interface

์ด๋ ‡๋“ฏ agent๋Š” action์„ ์ทจํ•˜๊ณ  state๋ฅผ ์˜ฎ๊ธฐ๊ณ  reward๋ฅผ ๋ฐ›๊ณ  ํ•˜๋ฉด์„œ environment์™€ ์ƒํ˜ธ์ž‘์šฉ์„ ํ•˜๋Š”๋ฐ ๊ทธ ๊ทธ๋ฆผ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

agent๊ฐ€ observation์„ ํ†ตํ•ด์„œ ์ž์‹ ์˜ state๋ฅผ ์•Œ๊ฒŒ๋˜๋ฉด ๊ทธ state์— ๋งž๋Š” action์„ ์ทจํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํ•™์Šต์„ ํ•˜์ง€ ์•Š์€ ์ดˆ๊ธฐ์—๋Š” random action์„ ์ทจํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด environment๊ฐ€ agent์—๊ฒŒ reward์™€ ๋‹ค์Œ state๋ฅผ ์•Œ๋ ค์ฃผ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์‹œ๋ฎฌ๋ ˆ์ดํ„ฐ๋‚˜ ๊ฒŒ์ž„์ด environment๊ฐ€ ๋  ์ˆ˜๋„ ์žˆ๊ณ  ์‹ค์žฌ ์„ธ์ƒ์ด environment๊ฐ€ ๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

Policy

๋œป ๊ทธ๋Œ€๋กœ ํ’€์ดํ•˜์ž๋ฉด "์ •์ฑ…"์ž…๋‹ˆ๋‹ค. ์œ„์—์„œ ๋งํ–ˆ๋“ฏ์ด agent๋Š” ์–ด๋–ค state์— ๋„์ฐฉํ•˜๋ฉด action์„ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐ ์–ด๋–ค state์—์„œ ์–ด๋–ค action์„ ํ•  ์ง€๋ฅผ policy๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ์— ๊ฐ•ํ™”ํ•™์Šต์˜ ๋ชฉ์ ์€ optimal policy ( accumulative reward = return ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” policy)๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค(์ด๊ฒƒ์ด ์ž˜๋ชป๋œ ๊ด€๋…์ด๋ผ๊ณ  ์–˜๊ธฐํ•˜๋Š”๋ฐ ์‹ค์žฌ๋กœ Policy Gradient๋Š” suboptimal์— ๋น ์งˆ์ˆ˜ ์žˆ์ง€๋งŒ ๊ฐ•ํ™”ํ•™์Šต์ž…๋‹ˆ๋‹ค). policy์˜ ์ •์˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. state s์—์„œ aciton a๋ฅผ ํ•  ํ™•๋ฅ ์„ ์ด์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

MDP Graph

Markow Decision Process๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ทธ๋ž˜ํ”„๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ์—๋„ student์˜ ์ˆ˜์—…์„ ๋“ฃ๋Š” ๊ฒƒ์„ ์˜ˆ๋กœ ๋“ค์–ด์„œ Silver ๊ต์ˆ˜๋‹˜์ด ์„ค๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด์™€ ๊ฐ™์ด MDP์˜ graph๋Š” state ์‚ฌ์ด์˜ transition ๋Œ€์‹ ์— action์„ ํ†ตํ•œ state์˜ transition๊ณผ reward๋กœ์„œ ํ‘œํ˜„๋˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Last updated

Was this helpful?