AI/강화학습
-
[4] DP, MC, TD(0)AI/강화학습 2019. 5. 7. 23:25
Reinforcement Learning : An Introduction - [4] DP, MC, TD(0) Chapter 4. DP, MC, TD(0) Planning & Learning planning 앞서 배운 environment에 대한 model 을 가지고 있는 경우, Markov Decision Process 에 대한 full knowlege 를 가지고 있게 된다. 이를 planning 이라고 하며 MDP 의 정보를 기반한다. learning Learning이란 environment의 model을 모르지만 상호작용을 통해서 문제를 푸는 것을 말합니다. 이중 planning 의 process 는 prediction 과 control 로 이루어진다. Prediction 에서는 value funct..
-
[3] Finite Markov Decision ProcessAI/강화학습 2019. 5. 7. 23:09
Reinforcement Learning : An Introduction - [3] Finite Markov Decision Process Chapter 3. Finite Markov Decision Process Markov Process 마르코브 프로세스란, 시간 연속적인 state series 들이 과거의 state 의 영향을 받는 조건부 확률로 정의됨을 의미합니다. Markov Reward Process 마르코브 프로세스에 reward 의 개념(과 감가상각)을 추가한 것이 마르코브 reward process 입니다. Return : total discount reward 전체 reward를 시간에 따른 감가상각을 포함하여 합산 한 것이 return 입니다. value function : expec..
-
[2] Multi-arm BanditsAI/강화학습 2019. 4. 13. 00:42
Reinforcement Learning : An Introduction - [2] Multi-arm BanditsChapter 2. Multi Arm Bandits Multi Arm Bandits Problem 먼저 강화학습에 대한 전체적인 통찰을 얻기 위한 1 state problem 인 multi arm bandits problem 부터 시작해보자. 카지노에 승률이 다른 슬롯머신(bandits)들이 있고 이들중 돈을 걸고 레버(arm)을 내려야한다면? 또한 이 슬롯머신들의 승률이 시간에 따라서 변화한다면? 어떻게 하는 것이 가장 많은 돈(rewards)을 얻는 방법인가? Evaluation feedback 강화학습을 다른 알고리즘들과 구분하는 가장 큰 차이점 중 하나는, 학습 정보를 사용하여 act..
-
[1] IntroductionAI/강화학습 2019. 4. 13. 00:40
Reinforcement Learning : An Introduction - [1] IntroductionChapter 1. Introduction to RL Reward Hypothesis 강화학습은 Reward Hypothesis에 기초합니다. Reward Hypothesis All goals can be descridbed by the maximization of expected cumulative reward 우리의 목표는 최상의 보상을 결과로 하는 행동들을 하는 것입니다. 하지만 단기적인 최상의 보상 행동이 장기적인 관점에서 총 보상의 합이 최대인 행동은 아닐 수 있습니다. Agent, Environment, Observation, Reward 행동을 하는 주최를 Agent 라고 하며, 이는 어..