AI/강화학습

[1] Introduction

howtowhy 2019. 4. 13. 00:40

Reinforcement Learning : An Introduction - [1] Introduction

Chapter 1. Introduction to RL

Reward Hypothesis

강화학습은 Reward Hypothesis에 기초합니다.

Reward Hypothesis
- All goals can be descridbed by the maximization of expected cumulative reward

우리의 목표는 최상의 보상을 결과로 하는 행동들을 하는 것입니다.

하지만 단기적인 최상의 보상 행동이 장기적인 관점에서 총 보상의 합이 최대인 행동은 아닐 수 있습니다.

Agent, Environment, Observation, Reward

행동을 하는 주최를 Agent 라고 하며, 이는 어떤 환경(Environment) 속에 존재합니다. 또한 Environment 에 대한 정보는 Agent 가 발견한 관측(Observation) 에 의해 획득됩니다. 이 관측은 완벽하게 환경정보를 나타낼 수 도 있지만 노이즈가 존재할 수 있습니다. Agent 와 Environment 이 둘간의 상호작용을 통해서 Observation 된 정보를 바탕으로 어떤 행동이 가장 큰 총 보상을 줄지 기대값을 도출하여 어떤 행동을 할지 선택하고 보상을 받게됩니다.

History, State

History - sequence of observation, actions, rewards

현재 step 인 t 에서 다음 에 일어날 일들은 history의 영향을 받습니다. agent가 action을 선택하고, 환경이 observation과 rewards 를 선택하게 됩니다.

State - information used to determine what happens next.

$$S_t=f(H_t)$$

State 는 history 에 대한 function 으로 볼 수 있으며, 다음에 일어날 일들에 대한 정보들을 나타냅니다.

state 의 종류에는 아래와 같은 종류가 있습니다.

environment state
agent state
information state = Markov state

Full observability , Partial observability

Full observability - agent directly observes environment state

이는 agent 가 관찰한 observation이 agent state 와 같고 environment state와 같은 상태를 말합니다.

또한 이는 information state 와도 같은데, 전형적으로 이는 markov decision process 인 경우를 말합니다.

Partial observability - agent indirectly observes environment state

$$ Agent-state != environment-state $$

이를 전형적으로 partially observable Markov decision process (POMDP) 로 말합니다.

이런 경우에는 환경과 Observation 정보의 격차로 인해 Agent 는 자신만의 state representation 를 구성해 나가야 합니다. 이에는 다음과 같은 예들이 있습니다.

히스터리 전체를 사용하는 방법과 과거 상태가 발생한 확률, 즉 통계적인 방식을 사용해서 만들거나 머신러닝의 RNN 과 같은 방식으로 만들수 있습니다.

Agent

Agent 의 중요 요소들에 대해서 살펴봅시다. 이는 policy 와 value function , model 을 들 수 있습니다.

policy

policy 는 agent 가 어떤 행동을 해야하는 지에 대한 확률 입니다. 이는 deterministic 할 수 있고, stochastic 할 수 있습니다. 즉 어떤 행동을 해야한다. 혹은 어떤행동을 해야하지만 일정 확률로 가끔은 다른 행동을 할 수도 있습니다.

value function

Value function 은 어떤 state 가 좋은 지 나쁜지를 판단하기 위한 지표입니다. 이는 미래의 reward 에 대한 예측값이며, 이를 이용하여 action 을 선택하게 됩니다.

더 미래의 보상일 수록 감가상각을 적용하여 불확실성을 반영합니다.

model

Model 은 environment 의 행동을 예측하는 역할을 합니다. P는 state transition 확률을 나타내며 다음 state 를 예측합니다. R은 reward 관점에서 해당 state 에서 action 에 대해 얻게 될 보상을 예측합니다.

Agent 의 종류

이러한 agent 의 중요요소를 어떻게 가지느냐에 따라서 다양한 agent 의 특성을 생성할 수 있습니다.

Policy based agent - value function 없이 policy와 model 만으로 구성
Value based agent - policy 없이 value function 과 model 만으로 구성
Model based agent / Model free agent - model에 대한 정보 = state transition 정보의 유무
Actor Critic - Policy , Value function, Model 을 모두 사용