[1] Introduction

[1] Introduction

AI/강화학습 2019. 4. 13. 00:40
Reinforcement Learning : An Introduction - [1] Introduction
Chapter 1. Introduction to RL

Reward Hypothesis

강화학습은 Reward Hypothesis에 기초합니다.

Reward Hypothesis

All goals can be descridbed by the maximization of expected cumulative reward

우리의 목표는 최상의 보상을 결과로 하는 행동들을 하는 것입니다.

하지만 단기적인 최상의 보상 행동이 장기적인 관점에서 총 보상의 합이 최대인 행동은 아닐 수 있습니다.

Agent, Environment, Observation, Reward

행동을 하는 주최를 Agent 라고 하며, 이는 어떤 환경(Environment) 속에 존재합니다. 또한 Environment 에 대한 정보는 Agent 가 발견한 관측(Observation) 에 의해 획득됩니다. 이 관측은 완벽하게 환경정보를 나타낼 수 도 있지만 노이즈가 존재할 수 있습니다. Agent 와 Environment 이 둘간의 상호작용을 통해서 Observation 된 정보를 바탕으로 어떤 행동이 가장 큰 총 보상을 줄지 기대값을 도출하여 어떤 행동을 할지 선택하고 보상을 받게됩니다.

History, State

History - sequence of observation, actions, rewards

현재 step 인 t 에서 다음 에 일어날 일들은 history의 영향을 받습니다. agent가 action을 선택하고, 환경이 observation과 rewards 를 선택하게 됩니다.

State - information used to determine what happens next.

$$S_t=f(H_t)$$

State 는 history 에 대한 function 으로 볼 수 있으며, 다음에 일어날 일들에 대한 정보들을 나타냅니다.

state 의 종류에는 아래와 같은 종류가 있습니다.

environment state

agent state

information state = Markov state

Full observability , Partial observability

Full observability - agent directly observes environment state

이는 agent 가 관찰한 observation이 agent state 와 같고 environment state와 같은 상태를 말합니다.

또한 이는 information state 와도 같은데, 전형적으로 이는 markov decision process 인 경우를 말합니다.

Partial observability - agent indirectly observes environment state

$$ Agent-state != environment-state $$

이를 전형적으로 partially observable Markov decision process (POMDP) 로 말합니다.

이런 경우에는 환경과 Observation 정보의 격차로 인해 Agent 는 자신만의 state representation 를 구성해 나가야 합니다. 이에는 다음과 같은 예들이 있습니다.

히스터리 전체를 사용하는 방법과 과거 상태가 발생한 확률, 즉 통계적인 방식을 사용해서 만들거나 머신러닝의 RNN 과 같은 방식으로 만들수 있습니다.

Agent

Agent 의 중요 요소들에 대해서 살펴봅시다. 이는 policy 와 value function , model 을 들 수 있습니다.

policy

policy 는 agent 가 어떤 행동을 해야하는 지에 대한 확률 입니다. 이는 deterministic 할 수 있고, stochastic 할 수 있습니다. 즉 어떤 행동을 해야한다. 혹은 어떤행동을 해야하지만 일정 확률로 가끔은 다른 행동을 할 수도 있습니다.

value function

Value function 은 어떤 state 가 좋은 지 나쁜지를 판단하기 위한 지표입니다. 이는 미래의 reward 에 대한 예측값이며, 이를 이용하여 action 을 선택하게 됩니다.

더 미래의 보상일 수록 감가상각을 적용하여 불확실성을 반영합니다.

model

Model 은 environment 의 행동을 예측하는 역할을 합니다. P는 state transition 확률을 나타내며 다음 state 를 예측합니다. R은 reward 관점에서 해당 state 에서 action 에 대해 얻게 될 보상을 예측합니다.

Agent 의 종류
이러한 agent 의 중요요소를 어떻게 가지느냐에 따라서 다양한 agent 의 특성을 생성할 수 있습니다.

Policy based agent - value function 없이 policy와 model 만으로 구성

Value based agent - policy 없이 value function 과 model 만으로 구성

Model based agent / Model free agent - model에 대한 정보 = state transition 정보의 유무

Actor Critic - Policy , Value function, Model 을 모두 사용
'AI > 강화학습' 카테고리의 다른 글

[4] DP, MC, TD(0)  (0) 2019.05.07

[3] Finite Markov Decision Process  (0) 2019.05.07

[2] Multi-arm Bandits  (0) 2019.04.13
관련글 관련글 더보기
댓글

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

Hello Stella Hello Stella

Reinforcement Learning : An Introduction - [1] Introduction

Chapter 1. Introduction to RL

Reward Hypothesis

Agent, Environment, Observation, Reward

History, State

Full observability , Partial observability

Agent

Agent 의 종류

'AI > 강화학습' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[4] DP, MC, TD(0) (0)	2019.05.07
[3] Finite Markov Decision Process (0)	2019.05.07
[2] Multi-arm Bandits (0)	2019.04.13

인기포스트

ABOUT ME

Reinforcement Learning : An Introduction - [1] Introduction

Chapter 1. Introduction to RL

Reward Hypothesis

Agent, Environment, Observation, Reward

History, State

Full observability , Partial observability

Agent

Agent 의 종류

'AI > 강화학습' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역