ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [1] Introduction
    AI/강화학습 2019. 4. 13. 00:40


    Reinforcement Learning : An Introduction - [1] Introduction

    Chapter 1. Introduction to RL


    Reward Hypothesis

    강화학습은 Reward Hypothesis에 기초합니다.

    • Reward Hypothesis

      • All goals can be descridbed by the maximization of expected cumulative reward

    우리의 목표는 최상의 보상을 결과로 하는 행동들을 하는 것입니다.

    하지만 단기적인 최상의 보상 행동이 장기적인 관점에서 총 보상의 합이 최대인 행동은 아닐 수 있습니다.


    Agent, Environment, Observation, Reward

    img

    행동을 하는 주최를 Agent 라고 하며, 이는 어떤 환경(Environment) 속에 존재합니다. 또한 Environment 에 대한 정보는 Agent 가 발견한 관측(Observation) 에 의해 획득됩니다. 이 관측은 완벽하게 환경정보를 나타낼 수 도 있지만 노이즈가 존재할 수 있습니다. Agent 와 Environment 이 둘간의 상호작용을 통해서 Observation 된 정보를 바탕으로 어떤 행동이 가장 큰 총 보상을 줄지 기대값을 도출하여 어떤 행동을 할지 선택하고 보상을 받게됩니다.


    History, State

    • History - sequence of observation, actions, rewards

    현재 step 인 t 에서 다음 에 일어날 일들은 history의 영향을 받습니다. agent가 action을 선택하고, 환경이 observation과 rewards 를 선택하게 됩니다.


    • State - information used to determine what happens next.

    $$S_t=f(H_t)$$

    State 는 history 에 대한 function 으로 볼 수 있으며, 다음에 일어날 일들에 대한 정보들을 나타냅니다.

    state 의 종류에는 아래와 같은 종류가 있습니다.


    • environment state

    • agent state

    • information state = Markov state

    Full observability , Partial observability

    • Full observability - agent directly observes environment state

    이는 agent 가 관찰한 observation이 agent state 와 같고 environment state와 같은 상태를 말합니다.

    또한 이는 information state 와도 같은데, 전형적으로 이는 markov decision process 인 경우를 말합니다.


    • Partial observability - agent indirectly observes environment state

    $$ Agent-state != environment-state $$

    이를 전형적으로 partially observable Markov decision process (POMDP) 로 말합니다.

    이런 경우에는 환경과 Observation 정보의 격차로 인해 Agent 는 자신만의 state representation ​ 를 구성해 나가야 합니다. 이에는 다음과 같은 예들이 있습니다.

    히스터리 전체를 사용하는 방법과 과거 상태가 발생한 확률, 즉 통계적인 방식을 사용해서 만들거나 머신러닝의 RNN 과 같은 방식으로 만들수 있습니다.


    Agent

    Agent 의 중요 요소들에 대해서 살펴봅시다. 이는 policy 와 value function , model 을 들 수 있습니다. 


    • policy

    policy 는 agent 가 어떤 행동을 해야하는 지에 대한 확률 입니다. 이는 deterministic 할 수 있고, stochastic 할 수 있습니다. 즉 어떤 행동을 해야한다. 혹은 어떤행동을 해야하지만 일정 확률로 가끔은 다른 행동을 할 수도 있습니다.


    • value function

    Value function 은 어떤 state 가 좋은 지 나쁜지를 판단하기 위한 지표입니다. 이는 미래의 reward 에 대한 예측값이며, 이를 이용하여 action 을 선택하게 됩니다.

    더 미래의 보상일 수록 감가상각을 적용하여 불확실성을 반영합니다.


    • model

     

    Model 은 environment 의 행동을 예측하는 역할을 합니다. P는 state transition 확률을 나타내며 다음 state 를 예측합니다. R은 reward 관점에서 해당 state 에서 action 에 대해 얻게 될 보상을 예측합니다.


    Agent 의 종류

    이러한 agent 의 중요요소를 어떻게 가지느냐에 따라서 다양한 agent 의 특성을 생성할 수 있습니다. 

    • Policy based agent - value function 없이 policy와 model 만으로 구성

    • Value based agent - policy 없이 value function 과 model 만으로 구성

    • Model based agent / Model free agent - model에 대한 정보 = state transition 정보의 유무

    • Actor Critic - Policy , Value function, Model 을 모두 사용


    'AI > 강화학습' 카테고리의 다른 글

    [4] DP, MC, TD(0)  (0) 2019.05.07
    [3] Finite Markov Decision Process  (0) 2019.05.07
    [2] Multi-arm Bandits  (0) 2019.04.13

    댓글

Designed by Tistory.