분류 전체보기
-
[2] Multi-arm BanditsAI/강화학습 2019. 4. 13. 00:42
Reinforcement Learning : An Introduction - [2] Multi-arm BanditsChapter 2. Multi Arm Bandits Multi Arm Bandits Problem 먼저 강화학습에 대한 전체적인 통찰을 얻기 위한 1 state problem 인 multi arm bandits problem 부터 시작해보자. 카지노에 승률이 다른 슬롯머신(bandits)들이 있고 이들중 돈을 걸고 레버(arm)을 내려야한다면? 또한 이 슬롯머신들의 승률이 시간에 따라서 변화한다면? 어떻게 하는 것이 가장 많은 돈(rewards)을 얻는 방법인가? Evaluation feedback 강화학습을 다른 알고리즘들과 구분하는 가장 큰 차이점 중 하나는, 학습 정보를 사용하여 act..
-
[1] IntroductionAI/강화학습 2019. 4. 13. 00:40
Reinforcement Learning : An Introduction - [1] IntroductionChapter 1. Introduction to RL Reward Hypothesis 강화학습은 Reward Hypothesis에 기초합니다. Reward Hypothesis All goals can be descridbed by the maximization of expected cumulative reward 우리의 목표는 최상의 보상을 결과로 하는 행동들을 하는 것입니다. 하지만 단기적인 최상의 보상 행동이 장기적인 관점에서 총 보상의 합이 최대인 행동은 아닐 수 있습니다. Agent, Environment, Observation, Reward 행동을 하는 주최를 Agent 라고 하며, 이는 어..
-
WTM Northeast Asia Summit 후기일상 2019. 3. 31. 18:40
WTM Northeast Asia Summit 후기 2019. 05. 01 Hello Stella Youtube Channel - WTM Ambassadors North Asia Summit WTM 에 초대받았을 시기에, 나는 꽤 많은 고민들을 하고 있었다. 대학원을 석사생활을 갓 졸업하고 개발자로써 직업을 시작하였으며 진로를 고민하면서 롤모델의 필요성을 절실히 느꼈다. 여러가지 경로를 통해서 나와 비슷한 진로의 롤모델을 찾아보았으나 대부분의 성공적인 개발자의 삶의 사례는 '남성' 에 대한 이야기 였다. 성평등이 많이 보편화 된 시대이지만, 아직도 여성으로써 감수해야하는 사회적 시선이나 의무등은 테크계에서 남자들이 살아가는 환경과 많이 다르다. 출산과 양육에 대한 문제. 나이에 대한 부담. 능력에 대한 ..