앎을 경계하기

RL 10

차근차근 Spinning Up 톺아보기 Key Paper : Dueling DQN

Dueling DQN의 구조 fully connected layer를 value function에 대해서, advantage function에 대해 분리하고 각 output을 다시 합쳐 Q-value를 구한다. Value function : state에서 얻을 수 있는 모든 action의 q-value의 기댓값. state의 가치이다. Advantage function : 주로 Q-V로 나타내며 특정 action이 평균 action의 value보다 얼마나 좋은지, 나쁜지를 판단할 수 있는 함수. 기존 DQN에서는 주어진 action에 대한 Q-value를 학습한다. 그러나 본 연구에서는 하나의 action만 해도 state value function을 학습할 수 있다. (1) Q(s, a) = V(s) ..

차근차근 Spinning Up 톺아보기 5 - Part 3: Intro to Policy Optimization

Expected Grad-Log-Prob Lemma 이번 섹션에서, 우리는 policy gradient의 이론을 통해 널리 사용되는 중간 결과를 도출할 것이다. Expected Grad-Log-Prob을 줄여 EGLP라고 부를것이다. EGLP Lemma P_{\theta}가 확률변수 x에 대한 매개변수화된 확률 분포라고 가정하면, 다음식이 성립한다. 증명 Don't Let the Past Distract You PG를 위한 가장 최근의 표현을 보자. gradient 과정으로 인해 한 스텝 업데이트가 되면 모든 보상의 합인 Return에 비례하여 각 액션의 log-prob이 높아진다. 하지만 이것은 아직 별로 의미가 없다. 에이전트들은 결과에 따라 행동을 강화해야한다. 액션하기전에 얻은 보상은 하려는 액션..

차근차근 Spinning Up 톺아보기 4 - Part 3: Intro to Policy Optimization

Part 3: Intro to Policy Optimization Deriving the Simplest Policy Gradient Implementing the Simplest Policy Gradient Expected Grad-Log-Prob Lemma Don’t Let the Past Distract You Implementing Reward-to-Go Policy Gradient Baselines in Policy Gradients Other Forms of the Policy Gradient Recap Simplest Policy Gradient 유도 확률적이고 파라미터화된 정책인 $$\pi_{\theta}$$ 의 경우를 다룬다. 우리의 목표$$J(\pi_{\theta})$$는 기대 누적 보..

차근차근 Spinning Up 톺아보기 3 - Part 2:Kinds of RL Algorithms

RL 알고리즘 분류 Model-Free vs Model-Based RL 강화학습 알고리즘을 분류하는 기준 중 가장 중요한 것 중 하나가 바로 에이전트가 환경의 모델에 접근 가능한지 아닌지 이다. 여기서 환경의 모델이라는 것은 상태전이와 보상을 예측하는 함수를 말한다. 모델을 가지고 있을 때 주요 장점은 에이전트가 미리 생각을 하고 가능한 액션들마다 어떤 일이 발생하는지를 확인하고 선택들 사이에서 명시적으로 결정함으로써 plan, 계획을 세울 수 있다. 에이전트는 미리 계획된 결과를 학습된 정책으로 정리할 수 있다. 유명한 접근법으로 AlphaZero가 있다. 모델을 가지지 않은 방법보다 샘플 효율성이 크게 개선된다. 그러나 주요 단점은 환경 모델의 ground-truth가 일반적으로 에이전트가 사용할 수..

차근차근 Spinning Up 톺아보기 1 - Part 1: Key Concepts in RL

항상 RL 관련 논문을 찾을 때 Open AI의 Spinning Up을 이용했었는데 막상 제대로 살펴본 적이 없어서 Spinning Up에 대한 정리를 해보려고 한다. 사이트는 아래 참고하기 https://spinningup.openai.com Welcome to Spinning Up in Deep RL! — Spinning Up documentation © Copyright 2018, OpenAI. Revision 2e0eff9b. spinningup.openai.com INTRODUCTION TO RL Part 1 : RL 핵심 개념 RL은 무엇을 할 수 있을까? 강화학습이 최근 들어 다양한 것들에서 좋은 결과를 내고 있다. 예를 들어, 시뮬레이션 환경에서 로봇을 컨트롤 하기 위한 학습 방법으로 RL..