앎을 경계하기

Spinning up 6

차근차근 Spinning Up 톺아보기 Key Paper : DRQN

이번에 볼 논문은 DRQN이다. 논문 번역 식으로 포스팅하다보니 양이 많아지기도 해서 내가 읽은 대로 잊지않기 위해 정리한다. 먼저 DRQN 구조를 보자. DRQN은 DQN에서 첫번째 FC layer를 LSTM layer로 변경한 RNN+CNN 구조의 DQN이다. LSTM LSTM에 대해 이해하기 위해서 블로그를 참고하였다. RNN(Recurrent Neural Network)은 스스로 반복해서 이전 단계에 얻은 정보를 계속 기억하는 뉴럴네트워크이다. 이 그림이 RNN을 이해하는데 도움이 되었다. input X가 차례로 들어오면서 A에 누적되는것을 볼 수 있다. LSTM은 아래와 같은 구조로 생겼다. 각 요소들을 gate라고 하는데, 먼저 f는 forget gate, 잊는 것에 대한 게이트이다. sigm..

차근차근 Spinning Up 톺아보기 5 - Part 3: Intro to Policy Optimization

Expected Grad-Log-Prob Lemma 이번 섹션에서, 우리는 policy gradient의 이론을 통해 널리 사용되는 중간 결과를 도출할 것이다. Expected Grad-Log-Prob을 줄여 EGLP라고 부를것이다. EGLP Lemma P_{\theta}가 확률변수 x에 대한 매개변수화된 확률 분포라고 가정하면, 다음식이 성립한다. 증명 Don't Let the Past Distract You PG를 위한 가장 최근의 표현을 보자. gradient 과정으로 인해 한 스텝 업데이트가 되면 모든 보상의 합인 Return에 비례하여 각 액션의 log-prob이 높아진다. 하지만 이것은 아직 별로 의미가 없다. 에이전트들은 결과에 따라 행동을 강화해야한다. 액션하기전에 얻은 보상은 하려는 액션..

차근차근 Spinning Up 톺아보기 4 - Part 3: Intro to Policy Optimization

Part 3: Intro to Policy Optimization Deriving the Simplest Policy Gradient Implementing the Simplest Policy Gradient Expected Grad-Log-Prob Lemma Don’t Let the Past Distract You Implementing Reward-to-Go Policy Gradient Baselines in Policy Gradients Other Forms of the Policy Gradient Recap Simplest Policy Gradient 유도 확률적이고 파라미터화된 정책인 $$\pi_{\theta}$$ 의 경우를 다룬다. 우리의 목표$$J(\pi_{\theta})$$는 기대 누적 보..

차근차근 Spinning Up 톺아보기 1 - Part 1: Key Concepts in RL

항상 RL 관련 논문을 찾을 때 Open AI의 Spinning Up을 이용했었는데 막상 제대로 살펴본 적이 없어서 Spinning Up에 대한 정리를 해보려고 한다. 사이트는 아래 참고하기 https://spinningup.openai.com Welcome to Spinning Up in Deep RL! — Spinning Up documentation © Copyright 2018, OpenAI. Revision 2e0eff9b. spinningup.openai.com INTRODUCTION TO RL Part 1 : RL 핵심 개념 RL은 무엇을 할 수 있을까? 강화학습이 최근 들어 다양한 것들에서 좋은 결과를 내고 있다. 예를 들어, 시뮬레이션 환경에서 로봇을 컨트롤 하기 위한 학습 방법으로 RL..