앎을 경계하기

Machine Learning/Reinforcement Learning 19

Shallow Minded - Specification gaming: the flip side of AI ingenuity

제목 : Specification gaming: the flip side of AI ingenuity 날짜 : 2020년 4월 21일 URL : deepmind.com/blog/article/Specification-gaming-the-flip-side-of-AI-ingenuity Specification gaming: the flip side of AI ingenuity Specification gaming is a behaviour that satisfies the literal specification of an objective without achieving the intended outcome. We have all had experiences with specification gaming, ..

차근차근 Spinning Up 톺아보기 Key Paper : A3C

이번에 볼 논문은 Asynchronous Advantage Actor-Critic (A3C)이다. A3C가 소개된 논문은 Asynchronous Methods for Deep Reinforcement Learning 이다. ICML에 Google DeepMind에서 발표하였다. 논문 전체가 A3C에 대한 이야기는 아니고 소개된 여러 비동기적 방법들 중에 RL Task에서 SOTA를 차지했었던 A3C가 포함되어 있다. A3C의 가장 큰 특징은 다음과 같다. Global Network/actor-learner Global Network : 각 Actor threads의 Gradient를 받아서 학습된 Network, Actors에게 parameter를 공유해준다. Actor threads : 주어진 Envi..

차근차근 Spinning Up 톺아보기 Key Paper : Dueling DQN

Dueling DQN의 구조 fully connected layer를 value function에 대해서, advantage function에 대해 분리하고 각 output을 다시 합쳐 Q-value를 구한다. Value function : state에서 얻을 수 있는 모든 action의 q-value의 기댓값. state의 가치이다. Advantage function : 주로 Q-V로 나타내며 특정 action이 평균 action의 value보다 얼마나 좋은지, 나쁜지를 판단할 수 있는 함수. 기존 DQN에서는 주어진 action에 대한 Q-value를 학습한다. 그러나 본 연구에서는 하나의 action만 해도 state value function을 학습할 수 있다. (1) Q(s, a) = V(s) ..

차근차근 Spinning Up 톺아보기 Key Paper : DRQN

이번에 볼 논문은 DRQN이다. 논문 번역 식으로 포스팅하다보니 양이 많아지기도 해서 내가 읽은 대로 잊지않기 위해 정리한다. 먼저 DRQN 구조를 보자. DRQN은 DQN에서 첫번째 FC layer를 LSTM layer로 변경한 RNN+CNN 구조의 DQN이다. LSTM LSTM에 대해 이해하기 위해서 블로그를 참고하였다. RNN(Recurrent Neural Network)은 스스로 반복해서 이전 단계에 얻은 정보를 계속 기억하는 뉴럴네트워크이다. 이 그림이 RNN을 이해하는데 도움이 되었다. input X가 차례로 들어오면서 A에 누적되는것을 볼 수 있다. LSTM은 아래와 같은 구조로 생겼다. 각 요소들을 gate라고 하는데, 먼저 f는 forget gate, 잊는 것에 대한 게이트이다. sigm..

차근차근 Spinning Up 톺아보기 Key Paper : DQN

Model Free RL > Deep Q-learning > DQN DQN은 2013 NIPS에 처음 발표되고, 2015 NATURE에 개선된 알고리즘으로 발표된 논문이다. 사실 DQN 발표 이후로 강화학습이 주목받기 시작했다고 말할 수 있다. Spinning Up에 실린 논문을 기준으로 포스팅하겠다. 2013 NIPS 버전이다. 제목부터 살펴보면 심층 강화학습으로 Atari 게임을 플레이하는 것을 알 수 있다. DeepMind에서 제안한 논문이다. 강화학습을 사용한 고차원의 감각적 입력으로부터 직접 제어 정책들을 성공적으로 학습하기 위한 딥러닝 모델을 제안한다. 이 딥러닝 모델은 Q-learning의 변형으로 학습된 Convolutional neural network(CNN)이다. 입력이 이미지 raw..

차근차근 Spinning Up 톺아보기 5 - Part 3: Intro to Policy Optimization

Expected Grad-Log-Prob Lemma 이번 섹션에서, 우리는 policy gradient의 이론을 통해 널리 사용되는 중간 결과를 도출할 것이다. Expected Grad-Log-Prob을 줄여 EGLP라고 부를것이다. EGLP Lemma P_{\theta}가 확률변수 x에 대한 매개변수화된 확률 분포라고 가정하면, 다음식이 성립한다. 증명 Don't Let the Past Distract You PG를 위한 가장 최근의 표현을 보자. gradient 과정으로 인해 한 스텝 업데이트가 되면 모든 보상의 합인 Return에 비례하여 각 액션의 log-prob이 높아진다. 하지만 이것은 아직 별로 의미가 없다. 에이전트들은 결과에 따라 행동을 강화해야한다. 액션하기전에 얻은 보상은 하려는 액션..

차근차근 Spinning Up 톺아보기 4 - Part 3: Intro to Policy Optimization

Part 3: Intro to Policy Optimization Deriving the Simplest Policy Gradient Implementing the Simplest Policy Gradient Expected Grad-Log-Prob Lemma Don’t Let the Past Distract You Implementing Reward-to-Go Policy Gradient Baselines in Policy Gradients Other Forms of the Policy Gradient Recap Simplest Policy Gradient 유도 확률적이고 파라미터화된 정책인 $$\pi_{\theta}$$ 의 경우를 다룬다. 우리의 목표$$J(\pi_{\theta})$$는 기대 누적 보..

차근차근 Spinning Up 톺아보기 3 - Part 2:Kinds of RL Algorithms

RL 알고리즘 분류 Model-Free vs Model-Based RL 강화학습 알고리즘을 분류하는 기준 중 가장 중요한 것 중 하나가 바로 에이전트가 환경의 모델에 접근 가능한지 아닌지 이다. 여기서 환경의 모델이라는 것은 상태전이와 보상을 예측하는 함수를 말한다. 모델을 가지고 있을 때 주요 장점은 에이전트가 미리 생각을 하고 가능한 액션들마다 어떤 일이 발생하는지를 확인하고 선택들 사이에서 명시적으로 결정함으로써 plan, 계획을 세울 수 있다. 에이전트는 미리 계획된 결과를 학습된 정책으로 정리할 수 있다. 유명한 접근법으로 AlphaZero가 있다. 모델을 가지지 않은 방법보다 샘플 효율성이 크게 개선된다. 그러나 주요 단점은 환경 모델의 ground-truth가 일반적으로 에이전트가 사용할 수..