앎을 경계하기

OpenAI 3

차근차근 Spinning Up 톺아보기 5 - Part 3: Intro to Policy Optimization

Expected Grad-Log-Prob Lemma 이번 섹션에서, 우리는 policy gradient의 이론을 통해 널리 사용되는 중간 결과를 도출할 것이다. Expected Grad-Log-Prob을 줄여 EGLP라고 부를것이다. EGLP Lemma P_{\theta}가 확률변수 x에 대한 매개변수화된 확률 분포라고 가정하면, 다음식이 성립한다. 증명 Don't Let the Past Distract You PG를 위한 가장 최근의 표현을 보자. gradient 과정으로 인해 한 스텝 업데이트가 되면 모든 보상의 합인 Return에 비례하여 각 액션의 log-prob이 높아진다. 하지만 이것은 아직 별로 의미가 없다. 에이전트들은 결과에 따라 행동을 강화해야한다. 액션하기전에 얻은 보상은 하려는 액션..

차근차근 Spinning Up 톺아보기 3 - Part 2:Kinds of RL Algorithms

RL 알고리즘 분류 Model-Free vs Model-Based RL 강화학습 알고리즘을 분류하는 기준 중 가장 중요한 것 중 하나가 바로 에이전트가 환경의 모델에 접근 가능한지 아닌지 이다. 여기서 환경의 모델이라는 것은 상태전이와 보상을 예측하는 함수를 말한다. 모델을 가지고 있을 때 주요 장점은 에이전트가 미리 생각을 하고 가능한 액션들마다 어떤 일이 발생하는지를 확인하고 선택들 사이에서 명시적으로 결정함으로써 plan, 계획을 세울 수 있다. 에이전트는 미리 계획된 결과를 학습된 정책으로 정리할 수 있다. 유명한 접근법으로 AlphaZero가 있다. 모델을 가지지 않은 방법보다 샘플 효율성이 크게 개선된다. 그러나 주요 단점은 환경 모델의 ground-truth가 일반적으로 에이전트가 사용할 수..

차근차근 Spinning Up 톺아보기 1 - Part 1: Key Concepts in RL

항상 RL 관련 논문을 찾을 때 Open AI의 Spinning Up을 이용했었는데 막상 제대로 살펴본 적이 없어서 Spinning Up에 대한 정리를 해보려고 한다. 사이트는 아래 참고하기 https://spinningup.openai.com Welcome to Spinning Up in Deep RL! — Spinning Up documentation © Copyright 2018, OpenAI. Revision 2e0eff9b. spinningup.openai.com INTRODUCTION TO RL Part 1 : RL 핵심 개념 RL은 무엇을 할 수 있을까? 강화학습이 최근 들어 다양한 것들에서 좋은 결과를 내고 있다. 예를 들어, 시뮬레이션 환경에서 로봇을 컨트롤 하기 위한 학습 방법으로 RL..