양갱로그

앎을 경계하기

PG 2

차근차근 Spinning Up 톺아보기 5 - Part 3: Intro to Policy Optimization

Expected Grad-Log-Prob Lemma 이번 섹션에서, 우리는 policy gradient의 이론을 통해 널리 사용되는 중간 결과를 도출할 것이다. Expected Grad-Log-Prob을 줄여 EGLP라고 부를것이다. EGLP Lemma P_{\theta}가 확률변수 x에 대한 매개변수화된 확률 분포라고 가정하면, 다음식이 성립한다. 증명 Don't Let the Past Distract You PG를 위한 가장 최근의 표현을 보자. gradient 과정으로 인해 한 스텝 업데이트가 되면 모든 보상의 합인 Return에 비례하여 각 액션의 log-prob이 높아진다. 하지만 이것은 아직 별로 의미가 없다. 에이전트들은 결과에 따라 행동을 강화해야한다. 액션하기전에 얻은 보상은 하려는 액션..

Machine Learning/Reinforcement Learning 2019.11.08

차근차근 Spinning Up 톺아보기 4 - Part 3: Intro to Policy Optimization

Part 3: Intro to Policy Optimization Deriving the Simplest Policy Gradient Implementing the Simplest Policy Gradient Expected Grad-Log-Prob Lemma Don’t Let the Past Distract You Implementing Reward-to-Go Policy Gradient Baselines in Policy Gradients Other Forms of the Policy Gradient Recap Simplest Policy Gradient 유도 확률적이고 파라미터화된 정책인 $$\pi_{\theta}$$ 의 경우를 다룬다. 우리의 목표$$J(\pi_{\theta})$$는 기대 누적 보..

Machine Learning/Reinforcement Learning 2019.11.07

알고리즘, DAFIT, 가벼운학습지, 파이썬, Reinforcement Learning, deeplearning, 다핏, 데이터분석, OpenCV, 딥러닝, RL, TensorFlow, 백준, python, 머신러닝, pyTorch, 파이토치, 강화학습, 텐서플로우, CV,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

PG 2

티스토리툴바