앎을 경계하기

Machine Learning/Reinforcement Learning 19

차근차근 Spinning Up 톺아보기 2 - Part 1: Key Concepts in RL

Reward and Return 강화학습을 공부하면 뭐든 다 중요하지만 정말정말 중요한 것이 Reward! Return! 중요할 수 밖에 없는게 agent가 학습하고자 하는게 누적 Reward(return)를 최대로하는 방법을 학습하는 것이니까.. reward function R은 현재 state에서 action을 해서 next state로 넘어갔을 때 받는 즉각적인 보상이다. return은 이 보상을 누적시킨 합으로 나타낼 수 있는데, discount factor를 적용시키지 않은 경우 아래와 같이 단순하게 에피소드의 reward들을 쭉 더하는 것이다. discount factor를 적용하면 gamma를 사용해서 보상이 점점 감가되도록 하는 효과를 주는 것이다. 왜 discount factor를 사용할..

차근차근 Spinning Up 톺아보기 1 - Part 1: Key Concepts in RL

항상 RL 관련 논문을 찾을 때 Open AI의 Spinning Up을 이용했었는데 막상 제대로 살펴본 적이 없어서 Spinning Up에 대한 정리를 해보려고 한다. 사이트는 아래 참고하기 https://spinningup.openai.com Welcome to Spinning Up in Deep RL! — Spinning Up documentation © Copyright 2018, OpenAI. Revision 2e0eff9b. spinningup.openai.com INTRODUCTION TO RL Part 1 : RL 핵심 개념 RL은 무엇을 할 수 있을까? 강화학습이 최근 들어 다양한 것들에서 좋은 결과를 내고 있다. 예를 들어, 시뮬레이션 환경에서 로봇을 컨트롤 하기 위한 학습 방법으로 RL..