Reward and Return 강화학습을 공부하면 뭐든 다 중요하지만 정말정말 중요한 것이 Reward! Return! 중요할 수 밖에 없는게 agent가 학습하고자 하는게 누적 Reward(return)를 최대로하는 방법을 학습하는 것이니까.. reward function R은 현재 state에서 action을 해서 next state로 넘어갔을 때 받는 즉각적인 보상이다. return은 이 보상을 누적시킨 합으로 나타낼 수 있는데, discount factor를 적용시키지 않은 경우 아래와 같이 단순하게 에피소드의 reward들을 쭉 더하는 것이다. discount factor를 적용하면 gamma를 사용해서 보상이 점점 감가되도록 하는 효과를 주는 것이다. 왜 discount factor를 사용할..