이번에 볼 논문은 Asynchronous Advantage Actor-Critic (A3C)이다. A3C가 소개된 논문은 Asynchronous Methods for Deep Reinforcement Learning 이다. ICML에 Google DeepMind에서 발표하였다. 논문 전체가 A3C에 대한 이야기는 아니고 소개된 여러 비동기적 방법들 중에 RL Task에서 SOTA를 차지했었던 A3C가 포함되어 있다. A3C의 가장 큰 특징은 다음과 같다. Global Network/actor-learner Global Network : 각 Actor threads의 Gradient를 받아서 학습된 Network, Actors에게 parameter를 공유해준다. Actor threads : 주어진 Envi..