Dueling DQN의 구조 fully connected layer를 value function에 대해서, advantage function에 대해 분리하고 각 output을 다시 합쳐 Q-value를 구한다. Value function : state에서 얻을 수 있는 모든 action의 q-value의 기댓값. state의 가치이다. Advantage function : 주로 Q-V로 나타내며 특정 action이 평균 action의 value보다 얼마나 좋은지, 나쁜지를 판단할 수 있는 함수. 기존 DQN에서는 주어진 action에 대한 Q-value를 학습한다. 그러나 본 연구에서는 하나의 action만 해도 state value function을 학습할 수 있다. (1) Q(s, a) = V(s) ..