RL 알고리즘 분류 Model-Free vs Model-Based RL 강화학습 알고리즘을 분류하는 기준 중 가장 중요한 것 중 하나가 바로 에이전트가 환경의 모델에 접근 가능한지 아닌지 이다. 여기서 환경의 모델이라는 것은 상태전이와 보상을 예측하는 함수를 말한다. 모델을 가지고 있을 때 주요 장점은 에이전트가 미리 생각을 하고 가능한 액션들마다 어떤 일이 발생하는지를 확인하고 선택들 사이에서 명시적으로 결정함으로써 plan, 계획을 세울 수 있다. 에이전트는 미리 계획된 결과를 학습된 정책으로 정리할 수 있다. 유명한 접근법으로 AlphaZero가 있다. 모델을 가지지 않은 방법보다 샘플 효율성이 크게 개선된다. 그러나 주요 단점은 환경 모델의 ground-truth가 일반적으로 에이전트가 사용할 수..