얼마 전에 A2C 에이전트에 대해서 포스팅을 한 적이 있었는데요, 이번에는 Continuous A2C에 대해서 가볍게 알아보겠습니다.
.
A2C는 행동이 불연속적입니다. 그래서 장점도 있지만 …
이번에는 A2C라는 강화학습 알고리즘을 가져왔습니다. 정책 이터레이션 알고리즘들의 문제점들을 보완한 알고리즘이라고 볼 수 있는데요, 자세히 알아보도록 하겠습니다.
먼저, 이전에 REINFORCE에서 사용한 정책 신경망의 …
개발
공부
일상