앞에서 정책 이터레이션과 가치 이터레이션에 대해서 알아보았습니다. 최적 정책을 찾는 좋은 방법이지만 분명한 한계가 있습니다. 현실은 바둑처럼 수많은 상태들이 존재하고 매번 이 모든 상태에 대한 …
개발
공부
일상