BLOG 몬테카를로예측 (1)
인공지능

강화학습 : 몬테카를로 예측과 시간차 예측

앞에서 정책 이터레이션과 가치 이터레이션에 대해서 알아보았습니다. 최적 정책을 찾는 좋은 방법이지만 분명한 한계가 있습니다. 현실은 바둑처럼 수많은 상태들이 존재하고 매번 이 모든 상태에 대한 …

강화학습 몬테카를로예측 시간차예측
Search