BLOG 가치함수 (1)
인공지능

강화학습: 정책 이터레이션과 가치 이터레이션

1. 정책 이터레이션이란?


이번 포스트에서는 벨만 기대 방정식을 통한 정책 이터레이션을 통한 순차적 문제 해결에 대해서 알아보겠습니다.

강화학습의 최종 목적은 가장 많은 보상을 얻을 수 …

강화학습 가치함수 큐함수
Search