Blog

BLOG 가치함수 (1)

인공지능

강화학습: 정책 이터레이션과 가치 이터레이션

1. 정책 이터레이션이란?

이번 포스트에서는 벨만 기대 방정식을 통한 정책 이터레이션을 통한 순차적 문제 해결에 대해서 알아보겠습니다.

강화학습의 최종 목적은 가장 많은 보상을 얻을 수 …

강화학습 가치함수 큐함수

Posted on May 2, 2022, midnight

Search

Categories

개발

공부

일상

미분류 (8)