Blog

인공지능

22.06.08 save, load 기능 업데이트 큐러닝은 오프폴리시 시간차 제어를 통한 강화학습 알고리즘입니다. 이게 뭔소리냐 싶은데 이전에 SARSA 알고리즘을 알아보았는데요 강화학습: 파이썬으로 구현하는 …

강화학습 큐함수 그리드월드 큐러닝

Posted on May 7, 2022, 11:37 p.m.

인공지능

살사는 시간차 제어를 사용하는 알고리즘입니다. 가치함수를 시간차 예측으로 업데이트 하면서 정책은 따로 존재하지 않고 현재 상태에서 가장 큰 가치를 가지는 행동을 하는 …

강화학습 큐함수 시간차예측 살사 SARSA

Posted on May 4, 2022, 11:35 p.m.

인공지능

이번 포스트에서는 벨만 기대 방정식을 통한 정책 이터레이션을 통한 순차적 문제 해결에 대해서 알아보겠습니다.

강화학습의 최종 목적은 가장 많은 보상을 얻을 수 …

강화학습 가치함수 큐함수

Posted on May 2, 2022, midnight