BLOG 큐함수 (3)
인공지능

강화학습: 파이썬으로 구현하는 큐러닝, Q Learning

1. 큐러닝(Q Learning)이란?


22.06.08 save, load 기능 업데이트 큐러닝은 오프폴리시 시간차 제어를 통한 강화학습 알고리즘입니다. 이게 뭔소리냐 싶은데 이전에 SARSA 알고리즘을 알아보았는데요 강화학습: 파이썬으로 구현하는 …

강화학습 큐함수 그리드월드 큐러닝
인공지능

강화학습: 파이썬으로 구현하는 SARSA, 살사 알고리즘

1. SARSA의 정의


살사는 시간차 제어를 사용하는 알고리즘입니다. 가치함수를 시간차 예측으로 업데이트 하면서 정책은 따로 존재하지 않고 현재 상태에서 가장 큰 가치를 가지는 행동을 하는 …

강화학습 큐함수 시간차예측 살사 SARSA
인공지능

강화학습: 정책 이터레이션과 가치 이터레이션

1. 정책 이터레이션이란?


이번 포스트에서는 벨만 기대 방정식을 통한 정책 이터레이션을 통한 순차적 문제 해결에 대해서 알아보겠습니다.

강화학습의 최종 목적은 가장 많은 보상을 얻을 수 …

강화학습 가치함수 큐함수
Search