BLOG 강화학습 (13)
인공지능

강화학습: 파이썬으로 구현한 TIC TAC TOE 환경

이번에는 강화학습 알고리즘 테스트 용으로 프롬프트에서 출력되는 TIC TAC TOE 환경을 만들어 보았습니다. 사실 이것은 군대에서 당직 근무설 때 인트라넷 컴퓨터로 강화학습을 공부하기 위해서 만든 …

강화학습 틱택토
인공지능

강화학습 : 파이썬으로 구현하는 DEEP SARSA, 딥살사

이번에는 딥러닝 신경망을 이용한 강화학습, 딥살사에 대해서 알아보겠습니다. 이전에 살사 알고리즘에 대해서 알아보았는데요, 여기서 달라진 것은 테이블을 이용해서 큐함수를 모두 저장하는 것이 아니라 신경망을 통해 …

강화학습 살사 딥살사 딥러닝
인공지능

강화학습: 파이썬으로 구현하는 큐러닝, Q Learning

1. 큐러닝(Q Learning)이란?


22.06.08 save, load 기능 업데이트 큐러닝은 오프폴리시 시간차 제어를 통한 강화학습 알고리즘입니다. 이게 뭔소리냐 싶은데 이전에 SARSA 알고리즘을 알아보았는데요 강화학습: 파이썬으로 구현하는 …

강화학습 큐함수 그리드월드 큐러닝
인공지능

강화학습: 파이썬으로 구현한 프롬프트 그리드월드

그리드월드는 강화학습 알고리즘을 적용해보기에 아주 좋은 기초적인 환경입니다. 이번 포스트에서는 제가 직접 제작한 파이썬 그리드월드에 대해서 알아보고 사용법을 소개하겠습니다. GUI를 사용하지 않고 편리하게 진행과정을 프롬프트에서 …

강화학습 그리드월드
인공지능

강화학습: 파이썬으로 구현하는 SARSA, 살사 알고리즘

1. SARSA의 정의


살사는 시간차 제어를 사용하는 알고리즘입니다. 가치함수를 시간차 예측으로 업데이트 하면서 정책은 따로 존재하지 않고 현재 상태에서 가장 큰 가치를 가지는 행동을 하는 …

강화학습 큐함수 시간차예측 살사 SARSA
인공지능

강화학습 : 몬테카를로 예측과 시간차 예측

앞에서 정책 이터레이션과 가치 이터레이션에 대해서 알아보았습니다. 최적 정책을 찾는 좋은 방법이지만 분명한 한계가 있습니다. 현실은 바둑처럼 수많은 상태들이 존재하고 매번 이 모든 상태에 대한 …

강화학습 몬테카를로예측 시간차예측
인공지능

강화학습: 정책 이터레이션과 가치 이터레이션

1. 정책 이터레이션이란?


이번 포스트에서는 벨만 기대 방정식을 통한 정책 이터레이션을 통한 순차적 문제 해결에 대해서 알아보겠습니다.

강화학습의 최종 목적은 가장 많은 보상을 얻을 수 …

강화학습 가치함수 큐함수
인공지능

강화학습 : MDP와 벨만 방정식

이번 포스트에서는 강화학습의 아주 기초가 되는 개념들에 대해서 알아보려고 합니다.

강화학습은 순차적으로 어떤 행동을 결정해야 하는 문제를 푸는 알고리즘 입니다. 이것을 순차적 행동 결정 문제라고 …

MDP 강화학습
Search