Blog

인공지능

그리드월드는 강화학습 알고리즘을 적용해보기에 아주 좋은 기초적인 환경입니다. 이번 포스트에서는 제가 직접 제작한 파이썬 그리드월드에 대해서 알아보고 사용법을 소개하겠습니다. GUI를 사용하지 않고 편리하게 진행과정을 프롬프트에서 …

강화학습 그리드월드

Posted on May 5, 2022, 11:07 p.m.

인공지능

살사는 시간차 제어를 사용하는 알고리즘입니다. 가치함수를 시간차 예측으로 업데이트 하면서 정책은 따로 존재하지 않고 현재 상태에서 가장 큰 가치를 가지는 행동을 하는 …

강화학습 큐함수 시간차예측 살사 SARSA

Posted on May 4, 2022, 11:35 p.m.

인공지능

앞에서 정책 이터레이션과 가치 이터레이션에 대해서 알아보았습니다. 최적 정책을 찾는 좋은 방법이지만 분명한 한계가 있습니다. 현실은 바둑처럼 수많은 상태들이 존재하고 매번 이 모든 상태에 대한 …

강화학습 몬테카를로예측 시간차예측

Posted on May 4, 2022, 11:18 p.m.

인공지능

이번 포스트에서는 벨만 기대 방정식을 통한 정책 이터레이션을 통한 순차적 문제 해결에 대해서 알아보겠습니다.

강화학습의 최종 목적은 가장 많은 보상을 얻을 수 …

강화학습 가치함수 큐함수

Posted on May 2, 2022, midnight

인공지능

머신러닝에는 수많은 모델이 있고 그 모델들은 각각의 장단점이 있습니다. 이런 장단점을 보완하기 위해서 여러 모델을 동시에 훈련시켜 결합하는 앙상블 기법이 많이 사용되고 있습니다. 앙상블 기법을 …

사이킷런 scikit-learn VotingClassifier

Posted on April 11, 2022, 11:26 p.m.