벨만방정식 2

[강화학습] 벨만 방정식, 벨만 최적 방정식

[강화학습] 벨만 방정식, 벨만 최적 방정식 이전 포스팅에서 정책, 가치함수, 벨만 기대 방정식, 행동 가치함수, 큐함수의 벨만 기대 방정식에 대해 알아보았습니다. [강화학습] 정책, 가치함수, 벨만 기대 방정식 [강화학습] 정책, 가치함수, 벨만 기대 방정식 이전 포스팅에서 MDP를 구성하는 상태, 행동, 보상함수, 상태 변환 확률, 할인율에 대해 알아보았습니다. https://deep-learning-challenge.tistory.com/46 [강화학습] 강화학습 기본 개념 정리 강화학습의 기본 deep-learning-challenge.tistory.com [강화학습] 큐함수 - 행동 가치함수 [강화학습] 큐함수 - 행동 가치함수 이전 포스팅에서 정책과 가치함수에 대해 다루었습니다. 여기에서 다루..

[강화학습] 2021.08.19

[강화학습] 정책, 가치함수, 벨만 기대 방정식

[강화학습] 정책, 가치함수, 벨만 기대 방정식 이전 포스팅에서 MDP를 구성하는 상태, 행동, 보상함수, 상태 변환 확률, 할인율에 대해 알아보았습니다. [강화학습] 강화학습 기본 개념 정리 [강화학습] 강화학습 기본 개념 정리 강화학습의 기본 개념인 MDP, state, action, reward, policy 등과 벨만방정식에 대하여 알아보겠습니다. MDP (Markov Decision Process) 강화학습에서는 사용자가 문제를 직접 정의해야 합니다. 문제를 잘못 정의 deep-learning-challenge.tistory.com 이번 포스팅에서는 정책과 가치함수에 대해 알아보겠습니다. 정책 정책이란 모든 상태에서 에이전트가 할 행동을 의미합니다. 입력으로 상태$\mathbf{S}$가 들어오면..

[강화학습] 2021.08.17
반응형