[강화학습] 정책, 가치함수, 벨만 기대 방정식 이전 포스팅에서 MDP를 구성하는 상태, 행동, 보상함수, 상태 변환 확률, 할인율에 대해 알아보았습니다. [강화학습] 강화학습 기본 개념 정리 [강화학습] 강화학습 기본 개념 정리 강화학습의 기본 개념인 MDP, state, action, reward, policy 등과 벨만방정식에 대하여 알아보겠습니다. MDP (Markov Decision Process) 강화학습에서는 사용자가 문제를 직접 정의해야 합니다. 문제를 잘못 정의 deep-learning-challenge.tistory.com 이번 포스팅에서는 정책과 가치함수에 대해 알아보겠습니다. 정책 정책이란 모든 상태에서 에이전트가 할 행동을 의미합니다. 입력으로 상태$\mathbf{S}$가 들어오면..