[강화학습] 5

[강화학습] 벨만 방정식, 벨만 최적 방정식

[강화학습] 벨만 방정식, 벨만 최적 방정식 이전 포스팅에서 정책, 가치함수, 벨만 기대 방정식, 행동 가치함수, 큐함수의 벨만 기대 방정식에 대해 알아보았습니다. [강화학습] 정책, 가치함수, 벨만 기대 방정식 [강화학습] 정책, 가치함수, 벨만 기대 방정식 이전 포스팅에서 MDP를 구성하는 상태, 행동, 보상함수, 상태 변환 확률, 할인율에 대해 알아보았습니다. https://deep-learning-challenge.tistory.com/46 [강화학습] 강화학습 기본 개념 정리 강화학습의 기본 deep-learning-challenge.tistory.com [강화학습] 큐함수 - 행동 가치함수 [강화학습] 큐함수 - 행동 가치함수 이전 포스팅에서 정책과 가치함수에 대해 다루었습니다. 여기에서 다루..

[강화학습] 2021.08.19

[강화학습] 큐함수 - 행동 가치함수

[강화학습] 큐함수 - 행동 가치함수 이전 포스팅에서 정책과 가치함수에 대해 다루었습니다. 여기에서 다루었던 가치함수의 수식은 $$\mathbf{v}(s) = E[G_t|\mathbf{S}_t = s]$$ 로 어떤 상태가 주어질때 보상의 기댓값 즉 상태에 대한 가치함수입니다. 따라서 상태 가치함수라고 불립니다. [강화학습] 정책, 가치함수, 벨만 기대 방정식 [강화학습] 정책, 가치함수, 벨만 기대 방정식 이전 포스팅에서 MDP를 구성하는 상태, 행동, 보상함수, 상태 변환 확률, 할인율에 대해 알아보았습니다. https://deep-learning-challenge.tistory.com/46 [강화학습] 강화학습 기본 개념 정리 강화학습의 기본 deep-learning-challenge.tistory...

[강화학습] 2021.08.19

[강화학습] 정책, 가치함수, 벨만 기대 방정식

[강화학습] 정책, 가치함수, 벨만 기대 방정식 이전 포스팅에서 MDP를 구성하는 상태, 행동, 보상함수, 상태 변환 확률, 할인율에 대해 알아보았습니다. [강화학습] 강화학습 기본 개념 정리 [강화학습] 강화학습 기본 개념 정리 강화학습의 기본 개념인 MDP, state, action, reward, policy 등과 벨만방정식에 대하여 알아보겠습니다. MDP (Markov Decision Process) 강화학습에서는 사용자가 문제를 직접 정의해야 합니다. 문제를 잘못 정의 deep-learning-challenge.tistory.com 이번 포스팅에서는 정책과 가치함수에 대해 알아보겠습니다. 정책 정책이란 모든 상태에서 에이전트가 할 행동을 의미합니다. 입력으로 상태$\mathbf{S}$가 들어오면..

[강화학습] 2021.08.17

[강화학습] 강화학습 기본 개념 정리

[강화학습] 강화학습 기본 개념 정리 강화학습의 기본 개념인 MDP, state, action, reward, policy 등과 벨만방정식에 대하여 알아보겠습니다. MDP (Markov Decision Process) 강화학습에서는 사용자가 문제를 직접 정의해야 합니다. 문제를 잘못 정의하면 학습을 못 할 수도 있기 때문에 문제의 정의는 강화학습에서 중요한 단계 중 하나입니다. 학습을 하기 위해 많지도, 적지도 않은 적절한 정보를 에이전트가 알 수 있도록 문제를 순차적으로 정의해야 합니다. MDP는 순차적으로 결정해야 하는 문제를 수학적으로 표현한 것으로, 강화학습은 MDP의 문제를 푸는 것입니다. MDP는 상태, 행동, 보상함수, 상태 변환 확률, 할인율로 구성됩니다. 각 구성요소를 살펴보기 전에 그리..

[강화학습] 2021.08.17

[강화학습] 1. 강화학습이란?

"강화"라는 개념은 행동심리학에서 등장한 개념으로 동물이 시행착오를 통해 학습하는 방법이다. 강화란? 스키너라는 행동심리학자는 강화라는 개념을 제시합니다. 시행착오 학습에서 강화라는 것은 동물이 이전에 배우지 않았지만, 직접 시도하며 행동과 그 결과로 나타나는 좋은 보상 사이의 상관관계를 학습하는 것을 의미합니다. 예시로 시행착오 학습 실험인 스키너의 쥐 실험에 대해 알아보겠습니다. 굶긴 쥐를 상자에 넣고 이 상자 안에 페달을 누르면 먹이가 나오는 장치를 설치합니다. 쥐는 우연히 페달을 밟고 먹이를 먹게 됩니다. 처음에는 먹이와 페달 사이의 상관관계를 모릅니다. 우연히 페달을 더 누르고 먹이와 페달의 상관관계에 대해 학습하게 됩니다. 이러한 과정을 "강화"라고 합니다. 이러한 강화의 개념이 강화 학습의 ..

[강화학습] 2021.08.14
반응형