rltrader
rltrader copied to clipboard
page 33 내용 -상태전이확률과 policy 개념이 혼동되어 있습니다.
page 33 내용.
상태 전이 확률은 environment가 주는 것이지, agent가 학습하는 것은 아닙니다. agent는 policy를 학습할 수 있습니다.
내용 전반을 재검토해야 할 것 같습니다.
예를 들어, reward가 -5 경우에, 책의 수식대로하면, 확률이 음수가 됩니다.
네 말씀주신것처럼 MDP에서 모델은 학습대상이 아니죠. 3월쯤 출간예정인 개정판에서는 이론내용이 대폭 개정되어 오류 픽스됩니다. 지적 감사합니다.