rltrader page 33 내용 -상태전이확률과 policy 개념이 혼동되어 있습니다.

page 33 내용 -상태전이확률과 policy 개념이 혼동되어 있습니다.

Open hccho2 opened this issue 5 years ago • 1 comments

page 33 내용.

상태 전이 확률은 environment가 주는 것이지, agent가 학습하는 것은 아닙니다. agent는 policy를 학습할 수 있습니다.

내용 전반을 재검토해야 할 것 같습니다.

예를 들어, reward가 -5 경우에, 책의 수식대로하면, 확률이 음수가 됩니다.

Jan 06 '20 23:01 hccho2

네 말씀주신것처럼 MDP에서 모델은 학습대상이 아니죠. 3월쯤 출간예정인 개정판에서는 이론내용이 대폭 개정되어 오류 픽스됩니다. 지적 감사합니다.

Jan 06 '20 23:01 quantylab