rltrader
rltrader copied to clipboard
MDP가 정책학습기(policy_learner.py)에 어떻게 적용된건가요?
마르코프 결정 프로세스가 강화학습의 핵심 알고리즘으로 알고있어요. policy_learner.py의 소스에 구체적으로 어떻게 반영되어 있는건가요? 혹시 아래 변수들이 관련있나요?
행동 및 행동에 대한 결과를 기억
memory_sample.append(next_sample)
memory_action.append(action)
memory_reward.append(immediate_reward)
memory_pv.append(self.agent.portfolio_value)
memory_num_stocks.append(self.agent.num_stocks)
memory = [(
memory_sample[i],
memory_action[i],
memory_reward[i])
for i in list(range(len(memory_action)))[-max_memory:]
]
@ggokka 님, 다음과 같이 답변드리면 도움이 되실까 모르겠네요.
MDP의 구성 (S, A, P, R, r)에서, S: 상태집합 - environment, agent의 상태 (관련변수: agent.num_stocks) A: 행동집합 - 매수, 매도, 관망 등 P: 상태전이확률 - 신경망 R: 보상 - 수익률 (관련변수: memory_reward, memory_pv) r: 할인요인 - 주식투자에서는 보상시점과 가까울수록 할인요인이 크게해야 할 수 있음