MDP가 정책학습기(policy_learner.py)에 어떻게 적용된건가요?

Open ggokka opened this issue 5 years ago • 1 comments

마르코프 결정 프로세스가 강화학습의 핵심 알고리즘으로 알고있어요. policy_learner.py의 소스에 구체적으로 어떻게 반영되어 있는건가요? 혹시 아래 변수들이 관련있나요?

행동 및 행동에 대한 결과를 기억

            memory_sample.append(next_sample)
            memory_action.append(action)
            memory_reward.append(immediate_reward)
            memory_pv.append(self.agent.portfolio_value)
            memory_num_stocks.append(self.agent.num_stocks)
            memory = [(
                memory_sample[i],
                memory_action[i],
                memory_reward[i])
                for i in list(range(len(memory_action)))[-max_memory:]
            ]

Sep 19 '19 10:09 ggokka

@ggokka 님, 다음과 같이 답변드리면 도움이 되실까 모르겠네요.

MDP의 구성 (S, A, P, R, r)에서, S: 상태집합 - environment, agent의 상태 (관련변수: agent.num_stocks) A: 행동집합 - 매수, 매도, 관망 등 P: 상태전이확률 - 신경망 R: 보상 - 수익률 (관련변수: memory_reward, memory_pv) r: 할인요인 - 주식투자에서는 보상시점과 가까울수록 할인요인이 크게해야 할 수 있음

Sep 28 '19 05:09 quantylab

rltrader rltrader copied to clipboard

MDP가 정책학습기(policy_learner.py)에 어떻게 적용된건가요?

행동 및 행동에 대한 결과를 기억

rltrader
rltrader copied to clipboard