since4satang

Results 2 issues of since4satang

탐험은 학습을 위해 너무 신경망의 예측에만 의존 하지 않도록 하는걸로 이해하는데 학습 완료 후 실제 매매 적용시에는 탐험은 0로 하는건가요???

G_T-1 = r_1 이 아니고 G_T-1 = r_T-1 아닌가요?