rltrader
rltrader copied to clipboard
시계열 데이터에서 training data와 test data의 기간 차이에 따른 정확성 문제
해당 교재 source code의 "main_notraining.py" 모듈에서는
투자 시뮬레이션 평가 데이터의 기간이 아래와 같이 1달로 설정 되어있습니다.
training_data = training_data[(training_data['date'] >= '2018-01-01') &
(training_data['date'] <= '2018-01-31')]
그런데 교재에는 2016년(1년)을 training data로 학습하고 2017년(1년)을 test data로 활용하셔서 monkey trader와 수익률을 비교하셨고요.
궁금한점은, training data가 많으면 많을 수록 좋겠지만, 1년의 기간을 training data로 활용하여 비용함수를 최소가 되는 모델링을 한 후 이 모델을 가지고 1달의 test data에 적용하여 수익률을 평가하는게 논리적으로 문제가 없는지 궁금합니다.
질문주신 사항은 테스트 데이터의 크기에 대한 것으로 이해했습니다.
우선 학습데이터가 1년치라고 테스트데이터도 1년치일 필요는 없습니다.
즉 논리적으로 문제는 없을 것입니다. 그러나 기간이 짧으면 그만큼 장기 트렌드를 덜 반영한 테스트 결과가 나올 것을 감안하시는게 좋습니다.