Informer2020 icon indicating copy to clipboard operation
Informer2020 copied to clipboard

日内不同样本,能否保证训练时选择的数据为每个样本时间序列?

Open Malibu351 opened this issue 1 year ago • 3 comments

您好,我使用的数据是股票数据,大致可以理解为每天有4k只股票的数据,并且每天每只股票都有全新的数据。 之前我将数据拉长到一维,这样每天相当于1个样本,训练时freq可以选择d,训练结果可能还需要调调参数。 但是我想要增加几种损失函数,之前将数据拉长到1维的方法无法继续。 请问: 1.模型能够支持输入三维度的数据呢,比如:时间股票特征,我看到样例数据都是时间*特征,不清楚这样是否可行; 2.如果认为股票是独立的,彼此没有区别,那么相当于每日有4k条数据,那我在训练时将pred选择为d,能不能保证训练时,每一条数据的seq_len label_len pred_len都是该样本的时间序列呢?

我本身是学统计做数据处理的,对深度学习的代码不是很熟悉,有些地方看完还是不清楚,所以有上面的疑问,如果能解答不胜感激,也希望能够通过邮件求教。

Malibu351 avatar Jul 04 '23 10:07 Malibu351

请问您想增加什么损失函数呢?按照您的描述,我认为是一种多变量预测任务,Informer是可以支持的,相当于数据每一列是一只股票很多天的数据。这样训练时一条数据就代表着一段时间内,这4k只股票的信息。 比如您csv可以以一下形式组织: date, stock1, stock2, stock3, ... , stock4000 day1,-,-,-,...,- day2,-,-,-,...,- day3,-,-,-,...,- ...

MountVoom avatar Jul 25 '23 08:07 MountVoom

您好感谢回复,确实是多变量预测任务,但是有很多变量,数据类型类似于 date, stock, feature1, fea2, ..., featureN, label day1, stock1, --- day1, stock2, --- ... day1, stock4000--- day2, stock1,--- day2,stock2,--- .... day2, stock4000,--- ... dayN 之前尝试过将4只票拉长到一维,就是纵轴为日期,横轴为4000支票的不同特征和标签,但是新的损失函数无法支持这种数据输入方式,只能修改为上述的方式,所以想问一下这样输入时,能够保证每次同一个batch中,时间序列上是否能够保持正确的顺序呢

Malibu351 avatar Jul 25 '23 10:07 Malibu351

我接下来的项目也会涉及到这个问题,我初步的设想是 date, stock1, stock1_feature1, stock1_feature2,stock2, stock2_feature1, stock2_feature2................ day2,-,-,-,...,- day3,-,-,-,...,- 但并没有理论依据

YiXingReal avatar Sep 13 '23 09:09 YiXingReal