IJCAI_2018_Competition_baseline
IJCAI_2018_Competition_baseline copied to clipboard
请问为什么item_category_list和item_property_list不作为训练特征?
要额外作特殊处理吗?
嗯,要额外处理一下,因为那两个特征是字符串格式的。
50W的训练样本,有交易的才2W,样本分布这么不平均,要额外处理吗
我没有做什么处理,因为虽然分布不平衡,但是总体的分布是比较符合实际情况。在实际场景中也是正样本非常稀疏的。
请问item_category_list和item_property_list要如何处理下会比较好? 我的想法是直接按;号拆分出来做新的feature,但这样一下,特征数量又太多了 谢谢