AliTianChi
AliTianChi copied to clipboard
小分享 & gen_submission_by_rule.py中line 22-25 怀疑冗余
非常感谢wepe的分享,开始以为是naive bayes. 不过仔细看了看,真的很适合我这样naive的新手,感觉作者真的太牛了,这么复杂的问题如此简单化,效果还这么好。 有几个小小的想法分享交流一下,
- 对文件夹的循环操作是不是会占用很多时间,估计是出于工作目录的整洁和代码简洁考虑。
- 不太明白gen_submission_by_rule.py中line 22-25 的目的,前面的判断不是已经完成了吗,是双重判断保险一点吗。。还是说作者本来另有深意的。
- 这个简单的规则没有考虑到当天买了后,又加入购物车的情况。不过也就只有8个。也有可能是之前加入购物车了,后来通过搜索就付款了,没有清空购物车。
- "model 训练机器学习模型(暂时不分享)”作者的这段话的意思基本不明白,机器学习模型怎么才能和这个算法结合起来呢。。
PS:同样期望可以和作者在kaggle: diabetic retinopathy 问题上交流交流。
再次感谢wepe的分享,祝paper早日写成并顺利通过review。
感谢你的留言!
1、有些地方对文件夹循环操作,频繁的打开和关闭,确实很耗时间。
2、gen_submission_by_rule.py中line 22-25 的确是多余的,早上我本来想删掉的.....不得不佩服你代码阅读的能力(你竟然能读懂这么乱的代码Orz)。。。后半句你又猜对了,确实是另有意义,是另外一些规则的代码,我删了一部分,忘了删掉这几句。
3、“当天买了后,又加入购物车的情况”,这个我没有统计,可能你说的是对的。
4、/model/
文件夹下本来是放一些机器学习模型的代码的,不过目前效果不是很好,比赛也还在进行,就先不放上来了。训练模型还需要提取特征,需要另外的一些data preprocess的代码。
5、Kaggle糖尿病视网膜病变那个比赛,我打算暑假有空再搞了,有小伙伴在研究用CNN去做。
PS:我已经一个多星期没有碰阿里这个比赛了,只是昨天整理了一下代码,代码确实写得不好,望轻拍。
PSS:有朋友说代码跑了很久没出结果,我的PC是i7处理器,8核,跑的时候的确非常快。其他机子跑的时间可能就因性能而异了。
嗯嗯,谢谢!回复一下3
3.“当天买了后,又加入购物车的情况”,考虑后木有一点点增益。。
PS:代码段的主要目的有注释,感觉还比较好读啦。