AliTianChi 小分享 & gen_submission_by_rule.py中line 22-25 怀疑冗余

非常感谢wepe的分享，开始以为是naive bayes. 不过仔细看了看，真的很适合我这样naive的新手，感觉作者真的太牛了，这么复杂的问题如此简单化，效果还这么好。有几个小小的想法分享交流一下，

对文件夹的循环操作是不是会占用很多时间，估计是出于工作目录的整洁和代码简洁考虑。
不太明白gen_submission_by_rule.py中line 22-25 的目的，前面的判断不是已经完成了吗，是双重判断保险一点吗。。还是说作者本来另有深意的。
这个简单的规则没有考虑到当天买了后，又加入购物车的情况。不过也就只有8个。也有可能是之前加入购物车了，后来通过搜索就付款了，没有清空购物车。
"model 训练机器学习模型（暂时不分享）”作者的这段话的意思基本不明白，机器学习模型怎么才能和这个算法结合起来呢。。

PS：同样期望可以和作者在kaggle: diabetic retinopathy 问题上交流交流。

再次感谢wepe的分享，祝paper早日写成并顺利通过review。

Apr 14 '15 14:04 Riverwave

感谢你的留言！

1、有些地方对文件夹循环操作，频繁的打开和关闭，确实很耗时间。 2、gen_submission_by_rule.py中line 22-25 的确是多余的，早上我本来想删掉的.....不得不佩服你代码阅读的能力（你竟然能读懂这么乱的代码Orz）。。。后半句你又猜对了，确实是另有意义，是另外一些规则的代码，我删了一部分，忘了删掉这几句。 3、“当天买了后，又加入购物车的情况”，这个我没有统计，可能你说的是对的。 4、/model/文件夹下本来是放一些机器学习模型的代码的，不过目前效果不是很好，比赛也还在进行，就先不放上来了。训练模型还需要提取特征，需要另外的一些data preprocess的代码。 5、Kaggle糖尿病视网膜病变那个比赛，我打算暑假有空再搞了，有小伙伴在研究用CNN去做。

PS：我已经一个多星期没有碰阿里这个比赛了，只是昨天整理了一下代码，代码确实写得不好，望轻拍。

PSS：有朋友说代码跑了很久没出结果，我的PC是i7处理器，8核，跑的时候的确非常快。其他机子跑的时间可能就因性能而异了。

Apr 14 '15 15:04 wepe

嗯嗯，谢谢！回复一下3

3.“当天买了后，又加入购物车的情况”，考虑后木有一点点增益。。

PS：代码段的主要目的有注释，感觉还比较好读啦。

Apr 15 '15 14:04 Riverwave

AliTianChi AliTianChi copied to clipboard

小分享 & gen_submission_by_rule.py中line 22-25 怀疑冗余

AliTianChi
AliTianChi copied to clipboard