zhaoxingfeng
zhaoxingfeng
你说的score是accuracy_score吗
核对一下你的代码,如果用的是sklearn中的接口 不会出现负数的情况
你设置的参数问题很大。 n_estimators:一棵决策树不够,设置10以上; min_samples_split:建议设置1/10*len(df) min_samples_leaf:建议设置1/40*len(df) colsample_bytree:可取[sqrt、log2]
麻烦发一下样本集。
1、我看了你邮件发我的数据,对前70个特征分别画了label=0/1的分布,下图是前60个特征,分布非常接近 说明特征几乎没有区分度。 2、我用sklearn的随机森林测试,只设置n_estimators=100,训练集acc
@SihanMA 用的是seaborn可视化库
这是个简单版的RF实现,是为了辅助理解算法思想,所以没有做什么优化,可以考虑在选择最优分裂特征和分裂点的时候采用多进程、c++重写等。
联系方式发我邮箱吧
详见https://archive.ics.uci.edu/ml/machine-learning-databases/housing/,housing.names里边有字段详细解释
这些代码是针对python2.7写的,python3不保证有没有问题。你的环境是python3吗