data-group
data-group copied to clipboard
在做机器学习的过程中,拿到数据,确定了你要做的是分类还是回归,那么你经常还会基于什么来选择机器学习模型?
可能利用matplotlib画一些数据可视化的图, 通过data.describe()查看数据的一些指标,包括最大最小值,平均值,方差,判断数据是否需要标准化, 通过箱线图查看数据的一些分布,查看一些异常值,
还有加上前面一个问题,在什么样的条件下,判断需要加上一些特征的组合,再去尝试模型的效果是否有提升。
忘记了,还有特征的缺失值处理。 还有特征的重要度检查,利用皮尔森系数,或者是互信息