在数据探索过程中发现训练集合中对于文档存在两个命名相同的特征列' Displayed Count', 在数据集合的网页的列名解释中也发现了'Displayed Count'这一特征出现了两次,实际检查特征对应的值时确发现这两列的数值并不完全一致,请问是什么造成了这样的现象呢,或者说应该以哪一列的数值为准. 以下是part-00001.gz 的结果展示
以左边数值较大的为准。