jiawenqi

Results 5 comments of jiawenqi

@sugarZ,请问lcut可以将“2017年”分词到一起吗,貌似我这边是“2017”,“年”

@RandolphVI 请问 feature_content这个字段是分完词的结果,还是分完词后去除停用词后的结果?如果文章的词数很多,比如在2000以上的话,都要保留这么多词吗?如果用不到这么多词的话,是不是不用保留这么多数量的词,训练的时候对每个doc中的词的数量是不是有数量限制?

^_^,不写paper,要用到生产中,比如新用一个模型,想通过一些切实的评估指标来评估这个模型是否比之前的要好?

:thumbsup: 总结的真心好,不过我不清楚我理解的是否正确,请@RandolphVI帮忙看: 1)threshold 相关 是不是就是**最后某些类别的概率如果大于某个阈值的话**,那么这些类别就是预测出的标签结果? 2)那threshold 非相关呢,这种的预测结果是怎么得到的? 3)Top-K的话,是不是就是最后结果按照每个类别的概率从大到小排序,取Top-K的结果?

恩,我目前采取的方式就是,先统计所有数据的标签分布,然后将这些标签按照doc的数量分区间来做,doc数量少的标签区间对应的doc,会全部取;doc数量多的标签区间对应的doc会采样一部分,最后的结果,热门标签的数量在万级别和千级别的数量级,冷门标签数量在百级别数量级(有些冷门标签对应的doc数量总共也就100多)。不知道这样数量比例是否合适?