jiawenqi comments

Results 5 comments of


                                            jiawenqi

请问怎么对日期时间类词进行准确分词

@sugarZ，请问lcut可以将“2017年”分词到一起吗，貌似我这边是“2017”，“年”

输入文件的格式是什么样子的？

@RandolphVI 请问 feature_content这个字段是分完词的结果，还是分完词后去除停用词后的结果？如果文章的词数很多，比如在2000以上的话，都要保留这么多词吗？如果用不到这么多词的话，是不是不用保留这么多数量的词，训练的时候对每个doc中的词的数量是不是有数量限制？

采取何种评估方法最能评估一个模型的好坏？

^_^，不写paper，要用到生产中，比如新用一个模型，想通过一些切实的评估指标来评估这个模型是否比之前的要好？

采取何种评估方法最能评估一个模型的好坏？

:thumbsup: 总结的真心好，不过我不清楚我理解的是否正确，请@RandolphVI帮忙看： 1）threshold 相关是不是就是**最后某些类别的概率如果大于某个阈值的话**，那么这些类别就是预测出的标签结果？ 2）那threshold 非相关呢，这种的预测结果是怎么得到的？ 3）Top-K的话，是不是就是最后结果按照每个类别的概率从大到小排序，取Top-K的结果？

如何解决类别不均衡的问题？

恩，我目前采取的方式就是，先统计所有数据的标签分布，然后将这些标签按照doc的数量分区间来做，doc数量少的标签区间对应的doc，会全部取；doc数量多的标签区间对应的doc会采样一部分，最后的结果，热门标签的数量在万级别和千级别的数量级，冷门标签数量在百级别数量级（有些冷门标签对应的doc数量总共也就100多）。不知道这样数量比例是否合适？