Randolph

Results 20 comments of Randolph

@ft3020997 doc 由 sentence 组成,sentence 由 word 组成,先得到长文本的各个分词词向量,堆叠形成的矩阵就是 doc 文档的向量化表征。具体流程也很简单,长文本里面先进行分词,其中包括去除停用词操作,然后会得到每个长文本记录对应的分词。这个分词就是 `feature_content` 的内容,之后训练模型的时候,通过 load 你训练好的词向量表就可以得到这个长文本的文档向量了。

@ft3020997 听你的说法,是要区别对待每个句子,这样有两个做法: - 在 sentence 之间加标志符,形成 `feature_content: [word1, wor2, ..., , word1, word2, ..., , ...]`,之后要针对的 进行处理,处理方法可以是一个句子形成一个句向量,长文本包含多个句子,就有多个长短不一的句向量堆叠。 - 上面的做法缺点很明显,不同的长文本的句子数量不一定,并且每个句子的单词个数不一定,所以通常做之前还会 padding,例如会规定每个长文本的最大句子数量是多少,一个句子的最大长度是多少,超过截取,不足补零。形成的数据可以是 `feature_content: [word1, wor2, ..., , word1, word2, ..., , ...]`,也可以是...

@327850200 可以参考我的这个项目下 Issues 中的一个问题 https://github.com/RandolphVI/Multi-Label-Text-Classification/issues/12 已经在里面作了回答,希望能帮到你

@christianahui 抱歉过了这么久才回复。 可以的,因为本身 Multi-label Classification 任务就是处理文本可能对应一个或多个的属性标签。 每个样本的 `labels_num` 本身可能就不一样,可以参考 `/data` 文件夹下的 data sample 的 format。 项目的代码是可以处理上述情况的。

@JiaWenqi 其他的评估方法当然是可以,只是主流的 Multi-Label Classification 任务的评估方法就是我使用的那几项。根据你任务的定义,需要参考一下其他人论文中与你类似任务中的评价指标的选取(特别是你是想写论文的话),可以更改成你提到的那些方法。

@JiaWenqi 不同评估方法侧重评价模型的性能不一样。 一般而言,如果是 Multi-Label Classification 任务,主流用到的就是: 1. threshold 相关,包括 Precision、Recall 以及 F1 三个主流指标 2. threshold 非相关,包括 AUC 与 PRC 3. Top-K 相关,就是 ranking 的评价方法,包括 Precision@K、Recall@K 以及 F1@K 视实际生产业务需求定吧。

@JiaWenqi 第一第三点理解正确。 第二点非 threshold 相关,是这样的。因为如果采用 threshold 阈值相关的评价指标的话,其最终指标结果是受人工阈值选取的影响,例如选取 threshold 为 0.4 与 0.5,其指标的结果就会不同。因此为了避免这种人工阈值选取的影响,像 AUC 和 PRC 这种评价指标就可以用来表示模型整体在 Precision 和 Recall 的表现。拿 PRC 举例,就是通过绘制 Precision-Recall 的曲线来计算曲线下的面积。网上有挺多 AUC 和 PRC 相关的资料与介绍,可以去了解一下。

@JiaWenqi 首先你要明确自己要做什么样的任务,是要预测全部层级的所有标签还是就单单预测最 general 那层的标签。根据你任务的不同,就涉及到了是做 Extreme Multi-Label (涉及每一层级标签数量很多)还是 Hierarchical Multi-Label (涉及层级联系)问题。 每个层级标签都有热门标签和冷门标签,初步想到的做法有: 1. 下采样删去一些含有热门标签的数据进行数据平衡 2. 如果冷门标签很少,则可以将好几个冷门标签都 group 成一个标签。 3. 扩展你的数据(最暴力最有效的做法) 拆开每一层来讲,都是一个 flatten 的 Multi-Label 问题,关于类别不均衡问题,更多的做法可以参考 09 年 IEEE 的一篇文章 《Learning from...

@JiaWenqi 个人觉得和你总体数据量大小挂钩。 如果数据量大概在十万以内,按照个人经验而言,你这样的比例应该差不多。

@midiexianghhh 当时这个 repo 和博客文章都属于没写完的半吊子成品,后来博客做了更新,之前的有关这篇工作的博客也删除了,如果实在感兴趣可以留个邮箱我私发你(也是半成品的 pdf)。