Hierarchical-Multi-Label-Text-Classification
Hierarchical-Multi-Label-Text-Classification copied to clipboard
关于专利数据集的问题
老师,您好: 专利数据集中,数据集的标签与原始专利数据的对应关系是什么?USPTO网站给出了以下四种专利分类方式(以Test.json文件中"id":"5973818"的专利为例),但似乎都和标签对应不上。
- Current U.S. Class: | 359/265; 351/44; 359/267; 359/275
- Current CPC Class: | G02F 1/163 (20130101)
- Current International Class: | G02F 1/01 (20060101); G02F 1/163 (20060101); G02F 001/15 (); G02F001/153 (); G02F 001/163 ()
- Field of Search: | ;359/265,267,275 ;345/239,105 ;351/44,45 谢谢您的解答!
@BowenMu 抱歉回复晚了,数据集应该是用的 CPC 的,关于数据集标签喝原始专利数据的对应不上。原因有那么几个:
- U.S CPC 专利的标签和层级结构每年都是在变动,经常会删除和合并一些旧类别,新增一些新类别。
- 我自己使用的 CPC 专利数据集是我们实验室当时前几年爬取的,之前是经过师兄师姐处理过后的标签(删除了个别样例可能很少的类别,具体的预先处理过程无法追溯了),自然会导致与 USPTO 官网产生区别。
- 最重要的一个原因,Github 项目上面的专利数据所对应的 label 是我自己重新 index 之后的(我自己维护了新的 idx2label 的dict,为了脱敏没有传到 repo 上面),跟 USPTO 官网上肯定是对不上的。
好的,谢谢您的回复