Hierarchical-Multi-Label-Text-Classification icon indicating copy to clipboard operation
Hierarchical-Multi-Label-Text-Classification copied to clipboard

关于专利数据集的问题

Open BowenMu opened this issue 4 years ago • 2 comments

老师,您好: 专利数据集中,数据集的标签与原始专利数据的对应关系是什么?USPTO网站给出了以下四种专利分类方式(以Test.json文件中"id":"5973818"的专利为例),但似乎都和标签对应不上。

  1. Current U.S. Class: | 359/265; 351/44; 359/267; 359/275
  2. Current CPC Class: | G02F 1/163 (20130101)
  3. Current International Class: | G02F 1/01 (20060101); G02F 1/163 (20060101); G02F 001/15 (); G02F001/153 (); G02F 001/163 ()
  4. Field of Search: | ;359/265,267,275 ;345/239,105 ;351/44,45 谢谢您的解答!

BowenMu avatar Jun 07 '21 01:06 BowenMu

@BowenMu 抱歉回复晚了,数据集应该是用的 CPC 的,关于数据集标签喝原始专利数据的对应不上。原因有那么几个:

  1. U.S CPC 专利的标签和层级结构每年都是在变动,经常会删除和合并一些旧类别,新增一些新类别。
  2. 我自己使用的 CPC 专利数据集是我们实验室当时前几年爬取的,之前是经过师兄师姐处理过后的标签(删除了个别样例可能很少的类别,具体的预先处理过程无法追溯了),自然会导致与 USPTO 官网产生区别。
  3. 最重要的一个原因,Github 项目上面的专利数据所对应的 label 是我自己重新 index 之后的(我自己维护了新的 idx2label 的dict,为了脱敏没有传到 repo 上面),跟 USPTO 官网上肯定是对不上的。

RandolphVI avatar Apr 09 '22 12:04 RandolphVI

好的,谢谢您的回复

BowenMu avatar Apr 10 '22 07:04 BowenMu