open-research
open-research copied to clipboard
[Research] 关于实现 OpenDigger 自动化多层标签分类的研究进展跟踪
该工作首先是支撑OpenDigger项目本身,GitHub每年都会有大量热门仓库的创建,然而每次OpenDigger中的仓库标签大多数均由人工给出,耗时耗力
其次是为了支持蚂蚁开源办公室夏博士的工作
多层次标签分类在自然语言处理中算是比较难的一个分类任务,英文为Hierarchical Text Classification或者 Hierarchical-Multilabel-Text-Classification,分类结构参考如下:
我们自己的标签体系也是一个树状的结构,例如,root下面有AI database fronted 等等,database下面又有key-value, time-series等等,我们现在希望当输入一个仓库的一些描述信息时,可以直接自动分类。
那么现在的问题就是我们需要自己有一套标签体系,然后再通过使用合理的方法对其进行分类。