ttyuuuuuuuuuu

Results 4 issues of ttyuuuuuuuuuu

是这样的,我想用uie的模型对ccks的比赛数据(train.json,图右侧)做一个评估,想看下效果。我的切入点是把train.json的格式转为doccano_ext.json(图左侧)。 (1)看到doccano_ext.json第一条数据,我以为entities的id是针对text从0开始计数: ![微信截图_20220524174008](https://user-images.githubusercontent.com/51437324/170018101-e364fdcf-015e-4f60-80c7-7f2caf5c611b.png) (2)但是第二、三、四。。条标注数据的entities id不是从0开始的,而且好像在递增: ![image](https://user-images.githubusercontent.com/51437324/170018560-9e13e75d-5b95-4c14-b12e-4e714eaa2821.png) (3)但是我发现对于“目的地”这个label来说,他的entity id有时候是一样的,有时候又是不一样的: ![image](https://user-images.githubusercontent.com/51437324/170018870-76f1eb3a-6f86-485b-87e4-23dc1c22a93d.png) 如果这个entity id的重要性是会影响到标注数据到训练数据的转换过程(doccano.py)的话,还麻烦大佬帮忙解答下orz......

数量少的时候相加正常得出结果,但是数量大的时候出现oom,这个时候batchsize已经调成2了,请问这个可以怎么解决? ![a96a5e0798056440a9e99f14f137ee0](https://github.com/luopeixiang/named_entity_recognition/assets/51437324/1e15806b-3f80-4624-bf73-807a0a198c64) 数据集信息: ![image](https://github.com/luopeixiang/named_entity_recognition/assets/51437324/155be53d-59b6-4e23-ae40-6c945687fc1d) 服务器信息(0卡) ![image](https://github.com/luopeixiang/named_entity_recognition/assets/51437324/46563284-21cd-46fd-883a-5c8e302ab5a0)

非结构化文档(比如pdf)是怎么整理成这些json呢,有没有代码,想参考下