ttyuuuuuuuuuu issues

Results 4 issues of


                                            ttyuuuuuuuuuu

doccano_ext.json中的entities的id是怎么得来的，会影响doccano.py的运行结果吗

是这样的，我想用uie的模型对ccks的比赛数据（train.json，图右侧）做一个评估，想看下效果。我的切入点是把train.json的格式转为doccano_ext.json（图左侧）。（1）看到doccano_ext.json第一条数据，我以为entities的id是针对text从0开始计数： ![微信截图_20220524174008](https://user-images.githubusercontent.com/51437324/170018101-e364fdcf-015e-4f60-80c7-7f2caf5c611b.png) （2）但是第二、三、四。。条标注数据的entities id不是从0开始的，而且好像在递增： ![image](https://user-images.githubusercontent.com/51437324/170018560-9e13e75d-5b95-4c14-b12e-4e714eaa2821.png) （3）但是我发现对于“目的地”这个label来说，他的entity id有时候是一样的，有时候又是不一样的： ![image](https://user-images.githubusercontent.com/51437324/170018870-76f1eb3a-6f86-485b-87e4-23dc1c22a93d.png) 如果这个entity id的重要性是会影响到标注数据到训练数据的转换过程（doccano.py）的话，还麻烦大佬帮忙解答下orz......

emission.unsqueeze(2).expand(-1, -1, out_size, -1) + self.transition.unsqueeze(0)

数量少的时候相加正常得出结果，但是数量大的时候出现oom，这个时候batchsize已经调成2了，请问这个可以怎么解决？ ![a96a5e0798056440a9e99f14f137ee0](https://github.com/luopeixiang/named_entity_recognition/assets/51437324/1e15806b-3f80-4624-bf73-807a0a198c64) 数据集信息： ![image](https://github.com/luopeixiang/named_entity_recognition/assets/51437324/155be53d-59b6-4e23-ae40-6c945687fc1d) 服务器信息（0卡） ![image](https://github.com/luopeixiang/named_entity_recognition/assets/51437324/46563284-21cd-46fd-883a-5c8e302ab5a0)

可以提供一个requirements.txt吗

这些json都是怎么整理出来的呢

非结构化文档（比如pdf）是怎么整理成这些json呢，有没有代码，想参考下