xia-zhenjun-tfs comments

Results 2 comments of


                                            xia-zhenjun-tfs

数据集数量

> 我的理解是layoutlm系列版本都是版式free的，如果每个版式都标注一些，效果应该会更好。具体标注，如果是可解析文档，就直接在文档中插入批注，然后用工具解析出标注结果，如果是不可解析的文档，会直接转成图片后标注好的多谢您的解答

> > 你好，请问一下数据具体怎么标注呢？可以交流学习一下吗？外网有一个标注工具叫UBIAI,这个标注工具可以直接导出来训练模型所需的格式，但是它免费版本一个月好像最多标注5张，其他要付费，如果是个人研究的话 1：我是先用paddle_ocr对每一张PDF转PNG后进行解析，得到OCR后的json文件 2：后面用labelimg这个标注工具去标注需要抽取信息的类别（**导出的时候选择CreateML格式**）也是一个json文件 3：最后将这两个json文件进行匹配后得到新的有OCR解析和label的json文件 4：最后写代码转化为那种bioe的格式