xia-zhenjun-tfs

Results 2 comments of xia-zhenjun-tfs

> 我的理解是layoutlm系列版本都是版式free的,如果每个版式都标注一些,效果应该会更好。 具体标注,如果是可解析文档,就直接在文档中插入批注,然后用工具解析出标注结果,如果是不可解析的文档,会直接转成图片后标注 好的多谢您的解答

> > 你好,请问一下数据具体怎么标注呢?可以交流学习一下吗? 外网有一个标注工具叫UBIAI,这个标注工具可以直接导出来训练模型所需的格式,但是它免费版本一个月好像最多标注5张,其他要付费,如果是个人研究的话 1:我是先用paddle_ocr对每一张PDF转PNG后进行解析,得到OCR后的json文件 2:后面用labelimg这个标注工具去标注需要抽取信息的类别(**导出的时候选择CreateML格式**)也是一个json文件 3:最后将这两个json文件进行匹配后得到新的有OCR解析和label的json文件 4:最后写代码转化为那种bioe的格式