chinese-layoutlm-v2
chinese-layoutlm-v2 copied to clipboard
数据集数量
您好,我在使用layoutlmv3模型抽取一些英文发票信息,但是有很多家厂商的发票基本都版式不一样,我想请教您一下大概我每一个厂商需要标注多少张发票呀
您好,请问一下数据具体怎么标注呢?可以交流学习一下吗?
我的理解是layoutlm系列版本都是版式free的,如果每个版式都标注一些,效果应该会更好。 具体标注,如果是可解析文档,就直接在文档中插入批注,然后用工具解析出标注结果,如果是不可解析的文档,会直接转成图片后标注
我的理解是layoutlm系列版本都是版式free的,如果每个版式都标注一些,效果应该会更好。 具体标注,如果是可解析文档,就直接在文档中插入批注,然后用工具解析出标注结果,如果是不可解析的文档,会直接转成图片后标注
好的多谢您的解答
你好,请问一下数据具体怎么标注呢?可以交流学习一下吗?
外网有一个标注工具叫UBIAI,这个标注工具可以直接导出来训练模型所需的格式,但是它免费版本一个月好像最多标注5张,其他要付费,如果是个人研究的话 1:我是先用paddle_ocr对每一张PDF转PNG后进行解析,得到OCR后的json文件 2:后面用labelimg这个标注工具去标注需要抽取信息的类别(导出的时候选择CreateML格式)也是一个json文件 3:最后将这两个json文件进行匹配后得到新的有OCR解析和label的json文件 4:最后写代码转化为那种bioe的格式
数据处理或者数据管理可以参考这个文章:Glean: Structured Extractions from Templatic Documents
非常感谢您的提示
---原始邮件--- 发件人: @.> 发送时间: 2022年9月19日(周一) 上午10:12 收件人: @.>; 抄送: @.@.>; 主题: Re: [xueyongfu/chinese-layoutlm-v2] 数据集数量 (Issue #5)
数据处理或者数据管理可以参考这个文章:Glean: Structured Extractions from Templatic Documents
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>