rain
                                            rain
                                        
                                    我也看到了这样的问题,文章的介绍和代码不一致 @qiufengyuyi
我的理解是layoutlm系列版本都是版式free的,如果每个版式都标注一些,效果应该会更好。 具体标注,如果是可解析文档,就直接在文档中插入批注,然后用工具解析出标注结果,如果是不可解析的文档,会直接转成图片后标注
数据处理或者数据管理可以参考这个文章:Glean: Structured Extractions from Templatic Documents
[LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding](https://arxiv.org/abs/2012.14740)
您好,你使用的是自己的数据吧,这种错误一般是数据处理的问题,跟模型无关。您可以再看下数据处理过程有没有问题
bug已修复
训练:没有答案的页可以采样一些,不需要全部放进去,包含答案的要全部保留 预测:所有页都要预测一遍,再综合一下结果
训练:没有答案的页可以采样一些,不需要全部放进去,包含答案的要全部保留 预测:所有页都要预测一遍,再综合一下结果
layoutXLM是把一页拆成了最大长度为512的片段,然后再合并结果