xusheng jie
xusheng jie
> 通过layoutlmv3_base_inference.yaml调优的空间比较小,比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件,但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升,可以尝试自己标注一批训练数据做微调,训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的,微调的训练数据不会公开。 好的我尝试一下,感谢您的回复!
> 通过layoutlmv3_base_inference.yaml调优的空间比较小,比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件,但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升,可以尝试自己标注一批训练数据做微调,训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的,微调的训练数据不会公开。 我调整了这些参数,还是会把整页pdf 只用一个框标起来。 
> 这个PDF的底色(文字和图片下红色和绿色的色块)是因为已经用别的Layout模型跑过的吗?建议用原始的PDF跑模型,底色可能会对结果有影响。 我用的就是这个默认的layout模型,我把识别结果输出出来了
> 这个PDF的底色(文字和图片下红色和绿色的色块)是因为已经用别的Layout模型跑过的吗?建议用原始的PDF跑模型,底色可能会对结果有影响。 补充一下,我发现只要有图片超过pdf中线,就一定会把整页pdf识别成一整块。
> > > 通过layoutlmv3_base_inference.yaml调优的空间比较小,比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件,但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升,可以尝试自己标注一批训练数据做微调,训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的,微调的训练数据不会公开。 > > > > > > 我调整了这些参数,还是会把整页pdf 只用一个框标起来。  > > 最外圈的大框是layout算法计算得出的结果,这页文档因为上下两栏宽度不一致,导致无法正常切分成两栏结构,模型识别的区块还是比较准的,不准的是后处理算法😂 所以问题是这个函数吗  
> /magic_pdf/layout/layout_sort.py > split_layout 看起来好像只能识别最多两列pdf,三列好像不能识别,这个还有很多工作要做啊。能不能绘制box坐标的频率分布直方图,根据频率进行分栏。这样就不一定非要两栏宽度对齐,容许微小误差。
> 通过增加规则强化算法,对部分badcase可能会有一定的解析效果提升,但是很难通过单一的规则适配所有异形排版的版式结构,我们的todo有一条是训练一个layout排序的视觉模型,在泛化能力上预期会比单一的算法规则好一些。 期待您们的工作!
> 你这个是流程error了,切换到ocr是为了给数据生产兜底的,具体逻辑可以根据log提供的地址,自行查看源码 感谢您的回复,我发现即使是不太复杂的页面,布局识别仍不是很准。
> @wumaotegan Can you provide your pdfs to help us improve model. 文档处理流程报错的原因是threadpoolctl的版本不对,安装 threadpoolctl==3.1.0后解决了。 pdf文档不太方便提供,类似下面的页面,识别错误概率很大。  