xusheng jie

Results 12 comments of xusheng jie

> 通过layoutlmv3_base_inference.yaml调优的空间比较小,比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件,但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升,可以尝试自己标注一批训练数据做微调,训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的,微调的训练数据不会公开。 好的我尝试一下,感谢您的回复!

> 通过layoutlmv3_base_inference.yaml调优的空间比较小,比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件,但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升,可以尝试自己标注一批训练数据做微调,训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的,微调的训练数据不会公开。 我调整了这些参数,还是会把整页pdf 只用一个框标起来。 ![image](https://github.com/user-attachments/assets/b7b52701-f784-4a08-81ec-11f367603cff)

> 这个PDF的底色(文字和图片下红色和绿色的色块)是因为已经用别的Layout模型跑过的吗?建议用原始的PDF跑模型,底色可能会对结果有影响。 我用的就是这个默认的layout模型,我把识别结果输出出来了

> 这个PDF的底色(文字和图片下红色和绿色的色块)是因为已经用别的Layout模型跑过的吗?建议用原始的PDF跑模型,底色可能会对结果有影响。 补充一下,我发现只要有图片超过pdf中线,就一定会把整页pdf识别成一整块。

> > > 通过layoutlmv3_base_inference.yaml调优的空间比较小,比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件,但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升,可以尝试自己标注一批训练数据做微调,训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的,微调的训练数据不会公开。 > > > > > > 我调整了这些参数,还是会把整页pdf 只用一个框标起来。 ![image](https://private-user-images.githubusercontent.com/69179496/355047177-b7b52701-f784-4a08-81ec-11f367603cff.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjI4NTAwNDEsIm5iZiI6MTcyMjg0OTc0MSwicGF0aCI6Ii82OTE3OTQ5Ni8zNTUwNDcxNzctYjdiNTI3MDEtZjc4NC00YTA4LTgxZWMtMTFmMzY3NjAzY2ZmLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA4MDUlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwODA1VDA5MjIyMVomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTYxZTA1NGE1OTlmOGY4ZmZhZmIzZTRhMmMyMjJkNWRiNjQyODU1MDE5YThlYjY4YzJhMjE2NDJkMjUxMDlkY2QmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.2LdPV8_q6aDeQ5_BBk3N7g3dKW4f5zWc-ox3_hQvfOw) > > 最外圈的大框是layout算法计算得出的结果,这页文档因为上下两栏宽度不一致,导致无法正常切分成两栏结构,模型识别的区块还是比较准的,不准的是后处理算法😂 所以问题是这个函数吗 ![01802F41](https://github.com/user-attachments/assets/de9ba81f-d870-4332-bdd6-c8282d919ba1) ![image](https://github.com/user-attachments/assets/b7981ea3-4f2e-4589-98c5-a23df3dd28c6)

> /magic_pdf/layout/layout_sort.py > split_layout 看起来好像只能识别最多两列pdf,三列好像不能识别,这个还有很多工作要做啊。能不能绘制box坐标的频率分布直方图,根据频率进行分栏。这样就不一定非要两栏宽度对齐,容许微小误差。

> 通过增加规则强化算法,对部分badcase可能会有一定的解析效果提升,但是很难通过单一的规则适配所有异形排版的版式结构,我们的todo有一条是训练一个layout排序的视觉模型,在泛化能力上预期会比单一的算法规则好一些。 期待您们的工作!

> 你这个是流程error了,切换到ocr是为了给数据生产兜底的,具体逻辑可以根据log提供的地址,自行查看源码 感谢您的回复,我发现即使是不太复杂的页面,布局识别仍不是很准。

> @wumaotegan Can you provide your pdfs to help us improve model. 文档处理流程报错的原因是threadpoolctl的版本不对,安装 threadpoolctl==3.1.0后解决了。 pdf文档不太方便提供,类似下面的页面,识别错误概率很大。 ![image](https://github.com/user-attachments/assets/0ee602dc-a957-416e-a20f-77f630c5d0a6) ![image](https://github.com/user-attachments/assets/76e3f3c1-d52d-4700-98d7-aaa2bb5bb3f6)