xusheng jie comments

Results 12 comments of


                                            xusheng jie

qwen3:30b-a3b SFT with lora-rank as 16 is very very slow

一样的问题

布局识别参数自定义

> 通过layoutlmv3_base_inference.yaml调优的空间比较小，比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件，但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升，可以尝试自己标注一批训练数据做微调，训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的，微调的训练数据不会公开。好的我尝试一下，感谢您的回复！

布局识别参数自定义

> 这个PDF的底色（文字和图片下红色和绿色的色块）是因为已经用别的Layout模型跑过的吗？建议用原始的PDF跑模型，底色可能会对结果有影响。我用的就是这个默认的layout模型，我把识别结果输出出来了

布局识别参数自定义

> 这个PDF的底色（文字和图片下红色和绿色的色块）是因为已经用别的Layout模型跑过的吗？建议用原始的PDF跑模型，底色可能会对结果有影响。补充一下，我发现只要有图片超过pdf中线，就一定会把整页pdf识别成一整块。

布局识别参数自定义

> > > 通过layoutlmv3_base_inference.yaml调优的空间比较小，比如你可以通过一些阈值比如ROI_HEADS里的NMS_THRESH_TEST和SCORE_THRESH_TEST等来调整框被筛除的条件，但这个并不一定能保证精度的提升。如果希望精度在你的数据上有显著提升，可以尝试自己标注一批训练数据做微调，训练代码用的是LayoutLmv3的[object Detection](https://github.com/microsoft/unilm/tree/master/layoutlmv3/examples/object_detection)部分。目前我们提供的LayoutLmv3的权重是基于[microsoft/layoutlmv3-base-chinese](https://huggingface.co/microsoft/layoutlmv3-base-chinese)的pretrain模型基础上微调的，微调的训练数据不会公开。 > > > > > > 我调整了这些参数，还是会把整页pdf 只用一个框标起来。 ![image](https://private-user-images.githubusercontent.com/69179496/355047177-b7b52701-f784-4a08-81ec-11f367603cff.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MjI4NTAwNDEsIm5iZiI6MTcyMjg0OTc0MSwicGF0aCI6Ii82OTE3OTQ5Ni8zNTUwNDcxNzctYjdiNTI3MDEtZjc4NC00YTA4LTgxZWMtMTFmMzY3NjAzY2ZmLnBuZz9YLUFtei1BbGdvcml0aG09QVdTNC1ITUFDLVNIQTI1NiZYLUFtei1DcmVkZW50aWFsPUFLSUFWQ09EWUxTQTUzUFFLNFpBJTJGMjAyNDA4MDUlMkZ1cy1lYXN0LTElMkZzMyUyRmF3czRfcmVxdWVzdCZYLUFtei1EYXRlPTIwMjQwODA1VDA5MjIyMVomWC1BbXotRXhwaXJlcz0zMDAmWC1BbXotU2lnbmF0dXJlPTYxZTA1NGE1OTlmOGY4ZmZhZmIzZTRhMmMyMjJkNWRiNjQyODU1MDE5YThlYjY4YzJhMjE2NDJkMjUxMDlkY2QmWC1BbXotU2lnbmVkSGVhZGVycz1ob3N0JmFjdG9yX2lkPTAma2V5X2lkPTAmcmVwb19pZD0wIn0.2LdPV8_q6aDeQ5_BBk3N7g3dKW4f5zWc-ox3_hQvfOw) > > 最外圈的大框是layout算法计算得出的结果，这页文档因为上下两栏宽度不一致，导致无法正常切分成两栏结构，模型识别的区块还是比较准的，不准的是后处理算法😂 所以问题是这个函数吗 ![01802F41](https://github.com/user-attachments/assets/de9ba81f-d870-4332-bdd6-c8282d919ba1) ![image](https://github.com/user-attachments/assets/b7981ea3-4f2e-4589-98c5-a23df3dd28c6)

布局识别参数自定义

> /magic_pdf/layout/layout_sort.py > split_layout 看起来好像只能识别最多两列pdf，三列好像不能识别，这个还有很多工作要做啊。能不能绘制box坐标的频率分布直方图，根据频率进行分栏。这样就不一定非要两栏宽度对齐，容许微小误差。

布局识别参数自定义

> 通过增加规则强化算法，对部分badcase可能会有一定的解析效果提升，但是很难通过单一的规则适配所有异形排版的版式结构，我们的todo有一条是训练一个layout排序的视觉模型，在泛化能力上预期会比单一的算法规则好一些。期待您们的工作！

AUTO模式的逻辑是什么？

> 你这个是流程error了，切换到ocr是为了给数据生产兜底的，具体逻辑可以根据log提供的地址，自行查看源码感谢您的回复，我发现即使是不太复杂的页面，布局识别仍不是很准。

AUTO模式的逻辑是什么？

> @wumaotegan Can you provide your pdfs to help us improve model. 文档处理流程报错的原因是threadpoolctl的版本不对，安装 threadpoolctl==3.1.0后解决了。 pdf文档不太方便提供，类似下面的页面，识别错误概率很大。 ![image](https://github.com/user-attachments/assets/0ee602dc-a957-416e-a20f-77f630c5d0a6) ![image](https://github.com/user-attachments/assets/76e3f3c1-d52d-4700-98d7-aaa2bb5bb3f6)