CDLA issues

关于项目license

- 你好，感谢您们开源的中文文档版面分析数据集，方便的话，可否为这个项目添加一个license。 - 添加license的话，会更踏实一些。希望是Apache 2.0，🙏

中文版面分析训练

3

你好，非常感谢您的数据开源，我在用paddle训练时，出现这个问题，not found any coco record in dataset/ch_structure/train.json，好像是格式不对应 coco? 还得您帮忙分析一下，谢谢

world2025

讨论下map 0.74

4

转coco格式，使用paddledetection训练，eval的map[0.5:0.95] 刷到0.74，但把eval的结果导出来后发现：有一些预测框会框多或框少一点。看看还有什么改进空间，有小伙伴一起讨论交流吗？

Paul0M

是否有人用layoutlmv3训练CDLA的可以相互交流，正在踩坑中

codeman008

Identity images in dataset. 重复的图片。虽然没啥影响但是发现了，分享给各位

There were 35 repetitions of 17 pairs of images in the training set and 28 repetitions of 14 pairs of images in the test set. 在训练集中有35张共17组图片重复，在测试集中有28张共14组图片重复。 **Train** SHA-256哈希值为 0458d737cb0deb0889de5e4cac51bf7b8820b0fdc74aaaefdba2d9c1ac1d1992 的文件:...

saltfish-len

托管到Hugging Face

4

感谢作者工作！由于最近也在做相关方面工作，顺手将该数据集托管到了Hugging Face，便于大家后续使用吧详情参见: https://huggingface.co/datasets/SWHL/CDLA 使用方式为： ```python from datasets import load_dataset dataset = load_dataset("SWHL/CDLA") train_data = dataset["train"] print(train_data[0]) val_data = dataset["validation"] print(val_data[0]) # {'image': , # 'version': '4.5.6', 'flags': {},...

SWHL

CDLA
CDLA copied to clipboard

Metadata

关于项目license

预训练模型

能提供 PDF 原件吗？

中文版面分析训练

讨论下map 0.74

十分感谢！！

是否有人用layoutlmv3训练CDLA的可以相互交流，正在踩坑中

请问版面分析模型用的是？

Identity images in dataset. 重复的图片。虽然没啥影响但是发现了，分享给各位

托管到Hugging Face

← Metadata

Owner

Metadata

CDLA CDLA copied to clipboard

Metadata

← Metadata

Owner

Metadata

CDLA
CDLA copied to clipboard