DocDiff icon indicating copy to clipboard operation
DocDiff copied to clipboard

增加有更多噪声的数据集

Open Yikai-Liao opened this issue 7 months ago • 5 comments

这个开源项目提供了一些生成噪声的预处理流程。 https://github.com/sparkfish/shabby-pages 他提供了一个pipeline,用于合成各种噪声的图片。 Article_Hero_Picture_Shadow.png

Yikai-Liao avatar Nov 15 '23 03:11 Yikai-Liao

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

Yikai-Liao avatar Nov 15 '23 03:11 Yikai-Liao

这个开源项目提供了一些生成噪声的预处理流程。 https://github.com/sparkfish/shabby-pages 他提供了一个pipeline,用于合成各种噪声的图片。 Article_Hero_Picture_Shadow.png

好的,我了解一下

Royalvice avatar Nov 15 '23 12:11 Royalvice

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

你说的没错,不过这种问题必然要通过多模态的模型解决,因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

Royalvice avatar Nov 15 '23 12:11 Royalvice

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

你说的没错,不过这种问题必然要通过多模态的模型解决,因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

这种情况是不是与仓库节目修复出therofore的情况类似,都需要多模态能力

Yikai-Liao avatar Nov 15 '23 12:11 Yikai-Liao

另外,我觉得,除了添加噪声来构建降噪数据集,还可以构建一些被暴力二极化的图片作为输入,我经常会在一些PDF扫描版教材上见到这种情况。 如果只是一些噪声加旋转的话,用传统算法手动调参也可以得到不错的降噪效果,但是那些暴力二字化图片儿,会有一些文字的笔画直接断掉,传统算法就恢复不了了。如果能处理这种问题的话,我觉得会更有意义。

你说的没错,不过这种问题必然要通过多模态的模型解决,因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

这种情况是不是与仓库节目修复出therofore的情况类似,都需要多模态能力

是的,本质上DocDiff不理解这个Therefore的含义,仅仅根据视觉特征进行还原。加入Text Prior效果会好很多

Royalvice avatar Nov 15 '23 12:11 Royalvice