DocDiff 增加有更多噪声的数据集

增加有更多噪声的数据集

Open Yikai-Liao opened this issue 7 months ago • 5 comments

这个开源项目提供了一些生成噪声的预处理流程。 https://github.com/sparkfish/shabby-pages 他提供了一个pipeline，用于合成各种噪声的图片。

Nov 15 '23 03:11 Yikai-Liao

另外，我觉得，除了添加噪声来构建降噪数据集，还可以构建一些被暴力二极化的图片作为输入，我经常会在一些PDF扫描版教材上见到这种情况。如果只是一些噪声加旋转的话，用传统算法手动调参也可以得到不错的降噪效果，但是那些暴力二字化图片儿，会有一些文字的笔画直接断掉，传统算法就恢复不了了。如果能处理这种问题的话，我觉得会更有意义。

Nov 15 '23 03:11 Yikai-Liao

这个开源项目提供了一些生成噪声的预处理流程。 https://github.com/sparkfish/shabby-pages 他提供了一个pipeline，用于合成各种噪声的图片。

好的，我了解一下

Nov 15 '23 12:11 Royalvice

另外，我觉得，除了添加噪声来构建降噪数据集，还可以构建一些被暴力二极化的图片作为输入，我经常会在一些PDF扫描版教材上见到这种情况。如果只是一些噪声加旋转的话，用传统算法手动调参也可以得到不错的降噪效果，但是那些暴力二字化图片儿，会有一些文字的笔画直接断掉，传统算法就恢复不了了。如果能处理这种问题的话，我觉得会更有意义。

你说的没错，不过这种问题必然要通过多模态的模型解决，因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

Nov 15 '23 12:11 Royalvice

另外，我觉得，除了添加噪声来构建降噪数据集，还可以构建一些被暴力二极化的图片作为输入，我经常会在一些PDF扫描版教材上见到这种情况。如果只是一些噪声加旋转的话，用传统算法手动调参也可以得到不错的降噪效果，但是那些暴力二字化图片儿，会有一些文字的笔画直接断掉，传统算法就恢复不了了。如果能处理这种问题的话，我觉得会更有意义。

你说的没错，不过这种问题必然要通过多模态的模型解决，因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

这种情况是不是与仓库节目修复出therofore的情况类似，都需要多模态能力

Nov 15 '23 12:11 Yikai-Liao

另外，我觉得，除了添加噪声来构建降噪数据集，还可以构建一些被暴力二极化的图片作为输入，我经常会在一些PDF扫描版教材上见到这种情况。如果只是一些噪声加旋转的话，用传统算法手动调参也可以得到不错的降噪效果，但是那些暴力二字化图片儿，会有一些文字的笔画直接断掉，传统算法就恢复不了了。如果能处理这种问题的话，我觉得会更有意义。

你说的没错，不过这种问题必然要通过多模态的模型解决，因为要有zero-shot能力。单靠视觉特征肯定不行。后续我会考虑构建一个多模态模型。

这种情况是不是与仓库节目修复出therofore的情况类似，都需要多模态能力

是的，本质上DocDiff不理解这个Therefore的含义，仅仅根据视觉特征进行还原。加入Text Prior效果会好很多

Nov 15 '23 12:11 Royalvice

DocDiff DocDiff copied to clipboard

增加有更多噪声的数据集

DocDiff
DocDiff copied to clipboard