PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

[Question]: DocVQA-ZH数据集的preprocess问题

Open hehuang139 opened this issue 2 years ago • 2 comments

中文字符token vs 句子分词token

请问,DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符(非句子在做分词),并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词,我想知道为什么?我看到其他例子,比如说application/下的智能文档对ocr结果就是先分行在拆分字符,在合并成完成句子,最后做分词。这两种处理方式(句子做分词vs直接用字符作为token)效果是一样的吗?为什么不用词的token而用字符token

hehuang139 avatar Oct 26 '22 03:10 hehuang139

中文字符token vs 句子分词token

请问,DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符(非句子在做分词),并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词,我想知道为什么?我看到其他例子,比如说application/下的智能文档对ocr结果就是先分行在拆分字符,在合并成完成句子,最后做分词。这两种处理方式(句子做分词vs直接用字符作为token)效果是一样的吗?为什么不用词的token而用字符token

效果是一样的哈,不用担心

paulpaul91 avatar Oct 26 '22 03:10 paulpaul91

中文字符token vs 句子分词token

请问,DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符(非句子在做分词),并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词,我想知道为什么?我看到其他例子,比如说application/下的智能文档对ocr结果就是先分行在拆分字符,在合并成完成句子,最后做分词。这两种处理方式(句子做分词vs直接用字符作为token)效果是一样的吗?为什么不用词的token而用字符token

效果是一样的哈,不用担心

如果处理效果一样,那确实字符token在构建数据集上会比较方便,对于跨行的token也比词的token要优秀。那很好啊

hehuang139 avatar Oct 26 '22 03:10 hehuang139

您好,DocVQA-ZH数据集官方的网盘链接失效了,请问您还有备份吗,如果有的话可以分享一下吗,谢谢您~

Randy1009 avatar Jul 24 '23 03:07 Randy1009