PaddleNLP [Question]: DocVQA-ZH数据集的preprocess问题

中文字符token vs 句子分词token

请问，DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符（非句子在做分词），并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词，我想知道为什么？我看到其他例子，比如说application/下的智能文档对ocr结果就是先分行在拆分字符，在合并成完成句子，最后做分词。这两种处理方式（句子做分词vs直接用字符作为token）效果是一样的吗？为什么不用词的token而用字符token

Oct 26 '22 03:10 hehuang139

中文字符token vs 句子分词token

请问，DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符（非句子在做分词），并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词，我想知道为什么？我看到其他例子，比如说application/下的智能文档对ocr结果就是先分行在拆分字符，在合并成完成句子，最后做分词。这两种处理方式（句子做分词vs直接用字符作为token）效果是一样的吗？为什么不用词的token而用字符token

效果是一样的哈，不用担心

Oct 26 '22 03:10 paulpaul91

中文字符token vs 句子分词token

请问，DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符（非句子在做分词），并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词，我想知道为什么？我看到其他例子，比如说application/下的智能文档对ocr结果就是先分行在拆分字符，在合并成完成句子，最后做分词。这两种处理方式（句子做分词vs直接用字符作为token）效果是一样的吗？为什么不用词的token而用字符token

效果是一样的哈，不用担心

如果处理效果一样，那确实字符token在构建数据集上会比较方便，对于跨行的token也比词的token要优秀。那很好啊

Oct 26 '22 03:10 hehuang139

您好，DocVQA-ZH数据集官方的网盘链接失效了，请问您还有备份吗，如果有的话可以分享一下吗，谢谢您~

Jul 24 '23 03:07 Randy1009

PaddleNLP PaddleNLP copied to clipboard

[Question]: DocVQA-ZH数据集的preprocess问题

中文字符token vs 句子分词token

中文字符token vs 句子分词token

中文字符token vs 句子分词token

PaddleNLP
PaddleNLP copied to clipboard