PaddleNLP
PaddleNLP copied to clipboard
[Question]: DocVQA-ZH数据集的preprocess问题
中文字符token vs 句子分词token
请问,DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符(非句子在做分词),并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词,我想知道为什么?我看到其他例子,比如说application/下的智能文档对ocr结果就是先分行在拆分字符,在合并成完成句子,最后做分词。这两种处理方式(句子做分词vs直接用字符作为token)效果是一样的吗?为什么不用词的token而用字符token
中文字符token vs 句子分词token
请问,DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符(非句子在做分词),并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词,我想知道为什么?我看到其他例子,比如说application/下的智能文档对ocr结果就是先分行在拆分字符,在合并成完成句子,最后做分词。这两种处理方式(句子做分词vs直接用字符作为token)效果是一样的吗?为什么不用词的token而用字符token
效果是一样的哈,不用担心
中文字符token vs 句子分词token
请问,DocVQA-ZH的数据集的预处理 model_zoo/ernie-layout/utils.py/Precessor.py/preprocess_mrc中, DocVQA-ZH数据集的text是单个中文字符(非句子在做分词),并且上面提到的阅读理解的预处理preprocess_mrc也没有先合并句子在做分词,我想知道为什么?我看到其他例子,比如说application/下的智能文档对ocr结果就是先分行在拆分字符,在合并成完成句子,最后做分词。这两种处理方式(句子做分词vs直接用字符作为token)效果是一样的吗?为什么不用词的token而用字符token
效果是一样的哈,不用担心
如果处理效果一样,那确实字符token在构建数据集上会比较方便,对于跨行的token也比词的token要优秀。那很好啊
您好,DocVQA-ZH数据集官方的网盘链接失效了,请问您还有备份吗,如果有的话可以分享一下吗,谢谢您~