PaddleNLP
PaddleNLP copied to clipboard
分词能不能加速?
请提出你的问题
paddleNLP的分词(默认模式和加速模式)效果不错。 但即使用上GPU,即使采用批量模式,还是太慢。 ai studio 上V100 三个小时,才处理100W。 现在有3000w需要分词。 有什么加速的办法?
建议使用cpu多线程处理。
@ZHUI 不用GPU?
我自己做过预训练数据处理,https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-1.0/preprocess
ernie-1.0 先分词 然后 mask 训练。实际情况是同时 用 40-60个线程去跑分词,会更快。
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。