PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

分词能不能加速?

Open wencan opened this issue 1 year ago • 4 comments

请提出你的问题

paddleNLP的分词(默认模式和加速模式)效果不错。 但即使用上GPU,即使采用批量模式,还是太慢。 ai studio 上V100 三个小时,才处理100W。 现在有3000w需要分词。 有什么加速的办法?

wencan avatar Dec 30 '23 08:12 wencan

建议使用cpu多线程处理。

ZHUI avatar Jan 18 '24 10:01 ZHUI

@ZHUI 不用GPU?

wencan avatar Jan 19 '24 05:01 wencan

我自己做过预训练数据处理,https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-1.0/preprocess

ernie-1.0 先分词 然后 mask 训练。实际情况是同时 用 40-60个线程去跑分词,会更快。

ZHUI avatar Jan 19 '24 06:01 ZHUI

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] avatar Apr 27 '24 00:04 github-actions[bot]