Debris
Debris
0.10.x版本下, 启动server会报错:ModuleNotFoundError: No module named 'paddleocr.paddleocr'; 'paddleocr' is not a package
> ### Describe the Question > Please provide a clear and concise description of what the question is. > > 用大约2B token数据进行13B模型的增量预训练,训练一个epoch,不使用peft,8个a800,预计耗时400小时,远超出理论时间,可能是什么原因,正常情况下一般多久 想问下你这个项目的进展,请教下经验
在pt阶段,注意到代码对预训练数据(比如书籍)的处理是 group by length,也查看了medical_book_zh.json 中的样本,感觉这种方式得到的样本质量比较差,增量预训练不会受到影响吗?
[WslLogs-2025-05-09_19-57-20.zip](https://github.com/user-attachments/files/20121343/WslLogs-2025-05-09_19-57-20.zip)